> 產品中心 > 雲應用 > 大數據審計
      產品背景
      產品流程
      產品功能

大數據正以難以想象的發展速度帶來新一輪信息化革命,它給AG8帶來新的思維變革、商業變革和管理變革,因此針對大數據的審計,也必將麵臨其帶來的機遇與挑戰。

大數據有四個顯著的特點:第一,數據體量巨大。從TB級別,躍升到PB級別。第二,數據類型繁多。網絡日誌、視頻、圖片、地理位置信息等等都是AG8需要分析的數據類型。第三,價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。第四,處理速度快,1秒定律。一般要在秒級時間範圍內給出分析結果,時間太長就失去價值了。其中最後這點和傳統的數據挖掘技術有著本質的不同和提高。

大數據時代來臨首先由數據豐富度決定的。社交網絡興起,大量的UGC(User Generated Content,即用戶生成內容的意思)內容、音頻、文本信息、視頻、圖片等非結構化數據出現了。美國互聯網數據中心指出,互聯網上的數據每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數據是最近幾年才產生的。

此外,數據又並非單純指人們在互聯網上發布的信息,伴隨著各種隨身設備、物聯網和雲計算、雲存儲等技術的發展,人和物的所有軌跡都可以被記錄。全世界的工業設備、汽車、電表上有著無數的數碼傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化,這也產生了海量的數據信息。

與過去AG8接觸與收集到的結構化數據有所不同,這些數據中存在大量非結構化和半結構化數據,把這些數據在下載到關係型數據庫用於分析時會花費大量時間和金錢。

正基於這樣的海量數據背景,對數據審計提出了新的要求。我公司開發的大數據審計產品,以HBase平台為基礎。HBase是專門設計用來快速隨機讀寫大規模數據,其運行在普通商用服務器上,可以平滑擴展,目前已成功應用於互聯網領域及各傳統行業的眾多在線式數據分析處理係統中。伴隨著HBase的廣泛應用,如何便捷、有效、安全地管控HBase顯得尤為重要,大數據平台產品係統即為服務於此類用戶而量身定製的。

與AG8傳統的審計分析和處理數據相似,“大數據”時代的數據處理也要經過采集、導入及預處理、統計及分析、挖掘幾個方麵來實現。但由於其數據量巨大,同時又存在大量的非結構化數據,因此在每一個處理過程中又與審計數據處理有所不同。

1.采集。在采集過程中,除了可以使用傳統的關係型數據庫MySQL和Oracle等來存儲每一筆事務數據,還可以利用Redis和MongoDB這樣的NoSQL數據庫用於數據的采集。在大數據的采集過程中,其主要特點和挑戰是並發數高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,所以需要在采集端部署大量數據庫才能支撐。而審計部門一般不需要采取實時的數據,因此對大數據的采集基本上以采集備份數據和熱備數據為主,不需要過多的考慮並發的問題。

2.導入及預處理。在大數據環境下,雖然采集端本身已經有很多數據庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分布式數據庫,或者分布式存儲集群,並且可以在導入基礎上做一些簡單的清洗和預處理工作。這些與目前審計部門的數據導入及建立審計中間表的過程非常類似,所不同的是導入的數據量非常大,每秒鍾的導入量經常會達到百兆,甚至千兆級別。

3.統計及分析。統計與分析主要利用分布式數據庫,或者分布式計算集群來對存儲於其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求。而審計部門也需要對業務數據進行相關的統計與分析。由於數據量的差別,大數據環境下,對係統資源,特別是I/O會有極大的占用。

4.挖掘。與前麵統計及分析過程不同的是,大數據環境下的數據挖掘一般沒有什麽預先設定好的主題,主要是在現有數據上麵進行基於各種算法的計算,從而起到預測的效果,並進一步實現一些高級別數據分析的需求。而由於審計時間的限製,審計部門對數據的挖掘一般情況是有著明顯的主題,或是法律法規以及相關政委的許可,或是審計人員的主觀經驗,或是已成型的審計分析模型等等。

大數據平台係統主要功能如下:

1.狀態監控:監控集群各運行指標,對數據管理平台的性能指標一目了然;

2.數據管理:包含數據源管理、數據集管理兩部分功能,分別實現來源數據,和數據集合的不同應用場景;

3.安全認證:為避免無授權人員的隨意訪問,造成潛在的風險,啟用基於kerberos的安全認證;

4.數據管控:通過匹配策略機製,實現對操作人員的數據操作進行管控;

5.日誌審計:詳細記錄用戶在大數據庫平台的操作信息,並提供查詢界麵針對日誌信息進行審計。