【引言】這篇文章原載於內刊,現發佈於此。內容有所删减。
基於大資料分析的安全管理平臺科技研究及應用
Research and Application of Big Data Analysis Based Security Management Platform
Last Modified By yepeng @ 2014-1-14
【內容摘要】本文首先通過介紹大數據的起因,給出了大數據的定義和特徵描述,並簡要說明了當前大數據的研究概況。接下來,本文闡釋了大資料分析科技,對大數據在資訊安全領域尤其是安全管理平臺領域的應用做了深入分析,並給出了基於大資料安全分析科技的安全管理平臺的基本特徵。最後,針對一個基於大資料安全分析科技的新一代安全管理平臺從5V角度進行了深入介紹,並強調了安全分析師的關鍵作用。
無所不在的大數據
毫無疑問,我們已經進入了大數據(Big Data)時代。人類的生產生活每天都在產生大量的數據,並且產生的速度越來越快。根據IDC和EMC的聯合調查,到2020年全球數據總量將達到40ZB。
什麼是大數據?大數據早就存在,只是一直沒有足够的基礎實施和科技來對這些數據進行有價值的挖據。隨著存儲成本的不斷下降、以及分析科技的不斷進步,尤其是云計算的出現,不少公司已經發現了大數據的巨大價值:它們能揭示其他手段所看不到的新變化趨勢,包括需求、供給和顧客習慣等等。比如,銀行可以以此對自己的客戶有更深入的瞭解,提供更有個性的定制化服務;銀行和保險公司可以發現詐騙和騙保;零售企業更精確探知顧客需求變化,為不同的細分客戶群體提供更有針對性的選擇;製藥企業可以以此為依據開發新藥,詳細追跡藥物療效,並監測潜在的副作用;安全公司則可以識別更具隱蔽性的***、***和違規。
圖:硬碟每GB的成本變化(1980-2009年)【來源:http://www.mkomo.com/cost-per-gigabyte】
《華爾街日報》將大數據時代、智能化生產和無線網路革命稱為引領未來繁榮的三大科技變革。麥肯錫公司的報告指出數據是一種生產資料,大數據是下一個創新、競爭、生產力提高的前沿。世界經濟論壇的報告認定大數據為新財富,價值堪比石油。
不論從科技、還是商業角度,大數據都成為當下絕對的熱點。2013年,Gartner將大數據列為未來資訊架構發展的10大趨勢之首。Gartner預測將在2011年到2016年間累計創造2320億美元的產值。
大數據的定義
如何定義大數據?《大數據的沖擊》一書將大數據通俗定義為“用現有的一般科技難以管理的大量數據的集合”,並廣義地定義為“一個綜合性概念,它包括因具備3V(海量/高速/多樣,Volume /Variety/Velocity)特徵而難以進行管理的數據,對這些數據進行存儲、處理、分析的科技,以及能够通過分析這些數據獲得實用意義和觀點的人才和組織。”
Gartner將大數據定義為“海量、高速、多變的資訊資產,需要對它進行經濟的、創新性的資訊處理從而獲得超越以往的洞察力、決策支援能力和處理的自動化”(high volume,velocity and/or variety information assets that demand cost-effective,innovative forms of information processing that enableenhanced insight,decision making,and process automation)。
大數據的基本特徵
大數據的三個公認的基本特點是3V,即海量、高速和多變。海量是指數據容量越來越大;高速表示需要處理的速度和響應的時間越來越快,對系統的延時要求相當高;多變就要處理各種各樣類型的數據,包括結構化的、半結構化的、甚至是非結構化的數據。
IBM在上述三個特點基礎之上新增了一個V(Veracity),即“真實性”、“準確性”。IBM認為只有真實而準確的數據才能讓對數據的管控和治理真正有意義。
此外,業界還有人總結出其它的大數據特點,例如低價值密度(Value)、存活性(Viability),等等。低價值密度是指大數據中真正有意義的資訊含量比重低;存活性是指特定情况下的大數據具有很强的時效性。
大數據的研究概況
在IT領域,大數據也是最熱門的科技領域之一。Gartner在2012年繪製的Hype Cycle曲線展示出了當前大數據科技欣欣向榮的一番景象。
Gartner將大數據相關科技分為三個門類,分別是大數據支撐科技、大數據應用科技和針對新型數據進行分析的科技。
我國工程院院士鄔賀銓將大數據科技從所面臨的挑戰的角度分為四個方面,分別是數據收集、資料存儲、資料處理和數據視覺化。
微軟張亞勤將大數據劃分為三個層次,分別是數據的管理、數據的擴充和數據的呈現。
IBM的Stephen Watt給出了一個大數據生態系統的模型,將大數據科技劃分為7個部分,包括數據產生、資料存儲、資料處理、數據分享、數據檢索、資料分析、數據視覺化,如下圖:
大數據需要數據分析師
以上所有針對大數據的定義和特點的闡述,都缺少一個重要的大數據組成要素——數據分析師(或者稱為數據科學家,Data Scientist)。在當前技術條件下,大資料分析的結果要想獲得最大程度的價值發揮需要借助專業的資料分析人員。
Natahn Yau首先提出“數據科學家就是能够從大型數据集中析取出數據,並提供某些可供非數據專家使用的東西的人”。《福布斯》雜誌認為“數據科學家就是採用科學方法、運用資料挖掘工具尋找新的數據洞察的工程師”。《哈佛商業評論》將數據科學家列為二十一世紀最性感的職業。
這表明,大數據科技要發揮作用仍然需要人的參與,並且是專業的數據分析師的參與。
大資料安全分析
大資料分析的定義
大數據科技的覈心就是大資料分析(Big Data Analysis)。一般地,人們將大資料分析定義為一組能够高效存儲和處理海量數據、並有效達成多種分析目標的工具及科技的集合。
Gartner將大資料分析定義為追求顯露模式檢測和發散模式檢測,以及强化對過去未連接資產的使用的實踐和方法(the practices and technology used to pursue emerging and divergent pattern detection as well as enhance the use of previously disconnected informationassets),意即一套針對大數據進行知識發現的方法。
通俗地講,大資料分析科技就是大數據的收集、存儲、分析和視覺化的科技,是一套能够解决大數據的4V(海量、高速、多變、低密度)問題,分析出高價值的資訊的工具集合。
大資料分析的基本科技支撐
從科技支撐架構的角度來看,大資料分析是一個軟體技術框架(Framework),主要包括以下能力:
1)能够處理特別巨大的數据集(Volume)2)提供極快的數據插入操作(Velocity)3)能够操作多種資料類型(Variety)4)要支持實时資料分析和歷史資料分析5)提供多種資料分析方法/模型6)使用分佈式並行處理機制(Volume & Velocity)
其中,大資料分析基本的特徵就是這個軟體技術框架應該具有一個分佈式開發框架。這個分佈式開發框架可以是開源的Hadoop,或者其它具有相似分佈式平行計算能力的框架,能够實現Map/Reduce計算,能够實現分散式運算節點的統一調度和彈性部署。基於這個分佈式開發框架,實現海量數據的分佈式採集、分佈式存儲、分佈式分析計算。
大資料分析的另一個科技支撐是海量數據的存儲技術。面對海量的數據,傳統的關係型數據庫已然無法滿足需要,需要進行改進或者革新。大資料分析系統的軟體技術框架必然會使用某種分散式資料庫科技或者NoSQL(非關係型數據庫)科技。
此外,一個實用的大資料分析系統一般都要同時具備實时資料分析與歷史資料分析能力。要獲得歷史資料分析能力,通常就是借助分佈式開發框架的Map/Reduce批次處理計算來實現。當然,有的大數據歷史分析系統還具備互動式計算能力(例如Google Dremel),實現快速查詢。而要獲得實时資料分析能力,分佈式開發框架及其Map/Reduce計算模型就顯得力不從心了。這時候需要一個實时的流資料處理引擎,通常是採用CEP(Complex Event Processing,複雜事件處理)或者ESP(Event Stream Processing,事件流處理)科技的流資料處理引擎。
綜上所述,從開發者的角度來看,大資料分析的底層科技支撐包括三個:
1)分散式運算框架(例如Hadoop,或者其他具有Map/Reduce機制的計算框架)2)分佈式存儲機制(例如分散式資料庫、HDFS、NoSQL)3)流式計算框架(例如CEP、ESP)
從大資料分析到大資料安全分析
當前網絡與資訊安全領域,正在面臨多種挑戰。一方面,企業和組織安全體系架構日趨複雜,各種類型的安全數據越來越多,傳統的分析能力明顯力不從心;另一方面,新型威脅的興起,內控與合規的深入,傳統的分析方法存在諸多缺陷,越來越需要分析更多的安全資訊、並且要更加快速的做出判定和響應。資訊安全也面臨大數據帶來的挑戰。安全數據的大數據化主要體現在以下三個方面:
1)數據量越來越大:網絡已經從千兆邁向了萬兆,網路安全設備要分析的數据包數據量急劇上升。同時,隨著NGFW的出現,安全閘道要進行應用層協定的分析,分析的數據量更是大增。與此同時,隨著安全防禦的縱深化,安全監測的內容不斷細化,除了傳統的***監測,還出現了合規監測、應用監測、用戶行為監測、效能檢測、事務監測,等等,這些都意味著要監測和分析比以往更多的數據。此外,隨著APT等新型威脅的興起,全包捕獲科技逐步應用,海量資料處理問題也日益凸顯。2)速度越來越快:對於網路設備而言,包處理和轉發的速度需要更快;對於安管平臺、事件分析平臺而言,資料來源的事件發送速率(EPS,Event per Second,事件數每秒)越來越快。3)種類越來越多:除了數据包、日誌、資產數據,還加入了漏洞資訊、配寘資訊、身份與訪問資訊、用戶行為資訊、應用資訊、業務資訊、外部情報資訊等。於是,業界出現了將大資料分析科技應用於資訊安全的科技——大資料安全分析(Big Data Security Analysis,簡稱BDSA),也有人稱做大安全資料分析(Big Security Data Analysis)。兩者儘管表述有差异,但內涵一致。前者強調基於大數據科技的安全分析,分析安全問題;後者強調大資料分析的對象是安全數據。
在網路安全領域,大資料安全分析將包括以下幾個應用領域:
1)安全事件管理和安全管理平臺:這將是大資料安全分析的覈心應用,也被稱作安全分析平臺(Security Analytics Platform),後文將詳述。2)APT檢測,包括全包捕獲科技3)0day惡意程式碼分析,包括沙箱科技4)網絡取證分析5)網絡异常流量檢測6)大規模用戶行為分析7)安全情報分析8)信譽服務9)程式碼安全分析
2012年3月,Gartner發表了一份題為《Information Security Is Becoming a Big Data AnalyticsProblem》的報告,表示資訊安全問題正在變成一個大資料分析問題,大規模的安全數據需要被有效地關聯、分析和挖掘,並預測未來將出現安全分析平臺,以及部分企業在未來五年將出現一個新的崗位——“安全分析師”或“安全數據分析師”。
對於大資料安全分析而言,最關鍵的不在於大數據本身,而在於對這些數據的分析方法。大資料安全分析可以用到大資料分析的所有普適性的方法和科技,但當應用到網路安全領域的時候,還必須考慮到安全數據自身的特點和安全分析的目標,這樣大資料安全分析的應用才更有價值。例如,在進行异常行為分析,或者惡意程式碼分析和APT***分析的時候,分析模型才是最重要的。其次,才是考慮如何利用大資料分析科技(例如平行計算、實时計算、分散式運算)來實現這個分析模型。
基於大資料分析科技的安全管理平臺
安全管理平臺呼喚大資料分析
在所有網路安全領域中,大資料分析對安全管理平臺(SOC平臺)及安全資訊與事件分析(SIEM)系統的影響最為深遠。這也是與它們先天的大資料分析特質密切相關的。安全管理平臺,有的也稱作SOC(Security OperationsCenter,安全運營中心)平臺,一般是指以資產為覈心,以安全事件管理為關鍵流程,採用安全域劃分的思想,建立一套實时的資產風險模型,協助管理員進行事件分析、風險分析、預警管理和應急響應處理的集中安全管理系統。
安全管理平臺的覈心之一便是安全資訊與事件管理,也稱作SIEM(Security Information and Event Management)系統。通常,SIEM為來自企業和組織中所有IT資源(包括網絡、系統和應用)產生的安全資訊(包括日誌、告警等)進行統一的即時監控、歷史分析,對來自外部的***和內部的違規、誤操作行為進行監控、稽核分析、調查取證、出具各種報表報告,實現IT資源合規性管理的目標,同時提升企業和組織的安全運營、威脅管理和應急回應能力。
下圖顯示了一個典型的SIEM系統的結構圖:
由圖可知,一般的SIEM系統都具有安全事件(日誌)的採集、範化、存儲、分析、展示等幾個過程,而這與大資料分析的收集、存儲、分析和視覺化過程是完全相同的。囙此,SIEM天然具有應用大資料分析科技的特質。
安全管理平臺是在SIEM系統的基礎上,對採集的數據進行了大規模的擴充,並新增了分析模型,實現了基於風險的資產和業務的集中安全管理。
安全管理平臺的覈心是多樣化的安全要素資訊採集與存儲、多種安全分析與展示。而這與大資料分析的特徵也是完全吻合的。
當前,安全管理平臺的一個重要發展趨勢就是採集的安全數據種類越來越多,不僅包括傳統的資產資訊、事件資訊,還納入了漏洞資訊、效能資訊、流量資訊、配寘資訊、業務資訊等等。與此同時,安全數據的產生速率和總量也急速增長。大型企業越來越傾向於採用集中化的安全管理平臺構建模式,單一管理平臺就要管理全網的安全資訊,安全事件產生的速率達到上萬EPS,甚至是上10萬EPS,每天存儲的事件量則達到上百GB,甚至是上TB。另一方面,用戶需要安全管理平臺提供更加精准的安全分析研判和問題定位,更加快速的安全應急回應與處置,對安全分析的準確性和分析結論價值度的要求越來越高。這一切都促使安全管理平臺的科技開發者求助於大資料分析科技。
大資料安全分析首選安全管理平臺
SANS在2013年9月份發佈的《安全分析調查》報告顯示,客戶進行大資料安全分析的時候,首選的是日誌管理、SIEM等安全管理平臺類系統。並且,超過60%的受訪客戶表示未來實現安全分析目標的首要投資對象是SIEM。
由此可見,現時來說,在所有大資料安全分析的應用領域中,SIEM及其安全管理平臺是最重要的。
應該說,大資料分析科技並不能保證安全管理平臺能够應對上述挑戰,但卻給安全管理平臺應對這些挑戰提供了全新的科技思路和發展模式。當安全管理平臺遇上大資料分析,讓用戶和開發者看到了安全管理平臺未來科技發展的一個全新方向。
基於大資料安全分析科技的安全管理平臺基本特徵
基於大資料安全分析科技的安全管理平臺具有以下顯著特徵:
1)Velocity:高速日誌採集能力、高速事件分析能力;2)Variety:支持多種日誌源和日誌類型,並支持對半結構化(例如原始數據報文、郵件、WEB請求與響應)和非結構化資訊(例如可疑程式碼)的採集,具備異構數據間的關聯分析(即情境關聯)能力;3)Volume:海量的事件存儲能力、海量資料分析能力;4)valuablity:分析研判的結果是真正有價值的資訊、值得去關注的資訊,是可以用於輔助決策的資訊。這就意味著需要有效的資料分析方法和工具;5)Visualization:安全分析結果的視覺化呈現能力。
必須至少同時滿足上述5V,才能將一個安全管理平臺稱為基於大資料安全分析科技的安全管理平臺。
基於大資料分析的新一代安全管理平臺介紹
【略】
小結
大數據時代已經到來,我們創造的大數據正在改變人類生產生活的各個方面。資訊與網路安全作為保障IT數位資產的關鍵能力也正在被大數據所重新塑造。安全管理平臺,作為安全保障體系中位於頂層的科技支撐平臺,天然具有與大數據結合的特質。基於大資料安全分析科技的安全管理平臺正在成為未來安全管理平臺發展的重要科技方向。
同時,我們必須看到,不論安全管理平臺的科技如何發展,如何與大數據結合,安全管理平臺所要解决的客戶根本性問題,以及與客戶業務融合的趨勢依然未變。對大數據的應用依然要服務於解决客戶的實際安全管理問題這個根本目標。
目前來看,大資料分析科技有助於我們更好地去解决安全管理過程中的部分問題,但並不能解决所有的問題,同時還可能引入了新的問題。這是安全管理平臺的開發者、服務提供者和客戶都需要不斷摸索的。
此外,不論安全管理平臺科技如何發展,大資料分析給我們帶來了多大程度的資訊價值度提升,安全分析師始終是不可或缺的。正如大數據需要數據分析師,大資料安全更需要安全分析師。安全,本質上是人與人之間的對抗,不論安全分析的自動化科技如何演進,相互之間進行對抗的,始終是坐在荧幕前的人。