作者:{Esi}@ArkTeam
原文作者:Joshua Saxe,Richard Harang,CodyWild,Hillary Sanders
原文標題:A Deep Learning Approach to Fast,Format-Agnostic Detection of Malicious Web Content
原文出處:arXiv preprint arXiv:1804.050202018.
惡意網頁內容是當今網絡攻擊的一個主要因素。這種惡意內容分為兩類。第一類是攻擊者利用瀏覽器軟件漏洞在用戶電腦上實現惡意目的。第二類是網路釣魚,其目標是欺騙用戶洩露財務資訊或登入憑據。檢測和封锁此類內容存在多種挑戰。首先,檢測方法必須在用戶端和防火牆中使用的商用硬體上快速運行,這樣才不會降低用戶的瀏覽體驗。其次,檢測方法必須能够抵禦惡意網絡內容中的語法和語義變化。最後,檢測方法必須能够在大海撈針中找到針:能够找到嵌入在其他良性網頁內容中的小程式碼片段。
過去關於web內容檢測的工作主要依賴於語法分析或類比HTML和Javascript來選取特徵,這樣做的效率會比較低,基於這樣的問題,本文提出了一種深度學習的方法來檢測惡意網頁,使用簡單正則表達式從靜態HTML檔案中選取與語言無關的標記,這種方法可以足够快的進行檢測,同時可以在防火牆和web代理等高額數據環境中運行,並允許它避免複雜解析和模擬程式碼的攻擊面暴露,最後在多個分層空間尺度上進行檢查。
本文的方法涉及一個特徵提取器,它從HTML檔案中解析出一系列權杖,以及一個神經網路模型,通過在層級聚合級別使用共亯權重檢查來做出分類決策。下麵是本文方法的整個系統的每個邏輯組件的介紹:
1. 使用以下規則運算式對HTML檔案進行標記:([\ x00- \ x7F] + | \ w +),將檔案沿非字母數位單詞邊界切割;
2. 將權杖流分成16個相等長度的連續塊(其中切割後的檔案length被定義為權杖數);
3. 最後使用散列技巧的修改版本,將每個權杖塊散列到1024個分區,為每個塊創建一個單詞樣式表示;
4. 將得到的HTML檔案的特徵表示,輸入到神經網路中。
作者測試了本文對從威脅情報網站VirusTotal收集的數據的方法。VirusTotal每天接收數萬個新的HTML檔案,使用來自數十家安全供應商的60個Web威脅掃描程式掃描它們。Sophos訂閱了VirusTotal的付費威脅情報服務,作為此訂閱的一部分,會收到提交給VirusTotal的每個HTML檔案及其相應的掃描結果。本文中使用的實驗數据集是在2017年前10個月從VirusTotal Feed中收集的,如圖1所示。
圖1首次出現在VirusTotal上的本文培訓和驗證的集中樣本
最後本文的實驗結果作為ROC(接收器工作特性)曲線給出,它們顯示了當調整檢測閾值時真實陽性率(y軸)和假陽性率(x軸)之間的權衡。
圖2模型與兩個標記包樣式基線的效能
作者將本文提出的方法與許多基線進行比較,包括簡單的詞袋模型和更複雜的深層體系結構,並表明它以合理的計算成本實現了最佳結果。本文方法實現了超過97%的檢測率,並且誤報率只有0.1%,本文的結果表明利用深度學習的惡意內容檢測模型可以基於簡單的權杖流輸入來學習Web內容。