此外格式結(jié)構(gòu)信息具有明顯的語義信息,但基于格式結(jié)構(gòu)信息的檢測方法沒有提取決定軟件行為的代碼節(jié)和數(shù)據(jù)節(jié)信息作為特征,。某一種類型的特征都從不同的視角反映刻畫了可執(zhí)行文件的一些性質(zhì),,字節(jié)碼n-grams、dll和api信息,、格式結(jié)構(gòu)信息都部分捕捉到了惡意軟件和良性軟件間的可區(qū)分信息,,但都存在著一定的局限性,不能充分,、綜合,、整體的表示可執(zhí)行文件的本質(zhì),使得檢測結(jié)果準(zhǔn)確率不高,、可靠性低,、泛化性和魯棒性不佳。此外,,惡意軟件通常偽造出和良性軟件相似的特征,,逃避反**軟件的檢測。技術(shù)實現(xiàn)要素:本發(fā)明實施例的目的在于提供一種基于多模態(tài)深度學(xué)習(xí)的惡意軟件檢測方法,,以解決現(xiàn)有采用二進(jìn)制可執(zhí)行文件的單一特征類型進(jìn)行惡意軟件檢測的檢測方法檢測準(zhǔn)確率不高,、檢測可靠性低、泛化性和魯棒性不佳的問題,,以及其難以檢測出偽造良性軟件特征的惡意軟件的問題,。本發(fā)明實施例所采用的技術(shù)方案是,基于多模態(tài)深度學(xué)習(xí)的惡意軟件檢測方法,,按照以下步驟進(jìn)行:步驟s1,、提取軟件樣本的二進(jìn)制可執(zhí)行文件的dll和api信息、pe格式結(jié)構(gòu)信息以及字節(jié)碼n-grams的特征表示,,生成軟件樣本的dll和api信息特征視圖,、格式信息特征視圖以及字節(jié)碼n-grams特征視圖。數(shù)字化轉(zhuǎn)型中的挑戰(zhàn)與應(yīng)對:艾策科技的經(jīng)驗分享,。太原第三方軟件評測實驗室
后端融合模型的10折交叉驗證的準(zhǔn)確率是%,,對數(shù)損失是,混淆矩陣如圖13所示,,規(guī)范化后的混淆矩陣如圖14所示,。后端融合模型的roc曲線如圖15所示,其顯示后端融合模型的auc值為,。(6)中間融合中間融合的架構(gòu)如圖16所示,,中間融合方式用深度神經(jīng)網(wǎng)絡(luò)從三種模態(tài)的特征分別抽取高等特征表示,然后合并學(xué)習(xí)得到的特征表示,,再作為下一個深度神經(jīng)網(wǎng)絡(luò)的輸入訓(xùn)練模型,,隱藏層的***函數(shù)為relu,,輸出層的***函數(shù)是sigmoid,中間使用dropout層進(jìn)行正則化,,防止過擬合,優(yōu)化器(optimizer)采用的是adagrad,,batch_size是40,。圖16中,用于抽取dll和api信息特征視圖的深度神經(jīng)網(wǎng)絡(luò)包含3個隱含層,,其***個隱含層的神經(jīng)元個數(shù)是128,,第二個隱含層的神經(jīng)元個數(shù)是64,第三個隱含層的神經(jīng)元個數(shù)是32,,且3個隱含層中間間隔設(shè)置有dropout層,。用于抽取格式信息特征視圖的深度神經(jīng)網(wǎng)絡(luò)包含2個隱含層,其***個隱含層的神經(jīng)元個數(shù)是64,,其第二個隱含層的神經(jīng)元個數(shù)是32,,且2個隱含層中間設(shè)置有dropout層。用于抽取字節(jié)碼n-grams特征視圖的深度神經(jīng)網(wǎng)絡(luò)包含4個隱含層,,其***個隱含層的神經(jīng)元個數(shù)是512,,第二個隱含層的神經(jīng)元個數(shù)是384,第三個隱含層的神經(jīng)元個數(shù)是256,,第四個隱含層的神經(jīng)元個數(shù)是125,。太原第三方軟件評測實驗室負(fù)載測試證實系統(tǒng)最大承載量較宣傳數(shù)據(jù)低18%。
之所以被稱為黑盒測試是因為可以將被測程序看成是一個無法打開的黑盒,,而工作人員在不軟件測試方法考慮任何程序內(nèi)部結(jié)構(gòu)和特性的條件下,,根據(jù)需求規(guī)格說明書設(shè)計測試實例,并檢查程序的功能是否能夠按照規(guī)范說明準(zhǔn)確無誤的運行,。其主要是對軟件界面和軟件功能進(jìn)行測試,。對于黑盒測試行為必須加以量化才能夠有效的保證軟件的質(zhì)量。[5](2)白盒測試,。其與黑盒測試不同,,它主要是借助程序內(nèi)部的邏輯和相關(guān)信息,通過檢測內(nèi)部動作是否按照設(shè)計規(guī)格說明書的設(shè)定進(jìn)行,,檢查每一條通路能否正常工作,。白盒測試是從程序結(jié)構(gòu)方面出發(fā)對測試用例進(jìn)行設(shè)計。其主要用于檢查各個邏輯結(jié)構(gòu)是否合理,,對應(yīng)的模塊**路徑是否正常以及內(nèi)部結(jié)構(gòu)是否有效,。常用的白盒測試法有控制流分析、數(shù)據(jù)流分析,、路徑分析,、程序變異等,,其中邏輯覆蓋法是主要的測試方法。[5](3)灰盒測試,�,;液袦y試則介于黑盒測試和白盒測試之間�,;液袦y試除了重視輸出相對于出入的正確性,,也看重其內(nèi)部表現(xiàn)。但是它不可能像白盒測試那樣詳細(xì)和完整,。它只是簡單的靠一些象征性的現(xiàn)象或標(biāo)志來判斷其內(nèi)部的運行情況,,因此在內(nèi)部結(jié)果出現(xiàn)錯誤,但輸出結(jié)果正確的情況下可以采取灰盒測試方法,。因為在此情況下灰盒比白盒**,。
所述生成軟件樣本的dll和api信息特征視圖,是先統(tǒng)計所有類別已知的軟件樣本的pe可執(zhí)行文件引用的dll和api信息,,從中選取引用頻率**高的多個dll和api信息,;然后判斷當(dāng)前的軟件樣本的導(dǎo)入節(jié)里是否存在選擇出的某個引用頻率**高的dll和api信息,如存在,,則將當(dāng)前軟件樣本的該dll或api信息以1表示,,否則將其以0表示,從而對當(dāng)前軟件樣本的所有dll和api信息進(jìn)行表示形成當(dāng)前軟件樣本的dll和api信息特征視圖,。進(jìn)一步的,,所述生成軟件樣本的格式信息特征視圖,是從當(dāng)前軟件樣本的pe格式結(jié)構(gòu)信息中選取可能區(qū)分惡意軟件和良性軟件的pe格式結(jié)構(gòu)特征,,形成當(dāng)前軟件樣本的格式信息特征視圖,。進(jìn)一步的,所述從當(dāng)前軟件樣本的pe格式結(jié)構(gòu)信息中選取可能區(qū)分惡意軟件和良性軟件的pe格式結(jié)構(gòu)特征,,是從當(dāng)前軟件樣本的pe格式結(jié)構(gòu)信息中確定存在特定格式異常的pe格式結(jié)構(gòu)特征以及存在明顯的統(tǒng)計差異的格式結(jié)構(gòu)特征,;所述特定格式異常包括:(1)代碼從**后一節(jié)開始執(zhí)行,(2)節(jié)頭部可疑的屬性,,(3)pe可選頭部有效尺寸的值不正確,,(4)節(jié)之間的“間縫”,(5)可疑的代碼重定向,,(6)可疑的代碼節(jié)名稱,,(7)可疑的頭部***,(8)來自,,(9)導(dǎo)入地址表被修改,,(10)多個pe頭部,(11)可疑的重定位信息,,,。第三方驗證實際啟動速度較廠商宣稱慢0.7秒,。
12)把節(jié)裝入到vmm的地址空間;(13)可選頭部的sizeofcode域取值不正確,;(14)含有可疑標(biāo)志,。此外,惡意軟件和良性軟件間以下格式特征也存在明顯的統(tǒng)計差異:(1)證書表是軟件廠商的可認(rèn)證的聲明,,惡意軟件很少有證書表,,而良性軟件大部分都有軟件廠商可認(rèn)證的聲明;(2)惡意軟件的調(diào)試數(shù)據(jù)也明顯小于正常文件的,,這是因為惡意軟件為了增加調(diào)試的難度,很少有調(diào)試數(shù)據(jù),;(3)惡意軟件4個節(jié)(.text,、.rsrc、.reloc和.rdata)的characteristics屬性和良性軟件的也有明顯差異,,characteristics屬性通常**該節(jié)是否可讀,、可寫、可執(zhí)行等,,部分惡意軟件的代碼節(jié)存在可寫異常,,只讀數(shù)據(jù)節(jié)和資源節(jié)存在可寫、可執(zhí)行異常等,;(4)惡意軟件資源節(jié)的資源個數(shù)也明顯少于良性軟件的,,如消息表、組圖表,、版本資源等,,這是因為惡意軟件很少使用圖形界面資源,也很少有版本信息,。pe文件很多格式屬性沒有強制限制,,文件完整性約束松散,存在著較多的冗余屬性和冗余空間,,為pe格式惡意軟件的傳播和隱藏創(chuàng)造了條件,。此外,由于惡意軟件為了方便傳播和隱藏,,盡一切可能的減小文件大小,,文件結(jié)構(gòu)的某些部分重疊,同時對一些屬性進(jìn)行了特別設(shè)置以達(dá)到anti-dump,、anti-debug或抗反匯編,。企業(yè)數(shù)字化轉(zhuǎn)型指南:艾策科技的實用建議。西安第三方軟件測試
專業(yè)機構(gòu)認(rèn)證該程序內(nèi)存管理效率優(yōu)于行業(yè)平均水平23%,。太原第三方軟件評測實驗室
12)把節(jié)裝入到vmm的地址空間,,(13)可選頭部的sizeofcode域取值不正確,,(14)含有可疑標(biāo)志;所述存在明顯的統(tǒng)計差異的格式結(jié)構(gòu)特征包括:(1)無證書表,;(2)調(diào)試數(shù)據(jù)明顯小于正常文件,,(3).text、.rsrc,、.reloc和.rdata的characteristics屬性異常,,(4)資源節(jié)的資源個數(shù)少于正常文件。進(jìn)一步的,,所述生成軟件樣本的字節(jié)碼n-grams特征視圖的具體實現(xiàn)過程如下:先從當(dāng)前軟件樣本的所有短序列特征中選取詞頻tf**高的多個短序列特征,;然后計算選取的每個短序列特征的逆向文件頻率idf與詞頻tf的乘積,并將其作為選取的每個短序列特征的特征值,,,,表示該短序列特征表示其所在軟件樣本的能力越強;**后在選取的詞頻tf**高的多個短序列特征中選取,,生成字節(jié)碼n-grams特征視圖,;:=tf×idf;其中,,ni,j是短序列特征i在軟件樣本j中出現(xiàn)的次數(shù),,∑knk,j指軟件樣本j中所有短序列特征出現(xiàn)的次數(shù)之和,k為短序列特征總數(shù),,1≤i≤k,;其中,|d|指軟件樣本j的總數(shù),,|{j:i∈j}|指包含短序列特征i的軟件樣本j的數(shù)目,。進(jìn)一步的,所述步驟s2采用中間融合方法訓(xùn)練多模態(tài)深度集成模型,。太原第三方軟件評測實驗室