12)把節(jié)裝入到vmm的地址空間,,(13)可選頭部的sizeofcode域取值不正確,,(14)含有可疑標(biāo)志;所述存在明顯的統(tǒng)計(jì)差異的格式結(jié)構(gòu)特征包括:(1)無證書表;(2)調(diào)試數(shù)據(jù)明顯小于正常文件,(3).text,、.rsrc、.reloc和.rdata的characteristics屬性異常,(4)資源節(jié)的資源個(gè)數(shù)少于正常文件,。進(jìn)一步的,所述生成軟件樣本的字節(jié)碼n-grams特征視圖的具體實(shí)現(xiàn)過程如下:先從當(dāng)前軟件樣本的所有短序列特征中選取詞頻tf**高的多個(gè)短序列特征,;然后計(jì)算選取的每個(gè)短序列特征的逆向文件頻率idf與詞頻tf的乘積,,并將其作為選取的每個(gè)短序列特征的特征值,,,表示該短序列特征表示其所在軟件樣本的能力越強(qiáng),;**后在選取的詞頻tf**高的多個(gè)短序列特征中選取,生成字節(jié)碼n-grams特征視圖,;:=tf×idf,;其中,ni,j是短序列特征i在軟件樣本j中出現(xiàn)的次數(shù),,∑knk,j指軟件樣本j中所有短序列特征出現(xiàn)的次數(shù)之和,,k為短序列特征總數(shù),1≤i≤k,;其中,,|d|指軟件樣本j的總數(shù),|{j:i∈j}|指包含短序列特征i的軟件樣本j的數(shù)目,。進(jìn)一步的,,所述步驟s2采用中間融合方法訓(xùn)練多模態(tài)深度集成模型。艾策檢測(cè)為新能源汽車電池提供安全性能深度解析,。湖南第三方軟件測(cè)評(píng)單位
將三種模態(tài)特征和三種融合方法的結(jié)果進(jìn)行了對(duì)比,,如表3所示。從表3可以看出,,前端融合和中間融合較基于模態(tài)特征的檢測(cè)準(zhǔn)確率更高,,損失率更低。后端融合是三種融合方法中較弱的,,雖然明顯優(yōu)于基于dll和api信息,、pe格式結(jié)構(gòu)特征的實(shí)驗(yàn)結(jié)果,但稍弱于基于字節(jié)碼3-grams特征的結(jié)果,。中間融合是三種融合方法中**好的,,各項(xiàng)性能指標(biāo)都非常接近**優(yōu)值。表3實(shí)驗(yàn)結(jié)果對(duì)比本實(shí)施例提出了基于多模態(tài)深度學(xué)習(xí)的惡意軟件檢測(cè)方法,,提取了三種模態(tài)的特征(dll和api信息,、pe格式結(jié)構(gòu)信息和字節(jié)碼3-grams),提出了通過三種融合方式(前端融合,、后端融合,、中間融合)集成三種模態(tài)的特征,,有效提高惡意軟件檢測(cè)的準(zhǔn)確率和魯棒性。實(shí)驗(yàn)結(jié)果顯示,,相對(duì)**且互補(bǔ)的特征視圖和不同深度學(xué)習(xí)融合機(jī)制的使用明顯提高了檢測(cè)方法的檢測(cè)能力和泛化性能,,其中較優(yōu)的中間融合方法取得了%的準(zhǔn)確率,對(duì)數(shù)損失為,,auc值為,,各項(xiàng)性能指標(biāo)已接近**優(yōu)值??紤]到樣本集可能存在噪聲,,本實(shí)施例提出的方法已取得了比較理想的結(jié)果。由于惡意軟件很難同時(shí)偽造多個(gè)模態(tài)的特征,,本實(shí)施例提出的方法比單模態(tài)特征方法更魯棒,。以上所述*為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍,。第三方軟件評(píng)測(cè)中心代碼審計(jì)發(fā)現(xiàn)2處潛在內(nèi)存泄漏風(fēng)險(xiǎn),,建議版本迭代修復(fù)。
等價(jià)類劃分法將不能窮舉的測(cè)試過程進(jìn)行合理分類,,從而保證設(shè)計(jì)出來的測(cè)試用例具有完整性和**性,。有數(shù)據(jù)輸入的地方,可以使用等價(jià)類劃分法,。從大量數(shù)據(jù)中挑選少量**數(shù)據(jù)進(jìn)行測(cè)試有效等價(jià)類:符合需求規(guī)格說明書規(guī)定的數(shù)據(jù)用來測(cè)試功能是否正確實(shí)現(xiàn)無效等價(jià)類:不合理的輸入數(shù)據(jù)**—用來測(cè)試程序是否有強(qiáng)大的異常處理能力(健壯性)使用**少的測(cè)試數(shù)據(jù),,達(dá)到**好的測(cè)試質(zhì)量邊界值分析法對(duì)輸入或輸出的邊界值進(jìn)行測(cè)試的一種黑盒測(cè)試方法。是作為對(duì)等價(jià)類劃分法的補(bǔ)充,,這種情況下,,其測(cè)試用例來自等價(jià)類的邊界。邊界點(diǎn)1,、邊界是指相對(duì)于輸入等價(jià)類和輸出等價(jià)類而言,,稍高于、稍低于其邊界值的一些特定情況,。2、邊界點(diǎn)分為上點(diǎn),、內(nèi)點(diǎn)和離點(diǎn),。如果是范圍[1,100]需要選擇0,1,2,50,99,100,101如果是個(gè)數(shù)**多20個(gè)[0,20]需要測(cè)0,10,20,-1,21因果圖分析法用畫圖的方式表達(dá)輸入條件和輸出結(jié)果之間的關(guān)系,。1恒等2與3或4非5互斥1個(gè)或者不選6***必須是1個(gè)7包含可以多選不能不選8要求如果a=1,,則要求b必須是1,反之如果a=0時(shí),,b的值無所謂9**關(guān)系當(dāng)a=1時(shí),,要求b必須為0,;而當(dāng)a=0時(shí)。
這種傳統(tǒng)方式幾乎不能檢測(cè)未知的新的惡意軟件種類,,能檢測(cè)的已知惡意軟件經(jīng)過簡單加殼或混淆后又不能檢測(cè),,且使用多態(tài)變形技術(shù)的惡意軟件在傳播過程中不斷隨機(jī)的改變著二進(jìn)制文件內(nèi)容,沒有固定的特征,,使用該方法也不能檢測(cè),。新出現(xiàn)的惡意軟件,特別是zero-day惡意軟件,,在釋放到互聯(lián)網(wǎng)前,,都使用主流的反**軟件測(cè)試,確保主流的反**軟件無法識(shí)別這些惡意軟件,,使得當(dāng)前的反**軟件通常對(duì)它們無能為力,,只有在惡意軟件大規(guī)模傳染后,捕獲到這些惡意軟件樣本,,提取簽名和更新簽名庫,,才能檢測(cè)這些惡意軟件?;跀?shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的惡意軟件檢測(cè)方法將可執(zhí)行文件表示成不同抽象層次的特征,,使用這些特征來訓(xùn)練分類模型,可實(shí)現(xiàn)惡意軟件的智能檢測(cè),,基于這些特征的檢測(cè)方法也取得了較高的準(zhǔn)確率,。受文本分類方法的啟發(fā),研究人員提出了基于二進(jìn)制可執(zhí)行文件字節(jié)碼n-grams的惡意軟件檢測(cè)方法,,這類方法提取的特征覆蓋了整個(gè)二進(jìn)制可執(zhí)行文件,,包括pe文件頭、代碼節(jié),、數(shù)據(jù)節(jié),、導(dǎo)入節(jié)、資源節(jié)等信息,,但字節(jié)碼n-grams特征通常沒有明顯的語義信息,,大量具有語義的信息丟失,很多語義信息提取不完整,。此外,,基于字節(jié)碼n-grams的檢測(cè)方法提取代碼節(jié)信息考慮了機(jī)器指令的操作數(shù)。專業(yè)機(jī)構(gòu)認(rèn)證該程序內(nèi)存管理效率優(yōu)于行業(yè)平均水平23%,。
此外格式結(jié)構(gòu)信息具有明顯的語義信息,,但基于格式結(jié)構(gòu)信息的檢測(cè)方法沒有提取決定軟件行為的代碼節(jié)和數(shù)據(jù)節(jié)信息作為特征。某一種類型的特征都從不同的視角反映刻畫了可執(zhí)行文件的一些性質(zhì),,字節(jié)碼n-grams,、dll和api信息,、格式結(jié)構(gòu)信息都部分捕捉到了惡意軟件和良性軟件間的可區(qū)分信息,但都存在著一定的局限性,,不能充分,、綜合、整體的表示可執(zhí)行文件的本質(zhì),,使得檢測(cè)結(jié)果準(zhǔn)確率不高,、可靠性低、泛化性和魯棒性不佳,。此外,,惡意軟件通常偽造出和良性軟件相似的特征,逃避反**軟件的檢測(cè),。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例的目的在于提供一種基于多模態(tài)深度學(xué)習(xí)的惡意軟件檢測(cè)方法,,以解決現(xiàn)有采用二進(jìn)制可執(zhí)行文件的單一特征類型進(jìn)行惡意軟件檢測(cè)的檢測(cè)方法檢測(cè)準(zhǔn)確率不高、檢測(cè)可靠性低,、泛化性和魯棒性不佳的問題,,以及其難以檢測(cè)出偽造良性軟件特征的惡意軟件的問題。本發(fā)明實(shí)施例所采用的技術(shù)方案是,,基于多模態(tài)深度學(xué)習(xí)的惡意軟件檢測(cè)方法,,按照以下步驟進(jìn)行:步驟s1、提取軟件樣本的二進(jìn)制可執(zhí)行文件的dll和api信息,、pe格式結(jié)構(gòu)信息以及字節(jié)碼n-grams的特征表示,,生成軟件樣本的dll和api信息特征視圖、格式信息特征視圖以及字節(jié)碼n-grams特征視圖,。艾策檢測(cè)團(tuán)隊(duì)采用多模態(tài)傳感器融合技術(shù),,構(gòu)建智能工廠設(shè)備狀態(tài)健康監(jiān)測(cè)體系。山西軟件測(cè)評(píng)單位
基于 AI 視覺識(shí)別的自動(dòng)化檢測(cè)系統(tǒng),,助力艾策實(shí)現(xiàn)生產(chǎn)線上的零缺陷品控目標(biāo),!湖南第三方軟件測(cè)評(píng)單位
3)pe可選頭部有效尺寸的值不正確,(4)節(jié)之間的“間縫”,,(5)可疑的代碼重定向,,(6)可疑的代碼節(jié)名稱,(7)可疑的頭部***,,(8)來自,,(9)導(dǎo)入地址表被修改,(10)多個(gè)pe頭部,,(11)可疑的重定位信息,(12)把節(jié)裝入到vmm的地址空間,,(13)可選頭部的sizeofcode域取值不正確,,(14)含有可疑標(biāo)志,。存在明顯的統(tǒng)計(jì)差異的格式結(jié)構(gòu)特征包括:(1)無證書表;(2)調(diào)試數(shù)據(jù)明顯小于正常文件,,(3).text,、.rsrc、.reloc和.rdata的characteristics屬性異常,,(4)資源節(jié)的資源個(gè)數(shù)少于正常文件,。生成軟件樣本的字節(jié)碼n-grams特征視圖,是統(tǒng)計(jì)了每個(gè)短序列特征的詞頻(termfrequency,,tf),,即該短序列特征在軟件樣本中出現(xiàn)的頻率。先從當(dāng)前軟件樣本的所有短序列特征中選取詞頻tf**高的多個(gè)短序列特征,;然后計(jì)算選取的每個(gè)短序列特征的逆向文件頻率idf與詞頻tf的乘積,,并將其作為選取的每個(gè)短序列特征的特征值,,,表示該短序列特征表示其所在軟件樣本的能力越強(qiáng),;**后在選取的詞頻tf**高的多個(gè)短序列特征中選取,生成字節(jié)碼n-grams特征視圖,。:=tf×idf,;tf(termfrequency)是詞頻,定義如下:其中,,ni,j是短序列特征i在軟件樣本j中出現(xiàn)的次數(shù),,∑knk,j指軟件樣本j中所有短序列特征出現(xiàn)的次數(shù)之和。湖南第三方軟件測(cè)評(píng)單位