此外格式結(jié)構(gòu)信息具有明顯的語(yǔ)義信息,但基于格式結(jié)構(gòu)信息的檢測(cè)方法沒(méi)有提取決定軟件行為的代碼節(jié)和數(shù)據(jù)節(jié)信息作為特征,。某一種類型的特征都從不同的視角反映刻畫了可執(zhí)行文件的一些性質(zhì),,字節(jié)碼n-grams、dll和api信息,、格式結(jié)構(gòu)信息都部分捕捉到了惡意軟件和良性軟件間的可區(qū)分信息,,但都存在著一定的局限性,不能充分,、綜合,、整體的表示可執(zhí)行文件的本質(zhì),使得檢測(cè)結(jié)果準(zhǔn)確率不高,、可靠性低,、泛化性和魯棒性不佳。此外,,惡意軟件通常偽造出和良性軟件相似的特征,,逃避反**軟件的檢測(cè)。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例的目的在于提供一種基于多模態(tài)深度學(xué)習(xí)的惡意軟件檢測(cè)方法,,以解決現(xiàn)有采用二進(jìn)制可執(zhí)行文件的單一特征類型進(jìn)行惡意軟件檢測(cè)的檢測(cè)方法檢測(cè)準(zhǔn)確率不高,、檢測(cè)可靠性低、泛化性和魯棒性不佳的問(wèn)題,,以及其難以檢測(cè)出偽造良性軟件特征的惡意軟件的問(wèn)題,。本發(fā)明實(shí)施例所采用的技術(shù)方案是,,基于多模態(tài)深度學(xué)習(xí)的惡意軟件檢測(cè)方法,按照以下步驟進(jìn)行:步驟s1,、提取軟件樣本的二進(jìn)制可執(zhí)行文件的dll和api信息,、pe格式結(jié)構(gòu)信息以及字節(jié)碼n-grams的特征表示,生成軟件樣本的dll和api信息特征視圖,、格式信息特征視圖以及字節(jié)碼n-grams特征視圖,。代碼質(zhì)量評(píng)估顯示注釋覆蓋率不足30%需加強(qiáng)。應(yīng)用軟件安全測(cè)試公司
綜合上面的分析可以看出,,惡意軟件的格式信息和良性軟件是有很多差異性的,,以可執(zhí)行文件的格式信息作為特征,是識(shí)別已知和未知惡意軟件的可行方法,。對(duì)每個(gè)樣本進(jìn)行格式結(jié)構(gòu)解析,,提取**每個(gè)樣本實(shí)施例件的格式結(jié)構(gòu)信息,可執(zhí)行文件的格式規(guī)范都由操作系統(tǒng)廠商給出,,按照操作系統(tǒng)廠商給出的格式規(guī)范提取即可,。pe文件的格式結(jié)構(gòu)有許多屬性,但大多數(shù)屬性無(wú)法區(qū)分惡意軟件和良性軟件,,經(jīng)過(guò)深入分析pe文件的格式結(jié)構(gòu)屬性,,提取了可能區(qū)分惡意軟件和良性軟件的136個(gè)格式結(jié)構(gòu)屬性,如表2所示,。表2可能區(qū)分惡意軟件和良性軟件的pe格式結(jié)構(gòu)屬性特征描述數(shù)量(個(gè))引用dll的總數(shù)1引用api的總數(shù)1導(dǎo)出表中符號(hào)的總數(shù)1重定位節(jié)的項(xiàng)目總數(shù),,連續(xù)的幾個(gè)字節(jié)可能是完成特定功能的一段代碼,或者是可執(zhí)行文件的結(jié)構(gòu)信息,,也可能是某個(gè)惡意軟件中特有的字節(jié)碼序列,。pe文件可表示為字節(jié)碼序列,惡意軟件可能存在一些共有的字節(jié)碼子序列模式,,研究人員直覺(jué)上認(rèn)為一些字節(jié)碼子序列在惡意軟件可能以較高頻率出現(xiàn),,且這些字節(jié)碼序列和良性軟件字節(jié)碼序列存在明顯差異??蓤?zhí)行文件通常是二進(jìn)制文件,,需要把二進(jìn)制文件轉(zhuǎn)換為十六進(jìn)制的文本實(shí)施例件,就得到可執(zhí)行文件的十六進(jìn)制字節(jié)碼序列,。廣州軟件測(cè)試報(bào)告機(jī)構(gòu)策科技助力教育行業(yè):數(shù)字化教學(xué)的創(chuàng)新應(yīng)用 ,。
程序利用windows提供的接口(windowsapi)實(shí)現(xiàn)程序的功能。通過(guò)一個(gè)可執(zhí)行程序引用的動(dòng)態(tài)鏈接庫(kù)(dll)和應(yīng)用程序接口(api)可以粗略的預(yù)測(cè)該程序的功能和行為,。統(tǒng)計(jì)所有樣本的導(dǎo)入節(jié)中引用的dll和api的頻率,,留下引用頻率**高的60個(gè)dll和500個(gè)api。提取特征時(shí),每個(gè)樣本的導(dǎo)入節(jié)里存在選擇出的dll或api,,該特征以1表示,,不存在則以0表示,,提取的560個(gè)dll和api特征作為***個(gè)特征視圖,。提取格式信息特征視圖pe是portableexecutable的縮寫,初衷是希望能開(kāi)發(fā)一個(gè)在所有windows平臺(tái)上和所有cpu上都可執(zhí)行的通用文件格式,。pe格式文件是封裝windows操作系統(tǒng)加載程序所需的信息和管理可執(zhí)行代碼的數(shù)據(jù)結(jié)構(gòu),,數(shù)據(jù)**是大量的字節(jié)碼和數(shù)據(jù)結(jié)構(gòu)的有機(jī)融合。pe文件格式被**為一個(gè)線性的數(shù)據(jù)流,,由pe文件頭,、節(jié)表和節(jié)實(shí)體組成。惡意軟件或被惡意軟件***的可執(zhí)行文件,,它本身也遵循格式要求的約束,,但可能存在以下特定格式異常:(1)代碼從**后一節(jié)開(kāi)始執(zhí)行;(2)節(jié)頭部可疑的屬性,;(3)pe可選頭部有效尺寸的值不正確,;(4)節(jié)之間的“間縫”;(5)可疑的代碼重定向,;(6)可疑的代碼節(jié)名稱,;(7)可疑的頭部***;(8)來(lái)自,;(9)導(dǎo)入地址表被修改,;(10)多個(gè)pe頭部;(11)可疑的重定位信息,;,。
生成取值表。3把取值表與選擇的正交表進(jìn)行映射控件數(shù)Ln(取值數(shù))3個(gè)控件5個(gè)取值5的3次冪混合正交表當(dāng)控件的取值數(shù)目水平不一致時(shí)候,,使用allp**rs工具生成1等價(jià)類劃分法劃分值2邊界值分析法邊界值3錯(cuò)誤推斷法經(jīng)驗(yàn)4因果圖分析法關(guān)系5判定表法條件和結(jié)果6流程圖法流程路徑梳理7場(chǎng)景法主要功能和業(yè)務(wù)的事件8正交表先關(guān)注主要功能和業(yè)務(wù)流程,,業(yè)務(wù)邏輯是否正確實(shí)現(xiàn),考慮場(chǎng)景法需要輸入數(shù)據(jù)的地方,,考慮等價(jià)類劃分法+邊界值分析法,,發(fā)現(xiàn)程序錯(cuò)誤的能力**強(qiáng)存在輸入條件的組合情況,考慮因果圖判定表法多種參數(shù)配置組合情況,,正交表排列法采用錯(cuò)誤推斷法再追加測(cè)試用例,。需求分析場(chǎng)景法分析主要功能輸入的等價(jià)類邊界值輸入的各種組合因果圖判定表多種參數(shù)配置正交表錯(cuò)誤推斷法經(jīng)驗(yàn)軟件缺陷軟件產(chǎn)品中存在的問(wèn)題,用戶所需要的功能沒(méi)有完全實(shí)現(xiàn),。從傳統(tǒng)到智能:艾策科技助力制造業(yè)升級(jí)之路,。
k為短序列特征總數(shù),1≤i≤k,??蓤?zhí)行文件長(zhǎng)短大小不一,,為了防止該特征統(tǒng)計(jì)有偏,使用∑knk,j進(jìn)行歸一化處理,。逆向文件頻率(inversedocumentfrequency,,idf)是一個(gè)短序列特征普遍重要性的度量。某一短序列特征的idf,,可以由總樣本實(shí)施例件數(shù)目除以包含該短序列特征之樣本實(shí)施例件的數(shù)目,,再將得到的商取對(duì)數(shù)得到:其中,|d|指軟件樣本j的總數(shù),,|{j:i∈j}|指包含短序列特征i的軟件樣本j的數(shù)目,。idf的主要思想是:如果包含短序列特征i的軟件練樣本越少,也就是|{j:i∈j}|越小,,idf越大,,則說(shuō)明短序列特征i具有很好的類別區(qū)分能力。:如果某一特征在某樣本中以較高的頻率出現(xiàn),,而包含該特征的樣本數(shù)目較小,,可以產(chǎn)生出高權(quán)重的,該特征的,。因此,,,保留重要的特征,。此處選取可能區(qū)分惡意軟件和良性軟件的短序列特征,,是因?yàn)樽止?jié)碼n-grams提取的特征很多,很多都是無(wú)效特征,,或者效果非常一般的特征,,保持這些特征會(huì)影響檢測(cè)方法的性能和效率,所以要選出有效的特征即可能區(qū)分惡意軟件和良性軟件的短序列特征,。步驟s2,、將軟件樣本中的類別已知的軟件樣本作為訓(xùn)練樣本,然后分別采用前端融合方法,、后端融合方法和中間融合方法設(shè)計(jì)三種不同方案的多模態(tài)數(shù)據(jù)融合方法,。數(shù)據(jù)安全與合規(guī):艾策科技的最佳實(shí)踐。長(zhǎng)春軟件評(píng)測(cè)實(shí)驗(yàn)室
艾策檢測(cè)為新能源汽車電池提供安全性能深度解析,。應(yīng)用軟件安全測(cè)試公司
這樣做的好處是,,融合模型的錯(cuò)誤來(lái)自不同的分類器,而來(lái)自不同分類器的錯(cuò)誤往往互不相關(guān),、互不影響,,不會(huì)造成錯(cuò)誤的進(jìn)一步累加。常見(jiàn)的后端融合方式包括**大值融合(max-fusion)、平均值融合(averaged-fusion),、貝葉斯規(guī)則融合(bayes’rulebased)以及集成學(xué)習(xí)(ensemblelearning)等,。其中集成學(xué)習(xí)作為后端融合方式的典型**,被廣泛應(yīng)用于通信,、計(jì)算機(jī)識(shí)別,、語(yǔ)音識(shí)別等研究領(lǐng)域。中間融合是指將不同的模態(tài)數(shù)據(jù)先轉(zhuǎn)化為高等特征表達(dá),,再于模型的中間層進(jìn)行融合,,如圖3所示,。以深度神經(jīng)網(wǎng)絡(luò)為例,,神經(jīng)網(wǎng)絡(luò)通過(guò)一層一層的管道映射輸入,將原始輸入轉(zhuǎn)換為更高等的表示,。中間融合首先利用神經(jīng)網(wǎng)絡(luò)將原始數(shù)據(jù)轉(zhuǎn)化成高等特征表達(dá),,然后獲取不同模態(tài)數(shù)據(jù)在高等特征空間上的共性,進(jìn)而學(xué)習(xí)一個(gè)聯(lián)合的多模態(tài)表征,。深度多模態(tài)融合的大部分工作都采用了這種中間融合的方法,,其***享表示層是通過(guò)合并來(lái)自多個(gè)模態(tài)特定路徑的連接單元來(lái)構(gòu)建的。中間融合方法的一大優(yōu)勢(shì)是可以靈活的選擇融合的位置,,但設(shè)計(jì)深度多模態(tài)集成結(jié)構(gòu)時(shí),,確定如何融合、何時(shí)融合以及哪些模式可以融合,,是比較有挑戰(zhàn)的問(wèn)題,。字節(jié)碼n-grams、dll和api信息,、格式結(jié)構(gòu)信息這三種類型的特征都具有自身的優(yōu)勢(shì),。應(yīng)用軟件安全測(cè)試公司