發(fā)貨地點(diǎn):廣東省深圳市
發(fā)布時(shí)間:2025-05-07
每一種信息的來(lái)源或者形式,,都可以稱為一種模態(tài)。例如,,人有觸覺(jué),,聽(tīng)覺(jué),視覺(jué),,嗅覺(jué),。多模態(tài)機(jī)器學(xué)習(xí)旨在通過(guò)機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)處理和理解多源模態(tài)信息的能力。多模態(tài)學(xué)習(xí)從1970年代起步,,經(jīng)歷了幾個(gè)發(fā)展階段,,在2010年后***步入深度學(xué)習(xí)(deeplearning)階段。在某種意義上,,深度學(xué)習(xí)可以被看作是允許我們“混合和匹配”不同模型以創(chuàng)建復(fù)雜的深度多模態(tài)模型,。目前,多模態(tài)數(shù)據(jù)融合主要有三種融合方式:前端融合(early-fusion)即數(shù)據(jù)水平融合(data-levelfusion),、后端融合(late-fusion)即決策水平融合(decision-levelfusion)以及中間融合(intermediate-fusion),。前端融合將多個(gè)**的數(shù)據(jù)集融合成一個(gè)單一的特征向量空間,然后將其用作機(jī)器學(xué)習(xí)算法的輸入,,訓(xùn)練機(jī)器學(xué)習(xí)模型,,如圖1所示。由于多模態(tài)數(shù)據(jù)的前端融合往往無(wú)法充分利用多個(gè)模態(tài)數(shù)據(jù)間的互補(bǔ)性,,且前端融合的原始數(shù)據(jù)通常包含大量的冗余信息,。因此,,多模態(tài)前端融合方法常常與特征提取方法相結(jié)合以剔除冗余信息,,基于領(lǐng)域經(jīng)驗(yàn)從每個(gè)模態(tài)中提取更高等別的特征表示,,或者應(yīng)用深度學(xué)習(xí)算法直接學(xué)習(xí)特征表示,然后在特性級(jí)別上進(jìn)行融合,。后端融合則是將不同模態(tài)數(shù)據(jù)分別訓(xùn)練好的分類器輸出決策進(jìn)行融合,,如圖2所示。壓力測(cè)試表明系統(tǒng)在5000并發(fā)用戶時(shí)響應(yīng)延遲激增300%,。成都第三方軟件評(píng)測(cè)
這種傳統(tǒng)方式幾乎不能檢測(cè)未知的新的惡意軟件種類,,能檢測(cè)的已知惡意軟件經(jīng)過(guò)簡(jiǎn)單加殼或混淆后又不能檢測(cè),且使用多態(tài)變形技術(shù)的惡意軟件在傳播過(guò)程中不斷隨機(jī)的改變著二進(jìn)制文件內(nèi)容,,沒(méi)有固定的特征,,使用該方法也不能檢測(cè)。新出現(xiàn)的惡意軟件,,特別是zero-day惡意軟件,,在釋放到互聯(lián)網(wǎng)前,都使用主流的反**軟件測(cè)試,,確保主流的反**軟件無(wú)法識(shí)別這些惡意軟件,,使得當(dāng)前的反**軟件通常對(duì)它們無(wú)能為力,只有在惡意軟件大規(guī)模傳染后,,捕獲到這些惡意軟件樣本,,提取簽名和更新簽名庫(kù),才能檢測(cè)這些惡意軟件,�,;跀�(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的惡意軟件檢測(cè)方法將可執(zhí)行文件表示成不同抽象層次的特征,使用這些特征來(lái)訓(xùn)練分類模型,,可實(shí)現(xiàn)惡意軟件的智能檢測(cè),,基于這些特征的檢測(cè)方法也取得了較高的準(zhǔn)確率。受文本分類方法的啟發(fā),,研究人員提出了基于二進(jìn)制可執(zhí)行文件字節(jié)碼n-grams的惡意軟件檢測(cè)方法,,這類方法提取的特征覆蓋了整個(gè)二進(jìn)制可執(zhí)行文件,包括pe文件頭,、代碼節(jié),、數(shù)據(jù)節(jié)、導(dǎo)入節(jié),、資源節(jié)等信息,,但字節(jié)碼n-grams特征通常沒(méi)有明顯的語(yǔ)義信息,大量具有語(yǔ)義的信息丟失,,很多語(yǔ)義信息提取不完整,。此外,基于字節(jié)碼n-grams的檢測(cè)方法提取代碼節(jié)信息考慮了機(jī)器指令的操作數(shù),。上海第三方軟件評(píng)測(cè)機(jī)構(gòu)第三方驗(yàn)證實(shí)際啟動(dòng)速度較廠商宣稱慢0.7秒,。
綜合上面的分析可以看出,,惡意軟件的格式信息和良性軟件是有很多差異性的,以可執(zhí)行文件的格式信息作為特征,,是識(shí)別已知和未知惡意軟件的可行方法,。對(duì)每個(gè)樣本進(jìn)行格式結(jié)構(gòu)解析,提取**每個(gè)樣本實(shí)施例件的格式結(jié)構(gòu)信息,,可執(zhí)行文件的格式規(guī)范都由操作系統(tǒng)廠商給出,,按照操作系統(tǒng)廠商給出的格式規(guī)范提取即可。pe文件的格式結(jié)構(gòu)有許多屬性,,但大多數(shù)屬性無(wú)法區(qū)分惡意軟件和良性軟件,,經(jīng)過(guò)深入分析pe文件的格式結(jié)構(gòu)屬性,提取了可能區(qū)分惡意軟件和良性軟件的136個(gè)格式結(jié)構(gòu)屬性,,如表2所示,。表2可能區(qū)分惡意軟件和良性軟件的pe格式結(jié)構(gòu)屬性特征描述數(shù)量(個(gè))引用dll的總數(shù)1引用api的總數(shù)1導(dǎo)出表中符號(hào)的總數(shù)1重定位節(jié)的項(xiàng)目總數(shù),連續(xù)的幾個(gè)字節(jié)可能是完成特定功能的一段代碼,,或者是可執(zhí)行文件的結(jié)構(gòu)信息,,也可能是某個(gè)惡意軟件中特有的字節(jié)碼序列。pe文件可表示為字節(jié)碼序列,,惡意軟件可能存在一些共有的字節(jié)碼子序列模式,,研究人員直覺(jué)上認(rèn)為一些字節(jié)碼子序列在惡意軟件可能以較高頻率出現(xiàn),且這些字節(jié)碼序列和良性軟件字節(jié)碼序列存在明顯差異,�,?蓤�(zhí)行文件通常是二進(jìn)制文件,需要把二進(jìn)制文件轉(zhuǎn)換為十六進(jìn)制的文本實(shí)施例件,,就得到可執(zhí)行文件的十六進(jìn)制字節(jié)碼序列,。
坐標(biāo)點(diǎn)(0,1)**一個(gè)完美的分類器,它將所有的樣本都正確分類,。roc曲線越接近左上角,,該分類器的性能越好。從圖9可以看出,,該方案的roc曲線非常接近左上角,,性能較優(yōu)。另外,,前端融合模型的auc值為,。(5)后端融合后端融合的架構(gòu)如圖10所示,后端融合方式用三種模態(tài)的特征分別訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,,然后進(jìn)行決策融合,,隱藏層的***函數(shù)為relu,輸出層的***函數(shù)是sigmoid,,中間使用dropout層進(jìn)行正則化,,防止過(guò)擬合,,優(yōu)化器(optimizer)采用的是adagrad,batch_size是40,。本次實(shí)驗(yàn)使用了80%的樣本訓(xùn)練,20%的樣本驗(yàn)證,,訓(xùn)練50個(gè)迭代以便于找到較優(yōu)的epoch值,。隨著迭代數(shù)的增加,后端融合模型的準(zhǔn)確率變化曲線如圖11所示,,模型的對(duì)數(shù)損失變化曲線如圖12所示,。從圖11和圖12可以看出,當(dāng)epoch值從0增加到5過(guò)程中,,模型的訓(xùn)練準(zhǔn)確率和驗(yàn)證準(zhǔn)確率快速提高,,模型的訓(xùn)練對(duì)數(shù)損失和驗(yàn)證對(duì)數(shù)損失快速減少;當(dāng)epoch值從5到50的過(guò)程中,,前端融合模型的訓(xùn)練準(zhǔn)確率和驗(yàn)證準(zhǔn)確率小幅提高,,訓(xùn)練對(duì)數(shù)損失和驗(yàn)證對(duì)數(shù)損失緩慢下降;綜合分析圖11和圖12的準(zhǔn)確率和對(duì)數(shù)損失變化曲線,,選取epoch的較優(yōu)值為40,。確定模型的訓(xùn)練迭代數(shù)為40后,進(jìn)行了10折交叉驗(yàn)證實(shí)驗(yàn),�,?煽啃栽u(píng)估連續(xù)運(yùn)行72小時(shí)出現(xiàn)2次非致命錯(cuò)誤。
且4個(gè)隱含層中間間隔設(shè)置有dropout層,。用于輸入合并抽取的高等特征表示的深度神經(jīng)網(wǎng)絡(luò)包含2個(gè)隱含層,,其***個(gè)隱含層的神經(jīng)元個(gè)數(shù)是64,第二個(gè)神經(jīng)元的隱含層個(gè)數(shù)是10,,且2個(gè)隱含層中間設(shè)置有dropout層,。且所有dropout層的dropout率等于。本次實(shí)驗(yàn)使用了80%的樣本訓(xùn)練,,20%的樣本驗(yàn)證,,訓(xùn)練50個(gè)迭代以便于找到較優(yōu)的epoch值。隨著迭代數(shù)的增加,,中間融合模型的準(zhǔn)確率變化曲線如圖17所示,,模型的對(duì)數(shù)損失變化曲線如圖18所示。從圖17和圖18可以看出,,當(dāng)epoch值從0增加到20過(guò)程中,,模型的訓(xùn)練準(zhǔn)確率和驗(yàn)證準(zhǔn)確率快速提高,模型的訓(xùn)練對(duì)數(shù)損失和驗(yàn)證對(duì)數(shù)損失快速減少,;當(dāng)epoch值從30到50的過(guò)程中,,中間融合模型的訓(xùn)練準(zhǔn)確率和驗(yàn)證準(zhǔn)確率基本保持不變,,訓(xùn)練對(duì)數(shù)損失緩慢下降;綜合分析圖17和圖18的準(zhǔn)確率和對(duì)數(shù)損失變化曲線,,選取epoch的較優(yōu)值為30,。確定模型的訓(xùn)練迭代數(shù)為30后,進(jìn)行了10折交叉驗(yàn)證實(shí)驗(yàn),。中間融合模型的10折交叉驗(yàn)證的準(zhǔn)確率是%,,對(duì)數(shù)損失是,混淆矩陣如圖19所示,,規(guī)范化后的混淆矩陣如圖20所示,。中間融合模型的roc曲線如圖21所示,auc值為,,已經(jīng)非常接近auc的**優(yōu)值1,。(7)實(shí)驗(yàn)結(jié)果比對(duì)為了綜合評(píng)估本實(shí)施例提出融合方案的綜合性能。數(shù)據(jù)安全與合規(guī):艾策科技的*實(shí)踐,。成都第三方軟件評(píng)測(cè)
深圳艾策信息科技:可持續(xù)發(fā)展的 IT 解決方案,。成都第三方軟件評(píng)測(cè)
將訓(xùn)練樣本的dll和api信息特征視圖、格式信息特征視圖以及字節(jié)碼n-grams特征視圖輸入深度神經(jīng)網(wǎng)絡(luò),,訓(xùn)練多模態(tài)深度集成模型,;(1)方案一:采用前端融合(early-fusion)方法,首先合并訓(xùn)練樣本的dll和api信息特征視圖,、格式信息特征視圖以及字節(jié)碼n-grams特征視圖的特征,,融合成一個(gè)單一的特征向量空間,然后將其作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入,,訓(xùn)練多模態(tài)深度集成模型,;(2)方案二:首先利用訓(xùn)練樣本的dll和api信息特征視圖、格式信息特征視圖以及字節(jié)碼n-grams特征視圖分別訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型,,合并訓(xùn)練的三個(gè)深度神經(jīng)網(wǎng)絡(luò)模型的決策輸出,,并將其作為感知機(jī)的輸入,訓(xùn)練得到**終的多模態(tài)深度集成模型,;(3)方案三:采用中間融合(intermediate-fusion)方法,,首先使用三個(gè)深度神經(jīng)網(wǎng)絡(luò)分別學(xué)習(xí)訓(xùn)練樣本的dll和api信息特征視圖、格式信息特征視圖以及字節(jié)碼n-grams特征視圖的高等特征表示,,并合并學(xué)習(xí)得到的訓(xùn)練樣本的dll和api信息特征視圖,、格式信息特征視圖以及字節(jié)碼n-grams特征視圖的高等特征表示融合成一個(gè)單一的特征向量空間,然后將其作為下一個(gè)深度神經(jīng)網(wǎng)絡(luò)的輸入,,訓(xùn)練得到多模態(tài)深度神經(jīng)網(wǎng)絡(luò)模型,。步驟s3、將軟件樣本中的類別未知的軟件樣本作為測(cè)試樣本。成都第三方軟件評(píng)測(cè)