摘要: 隨著Android應用的廣泛使用,Android惡意軟件數(shù)量迅速增長,對用戶的財產(chǎn)、隱私等造成的安全威脅越來越嚴重。近年來基于深度學習的Android惡意軟件檢測成為了當前安全領域的研究熱點。該文分別從數(shù)據(jù)采集、應用特征、網(wǎng)絡結構、效果檢測4個方面,對該研究方向已有的學術成果進行了分析與總結,討論了它們的局限性與所面臨的挑戰(zhàn),并就該方向未來的研究重點進行了展望。
Abstract: With the prosperous of Android applications, Android malware has been scattered everywhere, which raises the serious security risk to users. On the other hand, the rapid developing of deep learning fires the combat between the two sides of malware detection. Inducing deep learning technologies into Android malware detection becomes the hottest topic of society. This paper summarizes the existing achievements of malware detection from four aspects: Data collection, feature construction, network structure and detection performance. Finally, the current limitations and facing challenges followed by the future researches are discussed.-
表 1 Android惡意軟件公開數(shù)據(jù)集統(tǒng)計表
數(shù)據(jù)集名稱 惡意軟件數(shù)量 軟件收集時間 軟件檢測方法 下載鏈接 VirusShare[24] 34311879 2011至今 未說明 https://virusshare.com AndroZoo[25] 1302968 2011至今 VirusTotal https://androzoo.uni.lu ArgusLab[26] 24650 2010~2016 VirusTotal http://amd.arguslab.org Drebin[28] 5560 2010~2012 VirusTotal http://contagiominidump.blogspot.com ISCX[29] 1929 2012~2015 VirusTotal https://www.unb.ca/cic/datasets/index.html Genome[30] 1260 2010~2011 未說明 http://www.malgenomeproject.org Contagio[27] 252 2011~2018 未說明 http://contagiominidump.blogspot.com 下載: 導出CSV
表 3 在相同數(shù)據(jù)下現(xiàn)有深度學習模型與傳統(tǒng)機器學習模型效果對比統(tǒng)計表(%)
研究工作 評價指標 深度學習模型 傳統(tǒng)機器學習模型 支持向量機 決策樹 樸素貝葉斯 邏輯回歸 隨機森林 K最近鄰 文獻[12] m4 96.5 80.0 77.5 79.0 78.0 文獻[14] m1 100 53.3 47.0 m2 98.3 34.8 54.0 m4 99.4 66.0 82.0 文獻[19] m1 95.77 92.08 75.09 79.22 64.18 m2 97.84 93.75 98.64 91.82 95.91 m4 96.76 92.84 82.95 83.86 71.19 文獻[22] m1 99.52 94.23 93.77 95.64 97.04 95.40 m2 99.83 95.89 94.68 95.90 94.69 93.16 m3 99.74 95.05 94.22 95.77 95.85 94.27 m4 99.68 94.97 94.13 95.82 95.93 94.29 文獻[32] m1 94.82 87.6 92 76.5 93.8 m2 97.76 87.5 92 76.8 93.8 m5 90.86 94.4 95.5 85.5 97.1 m6 9.14 5.6 4.5 14.5 2.9 m7 2.24 24.2 13.9 38 12 注:各評價指標的含義如下。m1:精確率(Precision),m2:召回率/真正率(recall/TPR),m3:F-measure,m4:準確率(accuracy),m6:假正率(FPR),m7:假負率(FNR) 下載: 導出CSV
表 4 在不同數(shù)據(jù)不同特征下現(xiàn)有基于深度學習的方法與基于傳統(tǒng)機器學習的方法效果對比統(tǒng)計表
研究工作 機器學習模型 m1(%) m2(%) m3(%) m4(%) m6(%) m7(%) m8(s) 文獻[11] 深度學習 98 99 文獻[28] 支持向量機 93.9 文獻[62] 決策樹 78 文獻[63] 樸素貝葉斯 93 文獻[61] K最近鄰 99 文獻[64] 極限梯度提升決策樹 97 97 文獻[35] 深度學習 96 93 9 0.5 文獻[28] 支持向量機 94.0 1.0 0.75 文獻[65] 隨機森林 95.3 92 0.34 19.8 文獻[39] 深度學習 98.84 98.47 98.65 98.86 文獻[66] 邏輯回歸 80.99 87.11 83.93 83.26 文獻[44] 深度學習 98.98 1.58 文獻[67] 隨機森林 97.42 4.33 文獻[20] 深度學習 99 95 97 98 文獻[68] 支持向量機 98 文獻[69] 樸素貝葉斯 94 91 92 91 文獻[67] 隨機森林 98 97 97 97 注:各評價指標的含義如下。m1:精確率(Precision),m2:召回率/真正率(recall/TPR),m3:F-measure,m4:準確率(accuracy),m6:假正率(FPR),m7:假負率(FNR),m8:檢測時間 下載: 導出CSV
表 5 基于深度學習的Android惡意軟件檢測工作效果互相對比統(tǒng)計表(%)
研究工作 m1 m2 m3 m4 m6 m7 文獻[11] 99 98 文獻[19] 96.8 文獻[20] 86 87 文獻[35] 96 93 9 0.5 文獻[20] 99.3 99 3 2.5 文獻[39] 98.87 98.47 98.65 98.86 文獻[13] 83.24 87.67 85.39 84.95 文獻[18] 94.76 91.31 93.00 93.10 文獻[20] 67 98.47 71.00 69.00 文獻[44] 98.98 1.58 文獻[20] 89.50 6.72 文獻[32] 98.09 99.56 98.82 98.5 文獻[33] 93.96 93.36 93.68 93.68 文獻[19] 96.78 96.76 96.76 96.76 文獻[20] 99 95 97 98 文獻[21] 95.31 文獻[35] 93 文獻[33] 93.68 注:各評價指標的含義如下。m1:精確率(Precision),m2:召回率/真正率(recall/TPR),m3:F-measure,m4:準確率(accuracy),m6:假正率(FPR),m7:假負率(FNR) 下載: 導出CSV
