人工智能發(fā)現(xiàn)了關鍵的Microsoft安全漏洞
發(fā)布時間 : 2020-04-19
? ? ? ?Microsoft聲稱已開發(fā)出一種系統(tǒng),該系統(tǒng)可以在99%的時間內(nèi)正確地區(qū)分安全性和非安全性軟件錯誤,并且可以平均97%的時間準確地識別關鍵的高優(yōu)先級安全性錯誤。在接下來的幾個月中,它計劃在GitHub上開源該方法,以及示例模型和其他資源。
這項工作表明,這樣的系統(tǒng)可以用來支持人類專家,該系統(tǒng)接受了來自Microsoft的47,000個開發(fā)人員的1300萬個工作項目和錯誤的數(shù)據(jù)集的培訓,這些錯誤來自Microsoft的AzureDevOps和GitHub存儲庫。Coralogix估計,開發(fā)人員每千行代碼創(chuàng)建70個錯誤,并且修復錯誤的時間比編寫一行代碼的時間長30倍;在美國,每年用于識別和修復產(chǎn)品缺陷的費用為1,130億美元。
?
微軟表示,在設計模型的過程中,安全專家批準了培訓數(shù)據(jù),并使用統(tǒng)計抽樣為這些專家提供了可管理的大量數(shù)據(jù)以供審核。然后,將數(shù)據(jù)編碼為稱為特征向量的表示形式,Microsoft研究人員著手使用兩步過程設計系統(tǒng)。首先,該模型學會了對安全和非安全性漏洞進行分類,然后學習了將嚴重性標簽(關鍵,重要或影響較小)應用于安全性漏洞。
?
微軟的模型利用兩種技術進行錯誤預測。首先是術語頻率逆文檔頻率算法(TF-IDF),這是一種信息檢索方法,它根據(jù)單詞在文檔中出現(xiàn)的次數(shù)為單詞賦予重要性,并檢查單詞在整個標題集中的相關性。(微軟表示,其錯誤標題通常很短,大約包含10個單詞。)第二種技術(邏輯回歸模型)使用邏輯函數(shù)對特定類或事件存在的概率進行建模。
?
微軟表示,該模型是內(nèi)部部署在生產(chǎn)中的,并且會不斷接受安全專家批準的數(shù)據(jù)進行再培訓,這些專家監(jiān)視軟件開發(fā)中產(chǎn)生的錯誤數(shù)量。