
科研團隊聯(lián)合攻關(guān)(西安電子科技大學(xué)供圖)
在2024年度中國電子學(xué)會(huì )科學(xué)技術(shù)獎勵大會(huì )上,西安電子科技大學(xué)網(wǎng)絡(luò )與信息安全學(xué)院馬卓教授團隊牽頭完成的“開(kāi)放環(huán)境下智能模型數據安全關(guān)鍵理論與技術(shù)”項目獲自然科學(xué)二等獎,該項目在多方數據安全共享、異常數據逆向追溯與修復等方面實(shí)現突破,有效減輕企業(yè)數據共享的隱私泄露風(fēng)險。
安全風(fēng)險的“不確定性”
提起“開(kāi)放環(huán)境下的智能模型”,不少人或許感到陌生,但對它在生活中的應用卻再熟悉不過(guò),比較典型的有金融風(fēng)控、智能無(wú)人機、自動(dòng)駕駛系統、智能家居等。
馬卓說(shuō):“通俗講就是人工智能模型,但開(kāi)放環(huán)境中,數據來(lái)源多樣、節點(diǎn)分布松散、系統邊界不固定,攻擊者容易乘虛而入!痹趯(shí)際應用中,數據交互、模型推理等環(huán)節,都可能被攻擊者竊取隱私、污染數據,導致出現隱私濫用、模型誤導等問(wèn)題。
作為被攻擊目標,模型面臨的風(fēng)險不只“某一個(gè)”,而可能分散在數據、建模、部署各流程,攻擊類(lèi)型也更復雜多樣。比如,數據來(lái)源多樣,意味著(zhù)攻擊方可以偽裝成一個(gè)普通的數據提供者,在模型構建訓練數據集的過(guò)程中,植入“問(wèn)題”數據,攻擊形式則可能通過(guò)某個(gè)數據采集傳感器發(fā)起,也可能通過(guò)某一個(gè)機構(有時(shí)機構可信,但可能存在內部“作惡者”)發(fā)起。
一場(chǎng)AI的攻防戰就這樣打響,在沒(méi)有硝煙的戰場(chǎng)中,馬卓及其團隊的工作,就是從全流程角度防御風(fēng)險:發(fā)現它、解決它!
一般而言,防御有“事前”“事中”和“事后”三個(gè)階段:在模型訓練前的數據集構建階段,要掃描定位異常數據;在模型訓練中,則引入能夠抵御此類(lèi)“問(wèn)題”數據的魯棒性學(xué)習方法,簡(jiǎn)單來(lái)說(shuō),有點(diǎn)像人體的免疫力,可以構建起人體的“防火墻”,使模型更加“健壯”“皮實(shí)”“耐造”,關(guān)鍵時(shí)候不“掉鏈子”,從而使機器學(xué)習模型在面對異常數據、噪聲干擾、分布偏移等不利條件時(shí),仍能保持穩定性和有效性的能力;在模型完成訓練后,則對模型進(jìn)行掃描并消除“問(wèn)題”數據對于模型的影響。
“做這些,還是為了實(shí)現模型‘高可用’”,馬卓說(shuō):“‘不可用’的安全其實(shí)沒(méi)有用,安全也要追求低成本、高效率,提升模型性能”。
保證安全也要追求效率
“姚氏百萬(wàn)富翁問(wèn)題”中所假設的情景,在多個(gè)行業(yè)都存在。以金融風(fēng)控為例,建模時(shí)常常要對A銀行和B銀行數據求交集,此過(guò)程可能存在隱私泄露風(fēng)險,傳統加密方法復雜度過(guò)高,比如無(wú)法很好處理非交集的數據(刪除可能使隱私暴露),會(huì )產(chǎn)生較冗長(cháng)的數據,導致模型訓練變慢,難以規;瘧。
馬卓帶領(lǐng)團隊提出的系列超輕量級安全計算方法,支持包括多方數據加密、線(xiàn)性/非線(xiàn)性函數安全計算等在內的多種數據安全計算操作。他解釋道:“簡(jiǎn)化來(lái)說(shuō),就是想辦法去除冗余,讓有限數據參與訓練,同時(shí)提高非線(xiàn)性運算(如對數、指數、開(kāi)方運算等)算子的速度,讓前期數據處理變得高效安全!
在數據處理之外,馬卓團隊的項目研究,還瞄準模型部署后的異常數據快速定位,和模型的高效修復問(wèn)題,前者是如何更快地確定異常數據,后者則像對異常數據“動(dòng)手術(shù)”,實(shí)現精準清除,保證模型“健康”運行。
異常數據,通常分數據投毒和后門(mén)植入兩大類(lèi)型。前者相對容易理解,后者則是一種形象說(shuō)法,指的是攻擊者通過(guò)污染數據或修改架構等方法,在模型中注入的隱藏行為,就像一扇可以通往模型的“門(mén)”,平日里,它就像“臥底”“間諜”一樣,保持靜默,但一旦被“觸發(fā)”,就可能導致模型出現異常行為。
馬卓說(shuō),“以前的方法是窮舉,把所有數據‘摟’一遍,我們現在則是通過(guò)類(lèi)似于近似計算的方法找到它們,執行效率可提升兩個(gè)數量級以上”。
發(fā)現數據異常,接下來(lái)就是把它們從模型中“請”出去。之所以要“請”,是因為異常數據很“狡猾”,不僅“隱身”技能強,而且嵌套在模型中,如果把模型比作大腦,異常數據就可能“藏”在腦神經(jīng)細胞,處理這些數據,其復雜度不亞于有些神經(jīng)外科手術(shù)。
所以,“收拾”這些異常數據,動(dòng)作要“小心翼翼”,“精準”拿捏,剔除時(shí)不能“把小孩連同洗澡水一起潑掉”。畢竟,銷(xiāo)毀模型意味著(zhù)推倒重來(lái)、前功盡棄,部署機構花費的很多心血,連帶財力物力等都付諸東流。
在尋找破題思路和方法時(shí),馬卓表示,“要有泛化能力、普適性,不能用到這里很‘靈’,放到其他地方失效”。就這樣,經(jīng)過(guò)團隊努力攻關(guān),“基于梯度上升的模型遺忘策略”方案被提出來(lái),它的特點(diǎn),是能在不重新訓練模型的情況下,精準消除異常數據對于模型決策的干擾。
現實(shí)中,大模型呈現給人的“博聞強記”“深度學(xué)習”能力,可以說(shuō)數據為其提供了“燃料”和動(dòng)力。訓練模型的關(guān)鍵在于讓模型“記住”數據及其特征,模型后門(mén)產(chǎn)生的核心原因,在于它“記住”了后門(mén)數據,而且后門(mén)數據不僅包含問(wèn)題數據特征,也包含一定的正常數據特征。
“我們反其道而行之,讓模型學(xué)會(huì )‘遺忘’,不能多也不能少,恰到好處地選擇性失憶,把異常數據從模型中‘撤銷(xiāo)’掉”,馬卓說(shuō)。
那么,何為“梯度上升”?了解它之前,不妨“隆重”請出它的“孿生兄弟”——“梯度下降”,一種當下包括神經(jīng)網(wǎng)絡(luò )在內,大部分智能模型經(jīng)常采用的模型訓練策略。
從數學(xué)角度看,梯度下降法,就是沿梯度下降的方向求解極小值。假設一個(gè)人正在山頂,擔心天氣突變或夜路危險,需要盡快下山,在保證安全的前提下,一個(gè)好的方法就是以當前位置為基準,盡量沿坡度最陡的地方往下走,為實(shí)現整體最優(yōu),每隔一段距離要重新校準定位坡度,繼續下山。本質(zhì)上,梯度下降法體現著(zhù)一種模型訓練的優(yōu)化思維。
馬卓說(shuō):“梯度上升是受到梯度下降策略的啟發(fā),是一種逆向思維,和模型訓練的過(guò)程恰恰相反!
除了能為模型“排毒”外,這種方法還能像人們使用社交軟件“撤回”信息一樣,給模型部署機構或平臺,提供“撤回數據”的選擇,尤其在多方參與數據共享的模型中,這既保障了部分參與方的數據隱私權,也能在某個(gè)機構退出合作時(shí),最大程度減少數據“撤出”對模型正常運行的影響。
聚焦前沿瞄準“真問(wèn)題”
回過(guò)頭看獲獎項目,馬卓認為“發(fā)現了一個(gè)比較有意思的領(lǐng)域”。在團隊研究成果發(fā)表前,國際上相關(guān)文章并不多,如今學(xué)術(shù)文章多起來(lái)了,對團隊成果的引用隨之增多,這讓他進(jìn)一步意識到科研引領(lǐng)的重要性。
如今,馬卓帶領(lǐng)的團隊,由多名長(cháng)期從事人工智能安全、密碼學(xué)與隱私計算方向的青年骨干教師組成,涵蓋算法理論、系統架構與工程實(shí)現等多層次研究力量,并吸引多名博士后和研究生共同參與。近年來(lái),團隊產(chǎn)出了一系列具有自主知識產(chǎn)權的創(chuàng )新成果,廣泛應用于實(shí)際場(chǎng)景,產(chǎn)生了良好的社會(huì )影響和行業(yè)示范效應。
“像一個(gè)輔導員,我也做學(xué)生思想工作,比如通過(guò)新生研討課接觸到低年級本科生,感興趣的學(xué)生就會(huì )進(jìn)入團隊”,馬卓笑著(zhù)說(shuō),“還是去調動(dòng)學(xué)生積極性,讓學(xué)生知道讀大學(xué)、研究生的意義和目的,學(xué)會(huì )正向地‘卷’自己”。
在馬卓看來(lái),考試對學(xué)生只是基本要求,想要“出類(lèi)拔萃”,就要“學(xué)別人不能學(xué),做別人不能做,見(jiàn)過(guò)很多名校優(yōu)秀學(xué)生,只要定好方向,西電學(xué)生一點(diǎn)也不差”。
因此,馬卓會(huì )根據個(gè)人特點(diǎn),給團隊青年教師提建議,有些老師適合做科研,有些老師可能在教學(xué)上能出彩,而有的博士生對市場(chǎng)、產(chǎn)品很敏感,就很適合做產(chǎn)業(yè)創(chuàng )新。
馬卓說(shuō):“我們團隊也有年輕人到企業(yè)交流,獲獎項目取得的成果,得益于產(chǎn)學(xué)研合作中的啟發(fā),要想好做什么樣的產(chǎn)品,推動(dòng)技術(shù)與市場(chǎng)接壤!
在產(chǎn)學(xué)研用方面,馬卓團隊積累了較為系統的協(xié)同創(chuàng )新經(jīng)驗,通過(guò)與企業(yè)溝通,更多來(lái)自企業(yè)的實(shí)際需求被“引進(jìn)來(lái)”,科研方向更加聚焦和明確;同時(shí),團隊的老師逐漸“走出去”,到企業(yè)與優(yōu)秀工程師合作,推動(dòng)成果落地應用。
當前的網(wǎng)絡(luò )信息安全,不僅需要涵蓋從算法、系統到數據的隱私安全全棧防護,還需應對開(kāi)放環(huán)境下的未知威脅與高級對抗,體現出安全與智能深度融合的趨勢。
在新的時(shí)代趨勢下,馬卓認為,“要構建‘科研引導+工程實(shí)踐+交叉融合’的人才培養機制,聚焦重大需求、前沿方向,瞄準真問(wèn)題,同時(shí)要打造多元平臺,通過(guò)項目驅動(dòng)、企業(yè)合作、國際交流,培養兼具理論深度和實(shí)踐能力的復合型創(chuàng )新人才”。(來(lái)源:西安電子科技大學(xué))
長(cháng)按二維碼關(guān)注精彩內容





