內(nèi)蒙古一位公司老板與好友進(jìn)行微信視頻通話,對方聲稱在外地競標(biāo),急需430萬元保證金,并希望借用公司賬戶轉(zhuǎn)賬。視頻聊天中,由于對方的面孔和聲音與好友無異,科技公司老板深信不疑,分兩筆將錢款轉(zhuǎn)入對方銀行賬戶。然而,事后經(jīng)電話確認(rèn),好友并未借款,老板方知受騙。騙子運(yùn)用AI換臉和擬聲技術(shù),偽造了好友的身份進(jìn)行詐騙。
這一事件并非孤例。隨著生成式AI技術(shù)的快速普及,大模型在提升效率的同時(shí),也暴露出前所未有的安全隱患:AI換臉詐騙、訓(xùn)練數(shù)據(jù)泄露、惡意代碼生成、深度偽造攻擊等問題頻發(fā)。《2025-2030年全球及中國人工智能行業(yè)市場現(xiàn)狀調(diào)研及發(fā)展前景分析報(bào)告》顯示,超過60%的企業(yè)級大模型部署至少遭遇一種安全事件。如何為AI大模型筑起一道堅(jiān)固的“安全圍欄”,已成為全球技術(shù)界和產(chǎn)業(yè)界的共同命題。
為何AI需要“安全圍欄”
在近日舉辦的A2M人工智能創(chuàng)新峰會上,數(shù)美科技CTO梁堃分享了當(dāng)前大模型存在的安全風(fēng)險(xiǎn)和解決方案。
以DeepSeek、百川智能為代表的開源平臺大幅降低了技術(shù)門檻,催生出“千模千面”的差異化應(yīng)用生態(tài)。然而,當(dāng)AI技術(shù)從實(shí)驗(yàn)室走向千家萬戶,攻擊面也呈幾何級擴(kuò)張。
據(jù)統(tǒng)計(jì),全球大模型安全事件損失已從2023年的85億美元,劇增至2024年的143億美元,預(yù)計(jì)2025年損失將突破235億美元。
攻擊者只需一次成功入侵即可獲利,而作為防守方的企業(yè)卻需要應(yīng)對海量威脅。開源AI工具被攻擊者濫用,降低網(wǎng)絡(luò)攻擊門檻,使得網(wǎng)絡(luò)攻擊高度規(guī)模化。而大模型使得攻擊分析、攻擊手段更加精準(zhǔn)化、持續(xù)化,挑戰(zhàn)傳統(tǒng)防護(hù)手段的同時(shí)形成難以檢測的攻擊代碼和海量“零樣本”惡意程序,以繞過傳統(tǒng)檢測規(guī)則,給網(wǎng)絡(luò)安全攻防帶來了高度對抗性。
AI時(shí)代的安全風(fēng)險(xiǎn)與防控成本呈指數(shù)級增長,安全挑戰(zhàn)也已經(jīng)從簡單的技術(shù)問題上升為影響商業(yè)模式、社會穩(wěn)定甚至文明發(fā)展的關(guān)鍵議題。
如何構(gòu)建大模型“安全圍欄”
梁堃提出“規(guī)劃-訓(xùn)練-運(yùn)營”三階段防御體系,在大模型開始運(yùn)營后再進(jìn)行風(fēng)險(xiǎn)防控往往是“被動(dòng)堵漏”,應(yīng)從開發(fā)階段就將安全要求融入AI基因。
在規(guī)劃階段,建立風(fēng)險(xiǎn)坐標(biāo)系,按行業(yè)特性劃分?jǐn)?shù)據(jù)保密等級(如金融客戶交易數(shù)據(jù)為絕密級,醫(yī)療基因數(shù)據(jù)為機(jī)密級),基于“最小權(quán)限原則”,通過角色權(quán)限控制(RBAC)和多因素認(rèn)證(MFA)限制數(shù)據(jù)訪問范圍。例如,算法工程師僅可訪問訓(xùn)練所需子集,禁止接觸全量機(jī)密數(shù)據(jù)。
在訓(xùn)練階段,采用自然語言處理技術(shù)(NLP)對原始語料進(jìn)行自動(dòng)化篩查,識別并攔截包含敏感詞、機(jī)密信息、違規(guī)數(shù)據(jù)的樣本。對醫(yī)療影像、產(chǎn)品設(shè)計(jì)圖紙等高密級數(shù)據(jù)進(jìn)行去標(biāo)識化處理。通過規(guī)則引擎和機(jī)器學(xué)習(xí)模型檢測用戶輸入的高危指令,通過強(qiáng)化學(xué)習(xí)引導(dǎo)模型優(yōu)先選擇安全數(shù)據(jù),對違規(guī)輸出行為進(jìn)行負(fù)向懲罰。
在模型運(yùn)營階段,在用戶與模型交互的第一環(huán)節(jié)設(shè)置“訪問控制閘門”,結(jié)合正則表達(dá)式匹配與意圖識別模型,攔截隱含風(fēng)險(xiǎn)內(nèi)容的輸入,為不同密級的知識庫設(shè)置訪問壁壘(如高管戰(zhàn)略會議記錄僅限特定人員訪問)。
針對高風(fēng)險(xiǎn)場景,采用“動(dòng)態(tài)風(fēng)險(xiǎn)校驗(yàn)+安全代答”機(jī)制,對生成內(nèi)容進(jìn)行實(shí)時(shí)安全評分,預(yù)置合規(guī)回復(fù)模板,應(yīng)對三種敏感問題:必須準(zhǔn)確回答的問題(如國家政策解讀),必須糾錯(cuò)的問題(如用戶的表述中有明顯錯(cuò)誤),需正向引導(dǎo)的問題(如拒絕提供犯罪方法內(nèi)容,轉(zhuǎn)而引導(dǎo)用戶話題至合規(guī)方向)。實(shí)現(xiàn)高風(fēng)險(xiǎn)攔截、中風(fēng)險(xiǎn)轉(zhuǎn)人工、低風(fēng)險(xiǎn)留痕審計(jì)。
“只有大模型能解決大模型的問題”,梁堃指出。未來安全防護(hù)將依賴更大規(guī)模的模型進(jìn)行對抗訓(xùn)練。例如,通過訓(xùn)練專門的“攻擊模型”模擬黑客行為,再用防御模型進(jìn)行迭代優(yōu)化。
大模型安全面臨的挑戰(zhàn)
智能化時(shí)代的AI大模型防御體系在不斷進(jìn)化,但仍面臨著多重挑戰(zhàn)。第一,算力風(fēng)險(xiǎn),當(dāng)千億級參數(shù)成為大模型標(biāo)配,算力饑荒正在蔓延。據(jù)工信部統(tǒng)計(jì),截至2024年底,全國算力總規(guī)模突破230EFLOPS(百億億次浮點(diǎn)運(yùn)算/秒),但供需缺口仍達(dá)35%,中小企業(yè)尤為艱難。更危險(xiǎn)的是算力黑產(chǎn)。例如,浙江某云計(jì)算平臺遭黑客利用漏洞非法盜用價(jià)值3700萬元的算力資源。
當(dāng)AI系統(tǒng)處理超過10億條數(shù)據(jù)時(shí),哪怕最初的數(shù)據(jù)采樣存在0.1%的偏差,經(jīng)過算法放大后可能演變成系統(tǒng)性歧視。就像用帶有色鏡的相機(jī)拍攝世界,最終呈現(xiàn)的畫面必然失真。例如,美國某醫(yī)療AI因訓(xùn)練數(shù)據(jù)中非裔患者樣本不足,導(dǎo)致糖尿病并發(fā)癥誤診率高達(dá)42%,間接造成數(shù)百人延誤治療。
第二,可解釋性風(fēng)險(xiǎn),大模型基于深度學(xué)習(xí)架構(gòu),通過海量數(shù)據(jù)訓(xùn)練形成復(fù)雜的參數(shù)網(wǎng)絡(luò),其決策過程如同“黑箱”,難以向用戶直觀呈現(xiàn)推理邏輯與依據(jù),易引發(fā)決策信任危機(jī)。
第三,物理+智能風(fēng)險(xiǎn)。大模型已經(jīng)被廣泛應(yīng)用于無人機(jī)等領(lǐng)域的自動(dòng)控制,AI智能體需要長時(shí)間運(yùn)行,其幻覺問題不僅是文字輸出錯(cuò)誤,而是直接引發(fā)錯(cuò)誤后果。例如在自動(dòng)駕駛場景中,若智能體誤識別交通標(biāo)志,便可能導(dǎo)致物理事故。
當(dāng)技術(shù)奇點(diǎn)臨近,安全邊界成為人類掌控AI的最后堡壘。這道“安全圍欄”的建造,將決定我們是駕馭AI的浪潮,還是被浪潮吞沒。
特別聲明:智慧醫(yī)療網(wǎng)轉(zhuǎn)載其他網(wǎng)站內(nèi)容,出于傳遞更多信息而非盈利之目的,同時(shí)并不代表贊成其觀點(diǎn)或證實(shí)其描述,內(nèi)容僅供參考。版權(quán)歸原作者所有,若有侵權(quán),請聯(lián)系我們刪除。
凡來源注明智慧醫(yī)療網(wǎng)的內(nèi)容為智慧醫(yī)療網(wǎng)原創(chuàng),轉(zhuǎn)載需獲授權(quán)。
智慧醫(yī)療網(wǎng) ? 2022 版權(quán)所有 ICP備案號:滬ICP備17004559號-5