內(nèi)蒙古一位公司老板與好友進行微信視頻通話,對方聲稱在外地競標(biāo),急需430萬元保證金,并希望借用公司賬戶轉(zhuǎn)賬。視頻聊天中,由于對方的面孔和聲音與好友無異,科技公司老板深信不疑,分兩筆將錢款轉(zhuǎn)入對方銀行賬戶。然而,事后經(jīng)電話確認,好友并未借款,老板方知受騙。騙子運用AI換臉和擬聲技術(shù),偽造了好友的身份進行詐騙。
這一事件并非孤例。隨著生成式AI技術(shù)的快速普及,大模型在提升效率的同時,也暴露出前所未有的安全隱患:AI換臉詐騙、訓(xùn)練數(shù)據(jù)泄露、惡意代碼生成、深度偽造攻擊等問題頻發(fā)?!?025-2030年全球及中國人工智能行業(yè)市場現(xiàn)狀調(diào)研及發(fā)展前景分析報告》顯示,超過60%的企業(yè)級大模型部署至少遭遇一種安全事件。如何為AI大模型筑起一道堅固的“安全圍欄”,已成為全球技術(shù)界和產(chǎn)業(yè)界的共同命題。
為何AI需要“安全圍欄”
在近日舉辦的A2M人工智能創(chuàng)新峰會上,數(shù)美科技CTO梁堃分享了當(dāng)前大模型存在的安全風(fēng)險和解決方案。
以DeepSeek、百川智能為代表的開源平臺大幅降低了技術(shù)門檻,催生出“千模千面”的差異化應(yīng)用生態(tài)。然而,當(dāng)AI技術(shù)從實驗室走向千家萬戶,攻擊面也呈幾何級擴張。
據(jù)統(tǒng)計,全球大模型安全事件損失已從2023年的85億美元,劇增至2024年的143億美元,預(yù)計2025年損失將突破235億美元。
攻擊者只需一次成功入侵即可獲利,而作為防守方的企業(yè)卻需要應(yīng)對海量威脅。開源AI工具被攻擊者濫用,降低網(wǎng)絡(luò)攻擊門檻,使得網(wǎng)絡(luò)攻擊高度規(guī)模化。而大模型使得攻擊分析、攻擊手段更加精準(zhǔn)化、持續(xù)化,挑戰(zhàn)傳統(tǒng)防護手段的同時形成難以檢測的攻擊代碼和海量“零樣本”惡意程序,以繞過傳統(tǒng)檢測規(guī)則,給網(wǎng)絡(luò)安全攻防帶來了高度對抗性。
AI時代的安全風(fēng)險與防控成本呈指數(shù)級增長,安全挑戰(zhàn)也已經(jīng)從簡單的技術(shù)問題上升為影響商業(yè)模式、社會穩(wěn)定甚至文明發(fā)展的關(guān)鍵議題。
如何構(gòu)建大模型“安全圍欄”
梁堃提出“規(guī)劃-訓(xùn)練-運營”三階段防御體系,在大模型開始運營后再進行風(fēng)險防控往往是“被動堵漏”,應(yīng)從開發(fā)階段就將安全要求融入AI基因。
在規(guī)劃階段,建立風(fēng)險坐標(biāo)系,按行業(yè)特性劃分數(shù)據(jù)保密等級(如金融客戶交易數(shù)據(jù)為絕密級,醫(yī)療基因數(shù)據(jù)為機密級),基于“最小權(quán)限原則”,通過角色權(quán)限控制(RBAC)和多因素認證(MFA)限制數(shù)據(jù)訪問范圍。例如,算法工程師僅可訪問訓(xùn)練所需子集,禁止接觸全量機密數(shù)據(jù)。
在訓(xùn)練階段,采用自然語言處理技術(shù)(NLP)對原始語料進行自動化篩查,識別并攔截包含敏感詞、機密信息、違規(guī)數(shù)據(jù)的樣本。對醫(yī)療影像、產(chǎn)品設(shè)計圖紙等高密級數(shù)據(jù)進行去標(biāo)識化處理。通過規(guī)則引擎和機器學(xué)習(xí)模型檢測用戶輸入的高危指令,通過強化學(xué)習(xí)引導(dǎo)模型優(yōu)先選擇安全數(shù)據(jù),對違規(guī)輸出行為進行負向懲罰。
在模型運營階段,在用戶與模型交互的第一環(huán)節(jié)設(shè)置“訪問控制閘門”,結(jié)合正則表達式匹配與意圖識別模型,攔截隱含風(fēng)險內(nèi)容的輸入,為不同密級的知識庫設(shè)置訪問壁壘(如高管戰(zhàn)略會議記錄僅限特定人員訪問)。
針對高風(fēng)險場景,采用“動態(tài)風(fēng)險校驗+安全代答”機制,對生成內(nèi)容進行實時安全評分,預(yù)置合規(guī)回復(fù)模板,應(yīng)對三種敏感問題:必須準(zhǔn)確回答的問題(如國家政策解讀),必須糾錯的問題(如用戶的表述中有明顯錯誤),需正向引導(dǎo)的問題(如拒絕提供犯罪方法內(nèi)容,轉(zhuǎn)而引導(dǎo)用戶話題至合規(guī)方向)。實現(xiàn)高風(fēng)險攔截、中風(fēng)險轉(zhuǎn)人工、低風(fēng)險留痕審計。
“只有大模型能解決大模型的問題”,梁堃指出。未來安全防護將依賴更大規(guī)模的模型進行對抗訓(xùn)練。例如,通過訓(xùn)練專門的“攻擊模型”模擬黑客行為,再用防御模型進行迭代優(yōu)化。
大模型安全面臨的挑戰(zhàn)
智能化時代的AI大模型防御體系在不斷進化,但仍面臨著多重挑戰(zhàn)。第一,算力風(fēng)險,當(dāng)千億級參數(shù)成為大模型標(biāo)配,算力饑荒正在蔓延。據(jù)工信部統(tǒng)計,截至2024年底,全國算力總規(guī)模突破230EFLOPS(百億億次浮點運算/秒),但供需缺口仍達35%,中小企業(yè)尤為艱難。更危險的是算力黑產(chǎn)。例如,浙江某云計算平臺遭黑客利用漏洞非法盜用價值3700萬元的算力資源。
當(dāng)AI系統(tǒng)處理超過10億條數(shù)據(jù)時,哪怕最初的數(shù)據(jù)采樣存在0.1%的偏差,經(jīng)過算法放大后可能演變成系統(tǒng)性歧視。就像用帶有色鏡的相機拍攝世界,最終呈現(xiàn)的畫面必然失真。例如,美國某醫(yī)療AI因訓(xùn)練數(shù)據(jù)中非裔患者樣本不足,導(dǎo)致糖尿病并發(fā)癥誤診率高達42%,間接造成數(shù)百人延誤治療。
第二,可解釋性風(fēng)險,大模型基于深度學(xué)習(xí)架構(gòu),通過海量數(shù)據(jù)訓(xùn)練形成復(fù)雜的參數(shù)網(wǎng)絡(luò),其決策過程如同“黑箱”,難以向用戶直觀呈現(xiàn)推理邏輯與依據(jù),易引發(fā)決策信任危機。
第三,物理+智能風(fēng)險。大模型已經(jīng)被廣泛應(yīng)用于無人機等領(lǐng)域的自動控制,AI智能體需要長時間運行,其幻覺問題不僅是文字輸出錯誤,而是直接引發(fā)錯誤后果。例如在自動駕駛場景中,若智能體誤識別交通標(biāo)志,便可能導(dǎo)致物理事故。
當(dāng)技術(shù)奇點臨近,安全邊界成為人類掌控AI的最后堡壘。這道“安全圍欄”的建造,將決定我們是駕馭AI的浪潮,還是被浪潮吞沒。
特別聲明:智慧醫(yī)療網(wǎng)轉(zhuǎn)載其他網(wǎng)站內(nèi)容,出于傳遞更多信息而非盈利之目的,同時并不代表贊成其觀點或證實其描述,內(nèi)容僅供參考。版權(quán)歸原作者所有,若有侵權(quán),請聯(lián)系我們刪除。
凡來源注明智慧醫(yī)療網(wǎng)的內(nèi)容為智慧醫(yī)療網(wǎng)原創(chuàng),轉(zhuǎn)載需獲授權(quán)。
智慧醫(yī)療網(wǎng) ? 2022 版權(quán)所有 ICP備案號:滬ICP備17004559號-5