當(dāng)前,人們對人工智能的興趣和熱情空前高漲。
而關(guān)于醫(yī)療領(lǐng)域的人工智能,我們不得不面臨以下問題:在何處、何時和如何部署AI,以及如何理解其風(fēng)險、問題和可能性。
但首先,需要理清楚人工智能在醫(yī)療領(lǐng)域的三個時代:專家系統(tǒng)、深度學(xué)習(xí)和大模型時代。
而基礎(chǔ)模型和生成AI代表了AI能力的一場重大革命,為改善醫(yī)療提供了巨大潛力。今天,醫(yī)療領(lǐng)導(dǎo)者正在就人工智能做出決策。
在最初的50多年里,大多數(shù)人工智能都專注于將人類的知識編碼成機器的規(guī)則。你可以把它想象成很多很多的“如果-那么”規(guī)則或決策樹。
這一具有象征意義的人工智能取得了一些顯著的成就,例如IBM的DeepBlue在1997年擊敗了國際象棋世界冠軍。
在醫(yī)療保健中,INTERNIST-I等工具旨在代表有關(guān)疾病的專家知識,以幫助處理病例。今天,許多電子實現(xiàn)的臨床路徑在決策樹中編碼專家知識。
象征性AI也有關(guān)鍵的局限性,特別是在其構(gòu)建過程中存在人類邏輯錯誤的風(fēng)險,以及在其規(guī)則中編碼的偏見,因為它的知識庫完全依賴于創(chuàng)造它的人。
但也許最重要的問題是,從經(jīng)驗上看,象征性AI具有基本的能力限制,在面對真實世界的情況時顯得脆弱。
作為回應(yīng),研究開始更多地關(guān)注概率模型,如傳統(tǒng)回歸,然后是貝葉斯網(wǎng)絡(luò),這使得專家知識和經(jīng)驗數(shù)據(jù)都有助于推理系統(tǒng)。
這些模型對真實世界情況的處理更優(yōu)雅,在醫(yī)療保健中也有一定用途,但在實踐中難以縮放,并且管理圖像、自由文本和其他復(fù)雜臨床數(shù)據(jù)的能力有限。
AI2.0:深度學(xué)習(xí)的時代
研究更多由數(shù)據(jù)驅(qū)動的方法,也就是被廣泛稱為機器學(xué)習(xí)的方法,其根源在于,智能的關(guān)鍵在于從錯誤中學(xué)習(xí)。
在2010年代初,一場真正的革命發(fā)生了。
隨著數(shù)據(jù)集的增長和計算機的加速,具有多層神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)開始嶄露頭角,AI 2.0時代開始了。
首先,卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)賦予計算機“看”的能力,它們獲得了對照片中的圖像進行分類的能力(比如“貓”vs“狗”)。其次,一項名為word2vec的發(fā)現(xiàn)創(chuàng)造了大規(guī)模使用文字進行數(shù)學(xué)運算的能力。
這場革命改變了我們?nèi)粘I钪械脑S多事情。如今,在手機上搜索數(shù)千張照片,而不需要手動為每張照片貼上標(biāo)簽,這已經(jīng)是一件微不足道的事情了。
一個人可以在100多種語言之間進行翻譯,無論是通過打字,還是用相機對著用一種他們不知道的語言寫的文字。
深度學(xué)習(xí)還讓新事物在醫(yī)療領(lǐng)域變得實用。《美國醫(yī)學(xué)會雜志》(JAMA)十年來最具影響力的一篇文章顯示,眼科醫(yī)師可在視網(wǎng)膜照片中發(fā)現(xiàn)糖尿病性視網(wǎng)膜病變。研究人員還展示了在乳腺癌和肺癌篩查、病理學(xué)、皮膚疾病識別和電子健康記錄數(shù)據(jù)預(yù)測等許多領(lǐng)域的突破。
深度學(xué)習(xí)算法從標(biāo)記了基本事實的例子中學(xué)習(xí)(“這張照片是一只貓”)。然后他們學(xué)習(xí)模式,而不是按照模式編程。
在這個時代,通過編程使計算機學(xué)會比用專家提供的規(guī)則硬編碼計算機更容易,至少對于許多任務(wù)來說是這樣。這些模型具有非凡的能力,但也有重要的風(fēng)險。
當(dāng)實時數(shù)據(jù)與它們所訓(xùn)練的數(shù)據(jù)不同時,模型可能會失敗。例如,如果一個模型只接受“貓vs狗”的訓(xùn)練,但給出的是一幅飛機的圖片,它不會給出一個好的結(jié)果。
更微妙的是醫(yī)療保健中一個關(guān)鍵的安全問題。還可能出現(xiàn)與以下因素相關(guān)的復(fù)雜偏見:基礎(chǔ)數(shù)據(jù)的包容性、基于種族的不平等和不公平的診斷和治療選擇、算法設(shè)計選擇和其他問題。
監(jiān)管機構(gòu)已經(jīng)開發(fā)了框架來評估這類特定任務(wù)的人工智能;例如,美國食品和藥物管理局已經(jīng)批準(zhǔn)或批準(zhǔn)了數(shù)百種人工智能醫(yī)療設(shè)備。
AI 3.0:基礎(chǔ)模型和生成AI
AI 2.0有一個關(guān)鍵問題,與災(zāi)難性遺忘有關(guān):當(dāng)處理長文本序列時,它很難記住序列中較早的內(nèi)容。
2017年出現(xiàn)的transformer架構(gòu)幫助解決了這一問題,讓模型能夠?qū)⒆⒁饬Ψ旁陂L文本上。
在接下來的幾年里,transformer與大數(shù)據(jù)結(jié)合在一起,創(chuàng)建了基礎(chǔ)模型和大型語言模型。2022年和2023年的進展速度顯著加快,標(biāo)志著第三個時期。
區(qū)分AI 2.0和AI 3.0的兩個關(guān)鍵因素。首先,AI 2.0是針對特定任務(wù)的。它一次只做一件事。如果一個人想要它做其他的事情,他們將需要一個新的數(shù)據(jù)集和訓(xùn)練一個新的模型。
其次,AI 2.0在很大程度上可以對事物進行預(yù)測或分類。它生成新詞、圖像或其他內(nèi)容的能力是有限的。
AI 3.0有本質(zhì)上的不同。它可以完成許多不同的任務(wù),而不需要重新訓(xùn)練。例如,一個簡單的文本指令將改變模型的行為。像“給專科醫(yī)生寫這張紙條”和“給病人的母親寫這張紙條”這樣的提示會產(chǎn)生明顯不同的內(nèi)容。
這些模型的能力也有了顯著提高:解釋真正復(fù)雜的問題;接受并產(chǎn)生文本、圖像和聲音;生成回復(fù)并進行長時間的交談。
這些模型有幾種類型,但在本節(jié)的其余部分中,我們將重點關(guān)注一個重要的類別——大型語言模型。
它們已經(jīng)影響了我們的日常生活,包括寫作助手、圖像生成器、軟件編碼助手和聊天機器人。目前也存在與健康相關(guān)的大型語言模型。
例如,Med-PaLM和Med-PaLM 2是在谷歌開發(fā)的醫(yī)學(xué)調(diào)優(yōu)基礎(chǔ)模型,在醫(yī)師資格考試類型的問題上達到了專家水平的表現(xiàn)。他們還能寫出人們健康問題的長篇答案。
當(dāng)醫(yī)師將Med-PaLM 2的答案與不知道起源的醫(yī)師所寫的答案進行比較時,他們強烈傾向于評估的9個維度中的8個方面的模型答案。
如何訓(xùn)練大型語言模型?
想象一下拿著一大堆文件,一個人按順序向模型顯示每個單詞,但不讓它看到下一個單詞。相反,這個模型被要求一次又一次地預(yù)測這個詞。
每當(dāng)模型出錯時,它就會改變單詞如何組合在一起的內(nèi)部表示。最終,它構(gòu)建了這些單詞(以及概念)如何組合在一起的表示。當(dāng)模型稍后被問及一個問題時,它會通過預(yù)測答案中可能出現(xiàn)的下一個單詞來做出回應(yīng)。
把這些模型的基本版本看作下一個單詞的預(yù)測引擎。這有助于理解它們一些令人驚訝的行為。例如,這些模型可能擅長編寫計算機程序,但不擅長算術(shù)。
為什么?這是因為他們不是在做數(shù)學(xué),而是在按順序預(yù)測下一個單詞。同樣地,他們可能會返回聽起來似是而非的期刊引用。為什么?
出于同樣的原因:他們不是在PubMed上查找東西,而是預(yù)測下一個可信的單詞。這些“幻覺”代表了AI 3.0的新風(fēng)險類別。
在這一領(lǐng)域,檢索增強生成等領(lǐng)域的技術(shù)進步正在積極改善性能,而且這些模型使用計算器等工具或?qū)崟r訪問網(wǎng)絡(luò)的能力也改善了結(jié)果。
AI 2.0中存在的偏差和股權(quán)風(fēng)險仍然是AI 3.0的問題。此外,由于在語言語義中編碼的偏見,語言模型可能會產(chǎn)生新的風(fēng)險。
我們預(yù)計AI 3.0將作為增強工具投入實踐,最初幫助解決醫(yī)療保健方面的問題,如文檔負(fù)擔(dān)。
隨著這些工具隨后開始支持臨床實踐,并且臨床醫(yī)師參與其中,我們需要一個經(jīng)過深思熟慮的監(jiān)管框架,以幫助確保患者安全地獲益于這一技術(shù)。
智慧醫(yī)療網(wǎng) ? 2022 版權(quán)所有 ICP備案號:滬ICP備17004559號-5