久久最新最好视频|精品福利视频在线|狠狠狠干在线播放|色尼玛亚洲综合网|日韩加勒比无码AV|亚洲AV人人澡人人爽人人爱|国产精品免费怡红院|婷婷一区二区XXX|日韩成人一区二区三|欧美熟妇另类AAAAAA

歡迎訪問智慧醫(yī)療網(wǎng) | 網(wǎng)站首頁
 
當前位置:首頁 > 信息 > 海外

斯坦福大學推出新工具,為醫(yī)療AI模型的實際應(yīng)用表現(xiàn)提供評估標準

發(fā)布時間:2025-03-20 來源:醫(yī)健網(wǎng) 瀏覽量: 字號:【加大】【減小】 手機上觀看

打開手機掃描二維碼
即可在手機端查看

在人工智能技術(shù)迅速滲透醫(yī)療領(lǐng)域的背景下,如何準確評估AI模型在真實醫(yī)療場景中的表現(xiàn)成為業(yè)內(nèi)關(guān)注的焦點。斯坦福大學近日推出了一款全新的評估工具,旨在為醫(yī)療AI模型提供更貼近實際需求的測試方法。這一工具被稱為MedHelm,其設(shè)計目標是幫助醫(yī)療系統(tǒng)和決策者更好地選擇和部署AI技術(shù),確保其在真實環(huán)境中發(fā)揮作用。

醫(yī)療AI的“現(xiàn)實考驗”


斯坦福的這一工具類似于汽車購買時的全面評測,專注于AI模型在實際醫(yī)療任務(wù)中的表現(xiàn),而非僅僅依賴學術(shù)測試或理論數(shù)據(jù)。哈佛醫(yī)學院生物醫(yī)學信息學系主任Isaac Kohane教授回憶起自己作為住院醫(yī)生時的一段經(jīng)歷:在重癥監(jiān)護室中,他曾為一名低血糖患兒列出詳盡的可能病因清單,但最終發(fā)現(xiàn)問題出在輸液操作的中斷上?!拔业膶煯敃r提醒我,要關(guān)注現(xiàn)實世界的運作方式,而不是僅僅依賴書本知識,”Kohane說。他認為,當前許多AI模型也面臨類似問題——它們在理論考試中表現(xiàn)優(yōu)異,但在實際醫(yī)療場景中卻可能失靈。


AI模型的局限性


研究人員發(fā)現(xiàn),盡管一些AI語言模型(如GPT-4)能夠通過美國醫(yī)學執(zhí)照考試等知識性測試,但它們在回答醫(yī)生指令或查詢時仍存在顯著錯誤。例如,在一次測試中,GPT-4的錯誤率高達35%,遠高于人類醫(yī)生的表現(xiàn)。這也引發(fā)了業(yè)內(nèi)對AI技術(shù)過度依賴的擔憂。


MedHelm工具的推出正是為了解決這一問題。它通過模擬真實醫(yī)療場景,對AI模型的表現(xiàn)進行全面評估,從而為醫(yī)療機構(gòu)提供更具參考價值的數(shù)據(jù)支持。


推動醫(yī)療AI的規(guī)范化應(yīng)用


斯坦福的研究團隊表示,MedHelm的目標不僅是評估AI模型的準確性,還包括其在不同醫(yī)療場景中的適用性。例如,該工具會測試AI模型在緊急情況下的反應(yīng)速度、對患者歷史數(shù)據(jù)的處理能力,以及在復(fù)雜決策中的可靠性。這些指標將為醫(yī)療系統(tǒng)選擇AI技術(shù)提供重要依據(jù)。


Kohane教授強調(diào):“醫(yī)療行業(yè)需要的不僅是聰明的AI模型,更是能夠理解并適應(yīng)現(xiàn)實世界復(fù)雜性的解決方案。MedHelm為我們提供了一個全新的視角,幫助我們更好地評估和利用這些技術(shù)?!?/span>


隨著AI技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用日益廣泛,其潛力和局限性也愈發(fā)顯現(xiàn)。MedHelm的推出為行業(yè)提供了一種新的評估方法,有望推動AI技術(shù)在醫(yī)療中的規(guī)范化應(yīng)用。然而,如何平衡技術(shù)創(chuàng)新與實際需求之間的關(guān)系,仍是行業(yè)需要面對的重要挑戰(zhàn)。

特別聲明:智慧醫(yī)療網(wǎng)轉(zhuǎn)載其他網(wǎng)站內(nèi)容,出于傳遞更多信息而非盈利之目的,同時并不代表贊成其觀點或證實其描述,內(nèi)容僅供參考。版權(quán)歸原作者所有,若有侵權(quán),請聯(lián)系我們刪除。

凡來源注明智慧醫(yī)療網(wǎng)的內(nèi)容為智慧醫(yī)療網(wǎng)原創(chuàng),轉(zhuǎn)載需獲授權(quán)。


智慧醫(yī)療網(wǎng) ? 2022 版權(quán)所有   ICP備案號:滬ICP備17004559號-5