在臨床工作中,醫(yī)生每天都要面對復(fù)雜的推理過程:從病人主訴、化驗數(shù)據(jù)、影像學(xué)檢查,到診斷、治療方案和隨訪決策。
但這些過程不僅繁瑣,還充滿不確定性。能否讓人工智能來幫忙?
近年來,大型語言模型(LLMs)在醫(yī)療健康領(lǐng)域展現(xiàn)出前所未有的潛力。它們能讀懂病歷、生成診斷意見,甚至和患者對話。但要真正成為臨床的「智慧助手」,LLMs 需要的不僅是語言能力,更是醫(yī)學(xué)推理能力。
最近,一項由香港理工大學(xué)的研究者主導(dǎo)完成的綜述 ——《Aligning Clinical Needs and AI Capabilities: A Survey on LLMs for Medical Reasoning》,首次系統(tǒng)梳理了醫(yī)學(xué)推理的全景圖:需求、方法、數(shù)據(jù)、挑戰(zhàn)與未來方向。
Github鏈接(整理的現(xiàn)有的工作,更新中,歡迎補(bǔ)充):https://github.com/pqpq17/Awesome-LLM-Reasoning-on-Medicine
五級醫(yī)學(xué)推理能力框架
該綜述基于 Miller’s Pyramid(米勒金字塔),提出了五級醫(yī)學(xué)推理能力分層體系:
Level 1:醫(yī)學(xué)知識識別與標(biāo)準(zhǔn)化(Knows)
Level 2:信息分類與初步分診(Knows How)
Level 3:因果推理與綜合診斷(Shows How)
Level 4:臨床決策支持與個性化推薦(Shows How / Does)
Level 5:動態(tài)交互與復(fù)雜場景管理(Does)
這個框架清晰描繪了 LLM 從「會認(rèn)知識」到「能當(dāng)助手」的進(jìn)階路徑,對現(xiàn)有benchmark/dataset的做出了清晰的劃分。
此外,基于這個五級分類體系以及Reasoning類型的討論,該綜述明確指出一個雙視角(即computational & clinical)的對齊框架。
首個標(biāo)準(zhǔn)化五級基準(zhǔn)數(shù)據(jù)集
該綜述構(gòu)建了一個包含 5,000 條標(biāo)注樣本的基準(zhǔn)數(shù)據(jù)集,覆蓋五個層次的能力要求,并首次系統(tǒng)評測了 18 個代表性模型。
結(jié)果顯示:
??颇P?→ 在診斷類任務(wù)上更突出
通用大模型 → 在決策支持、對話和總結(jié)上表現(xiàn)更佳
這為未來的模型選擇和任務(wù)分工提供了實證依據(jù)。
前沿方法全景回顧
該綜述全面回顧了醫(yī)學(xué) LLM 中的主流推理范式:
鏈?zhǔn)酵评恚–oT):逐步解釋,思路清晰
長鏈推理(Long-CoT):更深入的逐步分析,包含自我修正
檢索增強(qiáng)推理(RAG):結(jié)合醫(yī)學(xué)文獻(xiàn)和知識庫
多模態(tài)推理:同時理解病歷、影像和文本
智能體推理(Agentic Reasoning):主動規(guī)劃、調(diào)用外部工具、動態(tài)決策
同時,也直面四大挑戰(zhàn):
高質(zhì)量醫(yī)學(xué)數(shù)據(jù)不足
「幻覺」問題仍然存在
缺乏證據(jù)溯源與臨床可解釋性
模型結(jié)果不確定性難以控制
社會意義
這項工作不僅僅是綜述,更是一種「對齊」的嘗試:
對齊臨床需求:明確醫(yī)生真正需要的推理能力
對齊 AI 能力:梳理當(dāng)前模型能做什么、還欠缺什么
對齊未來方向:為科研、產(chǎn)業(yè)和醫(yī)療實踐提供參考
研究團(tuán)隊希望這項工作能推動醫(yī)學(xué)大模型真正落地臨床,從「實驗室里的聰明模型」變成「病房里的可靠助手」。
特別聲明:智慧醫(yī)療網(wǎng)轉(zhuǎn)載其他網(wǎng)站內(nèi)容,出于傳遞更多信息而非盈利之目的,同時并不代表贊成其觀點或證實其描述,內(nèi)容僅供參考。版權(quán)歸原作者所有,若有侵權(quán),請聯(lián)系我們刪除。
凡來源注明智慧醫(yī)療網(wǎng)的內(nèi)容為智慧醫(yī)療網(wǎng)原創(chuàng),轉(zhuǎn)載需獲授權(quán)。
智慧醫(yī)療網(wǎng) ? 2022 版權(quán)所有 ICP備案號:滬ICP備17004559號-5