久久最新最好视频|精品福利视频在线|狠狠狠干在线播放|色尼玛亚洲综合网|日韩加勒比无码AV|亚洲AV人人澡人人爽人人爱|国产精品免费怡红院|婷婷一区二区XXX|日韩成人一区二区三|欧美熟妇另类AAAAAA

歡迎訪問智慧醫(yī)療網(wǎng) | 網(wǎng)站首頁
 

醫(yī)生 + AI大模型 = 診斷 “黃金搭檔”?普林斯頓大學(xué)最新研究揭示人機協(xié)同醫(yī)療臨床決策新范式

發(fā)布時間:2025-08-19 來源:Wolfgang知識圖譜科技 瀏覽量: 字號:【加大】【減小】 手機上觀看

打開手機掃描二維碼
即可在手機端查看

醫(yī)生與AI大模型的協(xié)同診療,正從技術(shù)概念走向臨床現(xiàn)實。普林斯頓大學(xué)團隊基于強化學(xué)習(xí)開發(fā)的ICU決策優(yōu)化模型,結(jié)合近期DeepSeek-R1、GPT-5等大模型在診斷環(huán)節(jié)的突破性表現(xiàn),共同勾勒出“人機協(xié)同”的新范式——人類醫(yī)生的全局經(jīng)驗與AI的高維計算能力互補,形成“1+1>2”的臨床決策升級。以下從核心技術(shù)、應(yīng)用場景及未來挑戰(zhàn)三方面展開分析!


摘要

在高風(fēng)險的醫(yī)療診斷領(lǐng)域,單純依賴大型語言模型(LLMs)或人類醫(yī)生都存在局限——LLMs 會幻覺、缺乏常識且有偏見;人類則受經(jīng)驗局限與知識覆蓋面的限制。本研究提出一種混合集體智能(Hybrid Collective Intelligence, HCI)方法,將醫(yī)生的臨床推理與 LLM 的信息處理能力結(jié)合,對 2,133 個真實感病例(含 40,762 份醫(yī)生診斷與 5 個最先進(jìn) LLM 的診斷輸出)進(jìn)行加權(quán)融合。結(jié)果顯示,混合集體在所有專業(yè)與經(jīng)驗層級下的診斷準(zhǔn)確率均顯著優(yōu)于人類單獨、AI 單獨及各自的集體形式。


微信圖片_2025-08-19_001257_128.png



背景

每年美國約 79.5 萬例死亡或永久傷殘與診斷錯誤相關(guān)。盡管 LLM 在自然語言處理與多領(lǐng)域問答中表現(xiàn)出色,包括醫(yī)學(xué)在內(nèi)的眾多場景,但它們的結(jié)構(gòu)性缺陷(如幻覺、偏見、缺乏常識讓其在臨床高風(fēng)險應(yīng)用中存在安全隱患。
研究表明,“集體智能”能通過不同專家獨立判斷的組合提升整體準(zhǔn)確性
。本研究創(chuàng)新地將人類專家與多個 LLM 視為“同臺評審”,利用各自優(yōu)勢與互補性,構(gòu)建混合集體智能體系。


為什么 1+1>2?關(guān)鍵在于錯誤類型的差異性:


  • 當(dāng) AI 漏診時,醫(yī)生往往能給出正確答案(尤其在復(fù)雜病例中)
  • 當(dāng)醫(yī)生判斷失誤時,AI 可能捕捉到被忽略的細(xì)節(jié)
  • 混合團隊的診斷 “容錯率” 顯著更高


舉個例子:在一例 “俄亥俄州建筑工人胸痛” 病例中,AI 更易聯(lián)想到真菌感染(當(dāng)?shù)馗甙l(fā)),而醫(yī)生可能優(yōu)先考慮職業(yè)相關(guān)肺部疾病,二者結(jié)合最終鎖定 “組織胞漿菌病”。

研究方法

數(shù)據(jù)來源

  • Human Diagnosis Project (Human Dx)

     平臺
  • 2,133 個經(jīng)過執(zhí)業(yè)醫(yī)生審核的文本病例
  • 診斷來源:1,370 名主治醫(yī)師、139 名??婆嘤?xùn)醫(yī)師、2,160 名住院醫(yī)師(再加 1,037 名醫(yī)學(xué)生用于補充分析)

LLM 選擇

  1. Anthropic Claude 3 Opus
  2. Google Gemini Pro 1.0
  3. Meta LLaMA 2 70B
  4. Mistral Large
  5. OpenAI GPT-4
    每個模型需輸出前五個最可能的診斷

融合流程

  1. 標(biāo)準(zhǔn)化處理


    將所有人類與 LLM 的原始診斷映射至 SNOMED CT 唯一 ID,統(tǒng)一同義詞、縮寫、英式/美式拼寫等
  2. 加權(quán)多數(shù)投票

    • 根據(jù)訓(xùn)練集表現(xiàn)為各 LLM 賦予不同權(quán)重;所有醫(yī)生共用一個權(quán)重值
    • 使用 1/r 規(guī)則 按診斷排名賦分
    • 采用加權(quán)多數(shù)投票合成最終列表
  3. 交叉驗證


    10 次重復(fù)五折交叉驗證,確保模型泛化穩(wěn)定

性能指標(biāo)

  • Top-1 / Top-3 / Top-5 準(zhǔn)確率
  • 平均倒數(shù)排名(MRR

主要研究結(jié)果

1. 多模型集成優(yōu)于單模型

將多個 LLM 輸出組合成 AI 集體,在 Top-5 與 Top-3 準(zhǔn)確率上均優(yōu)于任何單一 LLM,并在多個??浦斜3址€(wěn)定領(lǐng)先。


微信圖片_2025-08-19_001304_104.png微信圖片_2025-08-19_001308_442.png


2. 人機混合集體全線勝出

  • 向醫(yī)生集體加入一個 LLM,可超越純醫(yī)生組
  • 向 LLM 集體加入一位醫(yī)生,也能提升整體準(zhǔn)確率
    即使加入表現(xiàn)最差的 LLM,也帶來輕微提升。
    微信圖片_2025-08-19_001312_154.png

3. 錯誤互補性是關(guān)鍵

  • 在 46%–51% 的病例中,醫(yī)生與 LLM 對正確診斷的排名不同
  • 當(dāng) LLM 完全漏掉正確診斷時,醫(yī)生在 30%–38% 的病例中能補上,大部分排在第一位
  • 這種低相關(guān)錯誤模式讓加權(quán)投票更易推高正確診斷排名。

主要創(chuàng)新點

  1. 開放性答案的自動標(biāo)準(zhǔn)化

    基于 SNOMED CT 的全文匹配與向量搜索匹配,處理了同義詞、拼寫差異與縮寫等問題,實現(xiàn)精準(zhǔn)對齊。
  2. 權(quán)重化人機投票機制

    通過 WMVE(加權(quán)多數(shù)投票)方式按歷史表現(xiàn)分配權(quán)重,優(yōu)勝者得更多表決力。
  3. 跨模態(tài)可遷移性

    方法依賴結(jié)構(gòu)化知識體系,可移植至氣候政策等其他開放性、高風(fēng)險領(lǐng)域。

未來研究方向

  • 臨床實地驗證

    :目前為病例小故事(vignette)測試,需轉(zhuǎn)化到真實臨床環(huán)境
  • 治療影響評估

    :診斷改善是否帶來治療方案優(yōu)化?
  • 偏見與公平性

    :混合集體是否能減少 AI 及人類共有的偏見?
  • Prompt 工程優(yōu)化

    :Tree-of-Thought、自一致性等方法可望進(jìn)一步提升表現(xiàn)
  • 多模態(tài)融合

    :將影像、聲音等數(shù)據(jù)加入診斷流程
  • 決策支持系統(tǒng)化

    :研究如何在臨床工作流中最佳整合,防止自動化偏見與算法厭惡

結(jié)論

混合集體智能不是要取代醫(yī)生,而是利用人類的臨床洞察與 AI 的信息整合能力互補,讓醫(yī)療診斷更精準(zhǔn)、更安全、更公平。

特別聲明:智慧醫(yī)療網(wǎng)轉(zhuǎn)載其他網(wǎng)站內(nèi)容,出于傳遞更多信息而非盈利之目的,同時并不代表贊成其觀點或證實其描述,內(nèi)容僅供參考。版權(quán)歸原作者所有,若有侵權(quán),請聯(lián)系我們刪除。

凡來源注明智慧醫(yī)療網(wǎng)的內(nèi)容為智慧醫(yī)療網(wǎng)原創(chuàng),轉(zhuǎn)載需獲授權(quán)。

智慧醫(yī)療網(wǎng) ? 2022 版權(quán)所有   ICP備案號:滬ICP備17004559號-5