久久最新最好视频|精品福利视频在线|狠狠狠干在线播放|色尼玛亚洲综合网|日韩加勒比无码AV|亚洲AV人人澡人人爽人人爱|国产精品免费怡红院|婷婷一区二区XXX|日韩成人一区二区三|欧美熟妇另类AAAAAA

歡迎訪問智慧醫(yī)療網(wǎng) | 網(wǎng)站首頁
 

AI模擬病人系統(tǒng)革新:知識圖譜+大模型驅(qū)動,94.15%問答準(zhǔn)確率,醫(yī)學(xué)教育新突破

發(fā)布時間:2025-09-01 來源:知識圖譜科技 瀏覽量: 字號:【加大】【減小】 手機(jī)上觀看

打開手機(jī)掃描二維碼
即可在手機(jī)端查看

摘要

模擬病人系統(tǒng)在現(xiàn)代醫(yī)學(xué)教育和研究中發(fā)揮著重要作用,提供了安全的、綜合性的醫(yī)學(xué)培訓(xùn)環(huán)境,并支持臨床決策模擬。人工智能(AI)技術(shù),如大型語言模型(LLM),可以通過高保真度且低成本的方式復(fù)制醫(yī)療狀況和醫(yī)患互動,從而提升模擬病人系統(tǒng)。然而,確保這些系統(tǒng)的有效性和可信度仍然是一個挑戰(zhàn),因?yàn)樗鼈冃枰粋€龐大、多樣且精確的病人知識庫,以及向用戶提供穩(wěn)健和穩(wěn)定的知識傳播。在這里,我們開發(fā)了AI病人,一個由基于大型語言模型的AI代理驅(qū)動的智能模擬病人系統(tǒng)。該系統(tǒng)采用了檢索增強(qiáng)生成(RAG)框架,由六個特定任務(wù)的大型語言模型AI代理提供復(fù)雜推理能力。為了模擬現(xiàn)實(shí)情況,該系統(tǒng)還由AI病人知識圖譜(Knowledge Graph)驅(qū)動,該知識圖譜使用來自重癥監(jiān)護(hù)醫(yī)學(xué)信息數(shù)據(jù)庫(MIMIC)-III的去識別真實(shí)病人數(shù)據(jù)構(gòu)建。主要成果展示了系統(tǒng)的智能性,包括系統(tǒng)在基于電子病歷(EHR)的醫(yī)療問答(QA)準(zhǔn)確性、可讀性、穩(wěn)健性和穩(wěn)定性方面的表現(xiàn)。當(dāng)所有六個AI代理都存在時,系統(tǒng)實(shí)現(xiàn)了94.15%的QA準(zhǔn)確率,超越了部分或無代理集成的基準(zhǔn)測試。其知識庫表現(xiàn)出高度有效性(F1分?jǐn)?shù)=0.89)??勺x性評分顯示,中位數(shù)弗萊施閱讀簡易度得分為77.23,中位數(shù)弗萊施金凱德等級為5.6,表明所有醫(yī)學(xué)專業(yè)人士都能理解。通過非顯著方差(方差分析F值=0.6126,p>0.1;F值=0.782,p>0.1)確認(rèn)了其穩(wěn)健性和穩(wěn)定性。一項(xiàng)針對醫(yī)學(xué)生的用戶研究進(jìn)一步證明,AI患者提供了高保真度、強(qiáng)大的可用性和有效的教育價值,在醫(yī)學(xué)病史采集場景中的表現(xiàn)與人類模擬患者相當(dāng)或更好。AI患者系統(tǒng)的有前途的智能凸顯了其支持廣泛應(yīng)用的潛力,包括醫(yī)學(xué)教育、模型評估和系統(tǒng)集成。文章原文全文可到文末加入知識星球獲取。

核心速覽

研究背景

  1. 1.

    研究問題:這篇文章要解決的問題是如何利用基于大型語言模型(LLM)的人工智能代理來提升模擬病人系統(tǒng)的智能化水平。模擬病人系統(tǒng)在現(xiàn)代醫(yī)學(xué)教育和研究中發(fā)揮著重要作用,但其在智能性和可信度方面的挑戰(zhàn)仍需解決。

  2. 2.

    研究難點(diǎn):該問題的研究難點(diǎn)包括:需要構(gòu)建一個大型、多樣化和精確的患者知識庫,以及確保知識向用戶穩(wěn)定且可靠地傳播。

  3. 3.

    相關(guān)工作:該問題的研究相關(guān)工作包括利用LLM進(jìn)行醫(yī)學(xué)應(yīng)用的研究,如模擬病人系統(tǒng)的開發(fā)。然而,現(xiàn)有的模擬病人系統(tǒng)在智能性和可信度方面仍存在不足,特別是在知識庫的多樣性和一致性方面。

研究方法

這篇論文提出了AlPatient系統(tǒng),一個由基于LLM的人工智能代理驅(qū)動的智能模擬病人系統(tǒng)。具體來說,

1.

知識庫構(gòu)建:首先,使用命名實(shí)體識別(NER)方法從MIMIC-III數(shù)據(jù)庫中的出院小結(jié)中提取患者的癥狀、病史、過敏、社會史和家庭史等信息,構(gòu)建AlPatient知識圖譜(AIPatient KG)。


微信圖片_2025-09-01_161351_111.png微信圖片_2025-09-01_161355_085.png



2.

推理增強(qiáng)生成(RAG)框架:其次,系統(tǒng)采用了推理增強(qiáng)生成(RAG)框架,該框架通過六個特定任務(wù)LLM代理進(jìn)行復(fù)雜推理。RAG框架的關(guān)鍵階段包括檢索、推理和生成三個階段。


微信圖片_2025-09-01_161358_769.png


  1. 3.

    多代理協(xié)作:系統(tǒng)中的每個代理負(fù)責(zé)不同的任務(wù),如信息檢索、抽象、檢查和生成。這些代理通過共享的JSON狀態(tài)進(jìn)行通信,支持多輪對話,保持記憶和連貫性。

實(shí)驗(yàn)設(shè)計(jì)

  1. 1.

    數(shù)據(jù)收集:實(shí)驗(yàn)使用了MIMIC-III數(shù)據(jù)庫中的1500個患者記錄,這些記錄已經(jīng)去除了個人身份信息(PII),以確保數(shù)據(jù)隱私。

  2. 2.

    樣本選擇:通過分層抽樣,確保樣本在主要診斷類別上的代表性。

  3. 3.

    參數(shù)配置:在評估LLM性能時,設(shè)置了每個輸入令牌的最大長度為4096,溫度參數(shù)為1,以限制模型輸出的多樣性。

  4. 4.

    評估指標(biāo):系統(tǒng)性能的評估包括知識庫有效性(NER任務(wù)的F1分?jǐn)?shù))、問答準(zhǔn)確性、可讀性、系統(tǒng)魯棒性和穩(wěn)定性。

結(jié)果與分析

1.

知識庫有效性:在NER任務(wù)中,GPT-4 Turbo模型的F1分?jǐn)?shù)最高,達(dá)到0.89,表明其知識庫具有高效的結(jié)構(gòu)化信息抽取能力。


微信圖片_2025-09-01_161402_185.png


  1. 2.

    問答準(zhǔn)確性:在所有六個代理都存在的情況下,系統(tǒng)的問答準(zhǔn)確率達(dá)到94.15%,超過了部分或無代理集成的基準(zhǔn)。

    3.

    可讀性:系統(tǒng)的Flesch閱讀易度中位數(shù)為68.77,F(xiàn)lesch-Kincaid年級水平中位數(shù)為6.4,表明系統(tǒng)生成的文本易于理解。


    微信圖片_2025-09-01_161405_217.png


  2. 4.

    系統(tǒng)魯棒性:系統(tǒng)對問題重述的魯棒性測試顯示,整體響應(yīng)準(zhǔn)確性的方差為0.6126,p值為0.5420,表明系統(tǒng)對問題表述變化的魯棒性較高。

  3. 5.

    系統(tǒng)穩(wěn)定性:在32種個性類型下,系統(tǒng)的中位數(shù)據(jù)丟失率為2%,表明系統(tǒng)在不同模擬個性下的表現(xiàn)一致。

總體結(jié)論

這篇論文展示了AlPatient系統(tǒng)在醫(yī)學(xué)教育和研究中的應(yīng)用潛力。通過結(jié)合LLM和多代理協(xié)作,系統(tǒng)實(shí)現(xiàn)了高準(zhǔn)確率、可讀性和魯棒性,能夠提供高質(zhì)量的模擬病人體驗(yàn)。未來的研究可以進(jìn)一步擴(kuò)展知識庫的多樣性和復(fù)雜性,并探索更多應(yīng)用場景,如罕見病例的模擬和臨床決策支持。

微信圖片_2025-09-01_161408_273.png


論文評價

優(yōu)點(diǎn)與創(chuàng)新


  1. 1.

    智能模擬病人系統(tǒng):論文開發(fā)了AlPatient,一個基于大型語言模型(LLM)的智能模擬病人系統(tǒng),能夠高保真、低成本地復(fù)制醫(yī)療條件和醫(yī)患互動。

  2. 2.

    推理增強(qiáng)生成框架:系統(tǒng)采用了推理增強(qiáng)生成(RAG)框架,結(jié)合六個特定任務(wù)的LLM AI代理進(jìn)行復(fù)雜推理。

  3. 3.

    知識圖譜:系統(tǒng)構(gòu)建了AlPatient知識圖譜(AIPatient KG),使用了MIMIC-III數(shù)據(jù)庫中的去標(biāo)識真實(shí)病人數(shù)據(jù)。

  4. 4.

    高準(zhǔn)確性:系統(tǒng)在電子病歷(EHR)為基礎(chǔ)的醫(yī)學(xué)問答(QA)中達(dá)到了94.15%的準(zhǔn)確性,超過了部分或無代理集成的基準(zhǔn)。

  5. 5.

    可讀性和穩(wěn)定性:系統(tǒng)的知識庫展示了高效性(F1分?jǐn)?shù)=0.89),可讀性的Flesch閱讀易度中位數(shù)為77.23,F(xiàn)lesch-Kincaid年級水平中位數(shù)為5.6,表明所有醫(yī)學(xué)專業(yè)人員都能訪問。

  6. 6.

    用戶研究:醫(yī)學(xué)學(xué)生的用戶研究進(jìn)一步證明了AlPatient提供高保真度、強(qiáng)可用性和有效的教育價值,在病史采集場景中的表現(xiàn)與人類模擬病人相當(dāng)或更好。

  7. 7.

    多代理設(shè)計(jì):通過多代理設(shè)計(jì)確保系統(tǒng)級別的智能,優(yōu)于單個LLM模型在醫(yī)學(xué)問答中的表現(xiàn)。

  8. 8.

    適應(yīng)性和魯棒性:系統(tǒng)在不同數(shù)據(jù)集和測試條件下的適應(yīng)性得到了驗(yàn)證,處理復(fù)雜醫(yī)療敘述的能力強(qiáng)。

不足與反思

  1. 1.

    數(shù)據(jù)多樣性限制:依賴MIMIC-III的出院記錄限制了病人案例的多樣性,代表的人群同質(zhì)性限制了泛化能力。

  2. 2.

    醫(yī)學(xué)類別表現(xiàn)不一:系統(tǒng)在不同醫(yī)學(xué)類別中的表現(xiàn)存在差異,特別是社會史方面需要進(jìn)一步改進(jìn)。

  3. 3.

    未明確建模健康的社會決定因素:盡管系統(tǒng)目前包含了多樣的個性特征以模擬病人行為,但尚未明確建模更廣泛的社會健康決定因素(如社會經(jīng)濟(jì)地位、教育水平或生活條件)。

  4. 4.

    未來研究方向:未來的研究應(yīng)探索在臨床環(huán)境中實(shí)施生成式AI(尤其是LLM)的倫理、心理和專業(yè)維度。

  5. 5.

    系統(tǒng)改進(jìn)建議:用戶反饋指出了系統(tǒng)在管理冗長回答和提高對非標(biāo)準(zhǔn)查詢的響應(yīng)靈活性方面的改進(jìn)空間。

關(guān)鍵問題及回答

問題1:AlPatient系統(tǒng)在構(gòu)建知識庫時使用了哪些具體技術(shù)?這些技術(shù)如何提高了知識庫的有效性?

AlPatient系統(tǒng)在構(gòu)建知識庫時使用了命名實(shí)體識別(NER)方法,從MIMIC-III數(shù)據(jù)庫中的出院小結(jié)中提取患者的癥狀、病史、過敏、社會史和家庭史等信息,構(gòu)建AlPatient知識圖譜(AIPatient KG)。具體步驟包括:

1.

數(shù)據(jù)提取:使用NER技術(shù)從出院小結(jié)中提取醫(yī)療實(shí)體,如癥狀、病史、過敏、社會史和家庭史等。

微信圖片_2025-09-01_161411_810.png


  1. 2.

    知識圖譜構(gòu)建:將提取的醫(yī)療實(shí)體及其關(guān)系存儲在Neo4j圖數(shù)據(jù)庫中,形成一個結(jié)構(gòu)化的知識圖譜。

  2. 3.

    推理增強(qiáng)生成(RAG)框架:系統(tǒng)采用了推理增強(qiáng)生成(RAG)框架,通過六個特定任務(wù)LLM代理進(jìn)行復(fù)雜推理,進(jìn)一步提高了知識庫的有效性。

這些技術(shù)使得AlPatient系統(tǒng)能夠高效地抽取和結(jié)構(gòu)化醫(yī)療實(shí)體信息,并通過多代理協(xié)作和推理框架提升了系統(tǒng)的智能性和準(zhǔn)確性,從而顯著提高了知識庫的有效性。

問題2:AlPatient系統(tǒng)在問答準(zhǔn)確性方面表現(xiàn)如何?與其他系統(tǒng)相比有何優(yōu)勢?

AlPatient系統(tǒng)在所有六個代理都存在的情況下,問答準(zhǔn)確率達(dá)到94.15%。這一結(jié)果超過了部分或無代理集成的基準(zhǔn),表明系統(tǒng)在復(fù)雜醫(yī)學(xué)問題回答方面具有較高的準(zhǔn)確性和可靠性。

與其他系統(tǒng)相比,AlPatient系統(tǒng)的優(yōu)勢主要體現(xiàn)在以下幾個方面:

  1. 1.

    多代理協(xié)作:系統(tǒng)中的每個代理負(fù)責(zé)不同的任務(wù),如信息檢索、抽象、檢查和生成,通過共享的JSON狀態(tài)進(jìn)行通信,支持多輪對話,保持記憶和連貫性。

  2. 2.

    推理增強(qiáng)生成(RAG)框架:該框架在傳統(tǒng)RAG框架的基礎(chǔ)上,插入了逐步推理過程,提升了系統(tǒng)在處理復(fù)雜醫(yī)學(xué)問題時的性能和準(zhǔn)確性。

  3. 3.

    高質(zhì)量的知識庫:通過NER技術(shù)構(gòu)建的知識圖譜確保了系統(tǒng)能夠準(zhǔn)確地抽取和結(jié)構(gòu)化醫(yī)療實(shí)體信息,從而提高了問答的準(zhǔn)確性。

問題3:AlPatient系統(tǒng)在系統(tǒng)魯棒性和穩(wěn)定性方面有哪些表現(xiàn)?這些特性如何影響系統(tǒng)的實(shí)際應(yīng)用?

AlPatient系統(tǒng)在系統(tǒng)魯棒性和穩(wěn)定性方面表現(xiàn)出色:

  1. 1.

    系統(tǒng)魯棒性:對問題重述的魯棒性測試顯示,整體響應(yīng)準(zhǔn)確性的方差為0.6126,p值為0.5420,表明系統(tǒng)對問題表述變化的魯棒性較高,能夠處理不同表述的醫(yī)學(xué)問題。

  2. 2.

    系統(tǒng)穩(wěn)定性:在32種個性類型下,系統(tǒng)的中位數(shù)據(jù)丟失率為2%,表明系統(tǒng)在不同模擬個性下的表現(xiàn)一致,能夠保持穩(wěn)定的醫(yī)療信息輸出。

這些特性對系統(tǒng)的實(shí)際應(yīng)用有重要影響:

  1. 1.

    魯棒性:系統(tǒng)的高魯棒性使其能夠在面對不同表述的醫(yī)學(xué)問題時仍能保持較高的問答準(zhǔn)確性,減少了因問題表述變化導(dǎo)致的誤差。

  2. 2.

    穩(wěn)定性:系統(tǒng)在不同模擬個性下的穩(wěn)定表現(xiàn)確保了其在實(shí)際應(yīng)用中能夠提供一致的醫(yī)療模擬體驗(yàn),增強(qiáng)了系統(tǒng)的可靠性和可用性。

總體而言,AlPatient系統(tǒng)的高魯棒性和穩(wěn)定性使其在實(shí)際應(yīng)用中能夠提供高質(zhì)量、可靠的模擬病人體驗(yàn),適用于醫(yī)學(xué)教育、模型評估和系統(tǒng)集成等多種場景。#aipatient#知識圖譜#大模型#虛擬病人。


特別聲明:智慧醫(yī)療網(wǎng)轉(zhuǎn)載其他網(wǎng)站內(nèi)容,出于傳遞更多信息而非盈利之目的,同時并不代表贊成其觀點(diǎn)或證實(shí)其描述,內(nèi)容僅供參考。版權(quán)歸原作者所有,若有侵權(quán),請聯(lián)系我們刪除。

凡來源注明智慧醫(yī)療網(wǎng)的內(nèi)容為智慧醫(yī)療網(wǎng)原創(chuàng),轉(zhuǎn)載需獲授權(quán)。


智慧醫(yī)療網(wǎng) ? 2022 版權(quán)所有   ICP備案號:滬ICP備17004559號-5