ai智能机器人
近日一项引人注目的研究揭示了人工智能(AI)在医学领域的挑战。尽管先进的AI模型在专业医学考试中取得了高分,但在实际与患者交流以诊断疾病时却仍显不足。这一研究成果于1月2日在《自然-医学》杂志上发表。
哈佛大学的Pranav Rajpurkar指出:“虽然大型语言模型在标准化测试中表现亮眼,但在真实的对话环境中,其准确性往往有所下降,特别是在进行开放式诊断推理时显得尤为困难。”
为了评估“临床AI”模型的推理能力,研究人员开发了一种方法,该方法基于模拟的医患对话。这些“患者”案例源自于2000个实例,主要取材自医学会的专业考库。
同样来自哈佛大学的Shreya Johri表示:“模拟医患互动能够评估病史采集技能,这是临床实践中至关重要的环节。”她进一步提到新的评估基准CRAFT-MD“反映了现实生活中的情况,即患者可能不会主动透露所有重要细节,只有在特定问题下才会披露关键信息”。
CRAFT-MD基准依赖于AI技术。在测试中,OpenAI公司的GPT-4模型扮演了“患者AI”的角色,并与被测的“临床AI”进行对话。GPT-4还通过将“临床AI”的诊断结果与每个病例的正确答案进行对比来评分。人类医学专家对这些评估结果进行了复核,并了对话内容,以检查“患者AI”的准确性,并查看“临床AI”是否成功收集了相关的信息。
多项实验结果指出,OpenAI的GPT-3.5和GPT-4、Meta公司的Llama-2-7b以及法国Mistral AI公司的Mistral-v2-7b这四种领先的大型语言模型,在基于对话的基准测试中表现不佳,相较于书面摘要的诊断表现差距明显。
例如,当提供结构化的病例摘要并允许选择多项答案时,GPT-4的诊断准确率高达82%,但当没有多项选择时,其准确率下降至不足半数。而当需要通过与模拟患者对话进行诊断时,其准确率骤降至仅26%。
在此项研究中,GPT-4通常表现最佳,紧随其后的是GPT-3.5,Mistral-v2-7b排名第三,Llama-2-7b得分最低。
大多数情况下,AI模型在收集完整病史方面存在不足。例如,GPT-4仅在71%的模拟患者对话中成功收集了完整病史。即使AI模型收集到了相关病史信息,也不总是能够作出正确的诊断。
斯克利普斯研究转化研究所的Eric Topol指出,模拟患者对话为评估AI临床推理能力提供了一种比医学考试更为有效的手段。
Rajpurkar强调,即使AI模型通过了这一基准测试,能够在模拟的患者对话中持续作出准确诊断,也不一定意味着它就优于人类医生。他指出,现实世界中的实践更为复杂,涉及多方面因素,如管理多名患者、与团队协调、进行身体检查以及了解当地情况的“复杂社会和系统因素”。他表示:“AI是支持临床工作的强大工具,但不一定能取代经验丰富的医生的整体判断。”
相关论文信息可通过以下链接获取:/10.1038/s418-5