哈佛研究揭示：AI医生临床推理短板凸显，超八成病例难识关键诊断

2026-04-16 00:04:34未知作者:徽声在线

据徽声在线4月13日消息，哈佛医学院及其附属研究团队于国际知名医学期刊《JAMA Network Open》发布了一项引人关注的研究成果。该研究聚焦于大型语言模型（LLM）在复杂临床推理任务中的实际应用表现，结果显示，这些被寄予厚望的AI医生在面对极具挑战性的医学病例时，其推理能力存在显著短板。研究团队精心挑选了21个当前主流的大型语言模型，对50个复杂且具有代表性的医学病例进行了全面测试。测试结果令人担忧，平均而言，超过80%的病例中，AI模型未能将正确诊断纳入初步鉴别诊断名单之中。

进一步分析发现，尽管AI在获取完整医学检查结果后，其最终诊断的准确率尚可接受，但在病例的早期阶段，当医学信息尚未完全明朗时，AI模型在纠错和排除干扰信息方面的能力显得捉襟见肘。即便是目前技术最为先进的AI模型，也常常因为无法精准捕捉和处理临床中的细微差别，而导致误诊情况的发生。这一发现无疑为AI在医学领域的广泛应用敲响了警钟，提示我们在推进AI医疗应用的同时，必须高度重视其临床推理能力的提升与完善。

点击展开全文