哈佛研究新发现：AI大型语言模型看病初步诊断错误率惊人

2026-04-16 00:10:12未知作者:徽声在线

徽声在线4月15日消息，近日，美国哈佛医学院的一支科研团队开展了一项针对AI大型语言模型（LLM）诊断能力的研究评估。此次评估涵盖了市面上20余种处于领先地位的AI大型语言模型，像ChatGPT、DeepSeek、Gemini以及Claude等均在其列。研究团队让这些模型依据患者初步呈现的症状和体征来进行“鉴别诊断”，也就是识别可能存在的疾病，结果发现错误率竟高达80%。不过，研究也带来了新的发现，当患者提供更多检测结果后，这些大型语言模型在“最终诊断”方面的失败率能够降低至40%左右。研究人员据此分析指出，这充分表明AI聊天机器人若要实现对疾病的精准诊断，必须获取足够全面的患者信息。倘若患者无法提供完整的健康检测信息，那么AI所给出的诊断结果往往是不可靠的。此外，研究人员着重强调，就目前情况而言，人工智能还远远没有达到能够脱离医疗专业人员的干预，就独立为患者做出诊断决策的程度。

点击展开全文

哈佛研究新发现：AI大型语言模型看病 初步诊断错误率惊人

哈佛研究新发现：AI大型语言模型看病初步诊断错误率惊人