哈佛研究新发现:AI大型语言模型看病 初步诊断错误率惊人
2026-04-16 00:10:12未知 作者:徽声在线
徽声在线4月15日消息,近日,美国哈佛医学院的一支科研团队开展了一项针对AI大型语言模型(LLM)诊断能力的研究评估。此次评估涵盖了市面上20余种处于领先地位的AI大型语言模型,像ChatGPT、DeepSeek、Gemini以及Claude等均在其列。研究团队让这些模型依据患者初步呈现的症状和体征来进行“鉴别诊断”,也就是识别可能存在的疾病,结果发现错误率竟高达80%。不过,研究也带来了新的发现,当患者提供更多检测结果后,这些大型语言模型在“最终诊断”方面的失败率能够降低至40%左右。研究人员据此分析指出,这充分表明AI聊天机器人若要实现对疾病的精准诊断,必须获取足够全面的患者信息。倘若患者无法提供完整的健康检测信息,那么AI所给出的诊断结果往往是不可靠的。此外,研究人员着重强调,就目前情况而言,人工智能还远远没有达到能够脱离医疗专业人员的干预,就独立为患者做出诊断决策的程度。
