哈佛研究新发现:AI大型语言模型看病 初步诊断错误率惊人

2026-04-16 00:10:12未知 作者:徽声在线

徽声在线4月15日消息,近日,美国哈佛医学院的一支科研团队开展了一项针对AI大型语言模型(LLM)诊断能力的研究评估。此次评估涵盖了市面上20余种处于领先地位的AI大型语言模型,像ChatGPT、DeepSeek、Gemini以及Claude等均在其列。研究团队让这些模型依据患者初步呈现的症状和体征来进行“鉴别诊断”,也就是识别可能存在的疾病,结果发现错误率竟高达80%。不过,研究也带来了新的发现,当患者提供更多检测结果后,这些大型语言模型在“最终诊断”方面的失败率能够降低至40%左右。研究人员据此分析指出,这充分表明AI聊天机器人若要实现对疾病的精准诊断,必须获取足够全面的患者信息。倘若患者无法提供完整的健康检测信息,那么AI所给出的诊断结果往往是不可靠的。此外,研究人员着重强调,就目前情况而言,人工智能还远远没有达到能够脱离医疗专业人员的干预,就独立为患者做出诊断决策的程度。

点击展开全文
你关注的
【出海聚焦】石油危机凸显中国电动车优势,性价比之外更有硬实力【出海聚焦】石油危机凸显中国电动车优势,性价比之外更有硬实力 AI玩具赛道迎重大变革:模型“套壳”问题有望短期解决,智能体研发加速推进AI玩具赛道迎重大变革:模型“套壳”问题有望短期解决,智能体研发加速推进 深圳低空经济全域竞速:百企试飞、基金赋能、标准引领深圳低空经济全域竞速:百企试飞、基金赋能、标准引领
相关文章
谁是AI场景储能最优解?盘古新能源董事长胡明祥:钠电几乎完美适配AIDC谁是AI场景储能最优解?盘古新能源董事长胡明祥:钠电几乎完美适配AIDC 阿里云宣布:部分MU模型单元服务价格将适度调整阿里云宣布:部分MU模型单元服务价格将适度调整 东方甄选战略转型 强势切入保健品赛道东方甄选战略转型 强势切入保健品赛道 透视AI内容生态的“猫鼠游戏” GEO合规实践与黑帽案例剖析透视AI内容生态的“猫鼠游戏” GEO合规实践与黑帽案例剖析 “水军拉踩风波”持续发酵!工信部介入约谈理想汽车与东风日产“水军拉踩风波”持续发酵!工信部介入约谈理想汽车与东风日产 自动驾驶下半场竞速,“物理AI”成核心方向,产业各方押注新战场自动驾驶下半场竞速,“物理AI”成核心方向,产业各方押注新战场