大模型“信口开河”难题如何破解?中科院专家:科学数据是核心要素
2026-04-22 04:07:08未知 作者:徽声在线
每经记者:周逸斐 撰稿 每经编辑:魏官红 审校
4月21日,国务院新闻办公室举办了以“新征程上的奋斗者”为主题的中外记者见面会。
习近平总书记明确指出,加快实现高水平科技自立自强,是推动我国高质量发展的必由之路。在强国建设、民族复兴的新征程中,科技战线的广大工作者扎根科技一线,瞄准产业前沿,为国家科技事业的蓬勃发展贡献了智慧与力量,充分展现了新时代科技工作者的风采与担当。
在此次记者见面会上,五位科技领域的杰出代表围绕“弘扬科学家精神,聚力科技自立自强”这一主题,与中外记者进行了深入的交流与探讨。
图片来源:每经记者 周逸斐 现场实拍
科学数据:AI大模型的“稳定器”与“加速器”
近年来,人工智能大模型的发展日新月异,数据的重要性愈发凸显。那么,科学数据在人工智能发展中究竟扮演着怎样的角色?未来又将面临哪些机遇与挑战呢?
中国科学院计算机网络信息中心副主任周园春指出,与海量的互联网数据相比,科学数据具有严谨的系统化观测和科学的实验基础,具备高可信、可溯源以及物理逻辑自洽的特点。
基于这些独特优势,科学数据在人工智能发展中发挥着双重作用。一方面,它作为“稳定器”,能够为大模型提供符合自然规律的原则性知识,有效降低大模型“胡说乱编”的风险,是构建可信、安全、符合自然规律的AI的基石。
另一方面,科学数据也是“加速器”。它是驱动科研范式变革的重要引擎,特别是在蛋白质结构预测、新材料创新等领域,带有标注的高质量科学数据能够支持大模型对未来进行精准预测,从而缩短研发周期,提升研发效率。
周园春进一步分析,当前科学数据赋能人工智能发展正处于关键机遇期,既面临挑战也蕴含机遇。首要挑战在于高质量科学数据的获取难度较大。这类数据通常源于高水平的大科学装置,以及长期的野外观测和调查等,获取后还需科研人员投入大量精力进行加工处理。然而,大模型技术的发展也为高质量科学数据的获取和加工提供了新的技术手段和方法,实现了科学数据与人工智能的双向促进。
第二个挑战是大模型的可解释性。人们不仅希望了解结果,更希望了解结果产生的原因。由于科学数据在产生过程中普遍缺乏唯一标识或编码,就像人没有身份证一样,数据若没有“数字身份证”,进入大模型训练后,其可溯源性和可关联性将面临较大挑战。
“缺乏数字身份的数据,其追踪链条,包括版权追溯、权属确定、溯源机制等都将难以实现,这使得大模型预训练时难以追踪数据来源。”周园春解释道。
他提出,解决这一问题的机遇在于,如果在数据源头产生时就赋予其唯一编码,并在加工处理过程中对数据产品也赋予编码,并建立前后连接关系,就能形成数据赋能大模型的路径。通过这一路径构建可追溯的链条,就能基于链条追踪人工智能在推理过程中的步骤,从而提高大模型或人工智能结果的透明性和可解释性。
氢能:未来低碳社会的重要能源载体
随着氢能技术的快速发展,它正逐步走进产业与生活。那么,未来氢能可能有哪些应用前景呢?
清华大学车辆与运载学院副教授徐梁飞表示,从第一性原理来看,氢能是一种非常清洁的能源载体。在我国未来建设低碳甚至零碳社会的进程中,氢能将发挥举足轻重的作用。
徐梁飞以交通领域为例说明,当前新能源汽车行业发展迅猛,氢能燃料电池汽车作为新能源汽车的一种,与现有的锂电池汽车相比,具有独特的优势,是长途、重载以及寒冷地带环境的理想选择,能够实现清洁、高效、无污染的运输。此外,氢能技术还适用于机车、船舶、飞机等多个领域,未来其应用前景将十分广阔。
在工业领域,尤其是钢铁和化工等碳排放大户行业,氢气作为重要的原料,以及以氢为代表的泛氢燃料,其广泛使用将大幅降低碳排放,推动工业领域的绿色转型。
“在能源领域,我国未来将大力发展以风光水为主的新能源。”徐梁飞认为,虽然新能源具有诸多优势,但其波动性较大,因此需要储能技术的支持。氢能作为一种长时间储能的载体,能够满足新能源储能的需求。另一方面,燃料电池技术未来还可以作为发电或供热装置,为车辆、建筑、园区、数据中心等提供能源支持。
