谷歌发布Gemini 3.5系列模型 Omni助力视频生成实现重大突破
2026-05-20 04:08:37未知 作者:徽声在线
徽声在线5月20日消息(记者 林晓阳)在当下全球人工智能(AI)领域的竞争愈发白热化之际,谷歌于今日宣布正式推出Gemini 3.5系列模型,同时还发布了一款专用于模拟物理世界的新型AI模型。谷歌此举意在在模型开发领域持续保持领先地位,并且为其庞大的用户群体提供更为丰富多样的AI智能体服务。
谷歌是在周二举办的年度开发者大会(Google I/O)上公布这一系列消息的。当前,市场对于OpenAI与Anthropic这两家公司的关注度极高,它们的估值一路飙升,并且均计划最早在今年启动首次公开募股(IPO)。
谷歌的AI战略布局中,Gemini系列及其相关工具始终占据着核心位置。在周二的大会上,谷歌着重展示了Gemini 3.5 Flash,这是Gemini系列中的一款轻量级产品。
谷歌首席执行官桑达尔·皮查伊介绍称,Gemini 3.5 Flash不仅具备顶尖的能力,而且在成本方面具有显著优势,仅为同类顶尖模型的一半,甚至在某些情况下不到三分之一,同时还能维持高水平的智能表现。
皮查伊形容Gemini 3.5 Flash“速度极快”。谷歌同时宣布,该型号将成为全球Gemini应用以及搜索AI模式的默认模型。
谷歌在官方博客中明确表示:“用户从此无需再在质量与响应速度之间艰难抉择。”此外,谷歌还对Gemini 3.5 Flash的网络安全防护进行了强化,使其“生成有害内容的可能性大幅降低,也不容易在安全问题上拒绝回答用户的问题”。
而重量级版本Gemini 3.5 Pro,目前仅处于内部使用阶段,预计下个月才会向更广泛的用户群体开放。
在AI智能体领域,谷歌推出了Gemini Spark,这是Gemini应用中的一款新型通用AI智能体。它具备对关联应用中的信息进行跨平台推理的能力。谷歌方面表示,该工具能够全面管理用户的数字生活,并且可以代表用户执行各类操作。目前,Gemini Spark处于测试阶段,下周将首先面向受信任的测试用户以及Google AI Ultra订阅用户开放。
皮查伊表示:“我们已经将智能体提供给开发者和企业一段时间了。如今,我们专注于将这种前沿能力安全可靠地带给广大消费者,让每个人都能从中受益。”
随着越来越多的互联网用户开始使用聊天机器人,谷歌正积极努力说服传统搜索用户信任其能够完成最少输入即可执行的任务。在公司资本支出大幅增加的情况下,华尔街密切关注谷歌是否能够实现产品的深度整合,而智能代理功能或许将成为重要的突破口。
AI公司的市场预期持续向好,尤其是在Anthropic近期发布Mythos模型之后。据悉,该模型强大到能够发现全球软件基础设施中的数千个未知漏洞。
谷歌的AI产品矩阵中还包括Gemini Omni,这是一款用于模拟物理环境的世界模型,能够依据用户的操作精准预测接下来会发生的情况。世界模型通常应用于机器人和游戏领域,多年来一直是DeepMind的重点研究方向。而Omni在物理模拟方面更加精准,例如对重力、流体动力学和动能等方面的模拟。
谷歌DeepMind首席AI架构师兼技术总监Koray Kavukcuoglu介绍说:“Omni可以生成质量极高的视频,并且允许用户在生成后与视频进行互动。可以想象,这为学习和探索提供了类似教程的强大能力。”
Omni可在Gemini Flash、Gemini应用、Google Flow以及YouTube Shorts中运行,支持图像和音频功能。谷歌在另一篇博客中指出,用户可以利用Omni对视频进行编辑,并生成更加逼真的图像效果。
"用户拍摄一段视频后,可以让Omni改变其中正在发生的内容。"谷歌表示,这款AI模型能够"对动作进行编辑、添加新角色或物体"。
高质量视频的生成一直是AI工具面临的难题,而且对计算资源的要求极高。OpenAI在今年早些时候就放弃了其视频生成工具Sora,部分原因就是为了将算力资源集中用于其他项目。
