大模型企业竞相亮相上影节｜智象未来王科：过去三年低调蓄力，今朝适度走向台前仍保持克制步伐

2026-06-17 22:13:16未知作者:徽声在线

营收突破7亿元大关、亏损幅度超过46亿元、市值却飙升至超6200亿元……这一组悬殊的数据，不仅彰显了市场对“大模型领军企业”智谱华章的巨大期待与成长空间，也深刻反映了当前资本市场对AI（人工智能）大模型领域的热烈追捧与高度看好。

“当风口来临之际，我们绝不能吝啬自己的资源与投入。”6月中旬，在第28届上海国际电影节上，另一家备受瞩目的大模型公司“智象未来”的联合创始人兼首席运营官王科，在接受徽声在线记者（以下简称“NBD”）专访时，如此掷地有声地说道。这家成立仅三年多的大模型公司，在2025年便实现了全年营收过亿元的佳绩，并在2026年继续保持了迅猛的增长势头。

王科亮相“2026影视产业海上论坛” 图片来源：主办方

在6月新鲜出炉的全球第三方文生图评测榜单中，智象未来的商用图像模型（HiDream-O1-Image-1.5）凭借卓越表现，综合评分超越了谷歌的同类模型，排名跃居全球第三，仅次于OpenAI的两款明星模型。而依托这套全模态架构所延伸出的AI视频能力，更是成为了该公司切入商业营销、影视制作、社媒创作等多个领域，并拉动业务快速增长的核心驱动力。

在当下的国内各大影视节展上，视觉类AI大模型厂商无疑成为了最耀眼的明星：Minimax携手上海国际电影节推出了AI影视工作坊，快手“可灵”、字节跳动“Seedance”则主动出击，积极对接上下游影视企业。背后的逻辑清晰明了：在烧钱的大模型研发竞速赛中，影视赛道正是各家寻求变现、实现商业闭环的关键抓手。

“图像是通往世界模型、让大模型读懂真实物理世界的关键入口，因此它势必会成为大家技术角逐的核心焦点。”王科如此认为。

04:16

“选B”还是“选C”，创始人也曾陷入纠结

6月10日，智象未来的模型在Artificial Analysis（全球知名独立AI模型评测与分析平台）的文生图榜单上斩获了总榜第三、国内第一的优异成绩。这标志着中国公司凭借极少的训练算力，通过全新的UiT架构（统一原生全模态架构）和算法突破，成功达到了世界领先水平。用王科的话来说，这是中国大模型公司企业跳出“大力出奇迹”的行业惯性，依靠底层架构迭代走出了一条独有的技术路径。

NBD：智象未来作为“硬科技圈”备受瞩目的新星，仅在4月、5月两轮融资中就合计突破了6亿元大关。为何这家在C端用户中并不广为人知的大模型公司，却能备受投资人的青睐呢？

王科：虽然公司成立才三年多，但我们的团队在AI视觉、多模态领域已经深耕了近二十年。我们的CEO（首席执行官）梅涛院士（加拿大工程院外籍院士）更是拥有二十多年的丰富经验，是这个领域最权威的科学家之一。UiT架构是我们首创自研的底层架构，也是我们区别于OpenAI、Google以及国内多数视频厂商DiT（扩散模型）路线的核心技术底座。其核心目标是适配世界模型，让AI能够统一理解文字、图片、视频以及空间物理信息。这让我们摆脱了“大力出奇迹”的传统路数，通过算法的迭代，用极少的算力资源就实现了大模型的突破。我们认为，这是突破当前技术天花板的架构。

其次，在2023年成立之初，我们就果断聚焦多模态生成式AI。那一年，（大语言模型）ChatGPT横空出世，大家都认为生成式大模型时代已经到来。我们就有一种强烈的使命感——多模态的“ChatGPT时刻”应该由我们来完成。于是，三位创始人迅速搭建团队，毅然决然地踏上了创业之路。当时市场的主流关注度都在大语言模型上，还没有多少人押注多模态。结果到2024年，当所有人都在谈论多模态时，我们已经“跑了一年”的领先优势了。

智象未来原生全模态模型架构(UiT) 图片来源：企业供图

NBD：为何你们在大众领域显得有些“隐身”呢？

王科：一个很重要的原因是我们是一家以To B端业务为主的大模型公司。其实到底选B还是选C，我们几个创始人也曾经深入讨论过。在这个过程中，我们尝试过很多不同的方向，但最终还是回到了“第一性原理”：生成式AI是一场生产力革命，它应该先从供给侧开始改变，实现降本增效、提升质量。因此，B端是最直接的价值变现途径，能够给客户创造真实且可观的价值。而C端本质还是流量生意，利润最终都被流量平台赚走了，AI目前还难以撬动流量寡头的商业模式。所以，我们选择沉淀下来，聚焦B端市场。

当然，C端我们也在积极布局，但我们不是靠投流来获取用户，而是靠自然流量。我们的主要目的是获取用户反馈数据，以此来反哺模型的迭代与优化。目前，我们已经拥有了5000万C端用户，他们提供的数据比他们支付的费用对我们来说更加重要。未来，当流量平台的模式发生改变时，C端才有可能成为我们的主战场。过去三年，我们之所以“隐形”，是因为我们选择深耕B端市场、不炒焦虑、不追热度。现在，随着榜单成绩的公布和业务的爆发式增长，我们会适当走到台前，但节奏仍然会保持克制与稳健。

图像驱动的全模态模型必将成为未来竞争的焦点

用“日新月异”甚至都不足以形容当下大模型竞争的激烈格局。厂商们一边加码技术研发，一边全力寻找商业化落地的窗口。AI短剧、AI影视工具更是成为了大模型公司的兵家必争之地。王科透露，近期一家专业短剧工作室已经整体加入了智象未来，他们看重的不是短期的收益，而是想要拆解短剧领域的“know-how”（技术诀窍）。

NBD：今年字节跳动的Seedance2.0发布后，AI短剧的大规模生产迅速成为了现实。而第一个打出视频类大模型旗号的Sora却已经悄然退场。对此，你怎么看呢？

王科：字节跳动拥有足够的财力、足够的数据以及足够的人才密度。它训练了一个基于红果和抖音场景、针对中国社交媒体和短剧生态的大模型Seedance。其最大特点就是把影视导演的一些能力巧妙地融入到了模型里面。短时间内，我觉得它已经领先于很多外国的视频类模型了。

而国外视频类大模型发展的一个标志性事件就是Sora的退场。虽然Sora的研发成本高昂，但行业竞争异常激烈，且其用户多为娱乐创作的普通个人，盈利空间相对有限。叠加OpenAI的估值居高不下，资本市场对其业务增长的要求也异常严苛。因此，当Sora相关业务未能跑出增长后，OpenAI会毫不犹豫地选择砍掉这个项目。

这给我们一个很大的启发——不要贪图炫酷和一时的辉煌，不要想着要把所有光环都集于一身。而是要老老实实地把一个行业、一个场景甚至是一个痛点吃透、做精。

NBD：视频类模型赛道接下来的竞争重点会是什么呢？

王科：图像是所有视觉的入口，所以我们称之为多模态大模型。在这个领域，中美科技公司“必有一战”。图像最典型的特征就是“一图胜千言”。相比文字来说，图像包含的信息量要大得多，也更加直观易懂。此外，图像是跨国界的，不存在语言障碍。基于这两点考虑，图像可以视为未来世界模型的入口。

这一仗我们正在积极备战。智象未来在文生图模型领域已经成功超越了Google，下一步我们的目标就是挑战OpenAI。我们认为，图像模型一定会成为视频模型的新起点。未来的视频应用，需要依托图像模型的能力来搭建更强的视频生成模型。最终目标是实现全模态，即任意模态输入、任意模态输出。

未来，若想抢占制高点，图像驱动的全模态模型必将成为竞争的焦点。我们希望在这次竞争中担当主力军的角色，也有信心打赢这场仗。

6月发布的Artificial Analysis文生图榜单上，智象未来模型已经成功超越了Google同类模型，排名跃居第三图片来源：企业供图

当风口来临时，也不要吝惜自己的资源与投入

创业第四年，主要负责市场的王科每天都忙得不可开交，“不是在见客户就是在见客户的路上”。这也是他今年频繁出现在网络视听大会、上海国际电影节等影视类行业活动中的原因。他表示，前几年“公司缺资金时”，自己还有很多沮丧的时刻，但今年明显感觉“没时间沮丧了”，更多的是兴奋与期待。

现在，他时常思考的是如何迅速把生态搭建起来。“随着业务的爆发式增长，我们看到了希望与机遇。我们的心态是：风来了，就不要吝啬自己的子弹与资源，要加大力度获取用户、为用户赋予更多价值。”

NBD：智象未来的2025年全年收入约为1亿元，而2026年单季度就已经超过了这个数。这种爆发式增长的核心引擎是什么呢？

王科：增长的爆发主要是两个浪潮的叠加效应。第一个浪潮是今年春节前后AI应用“龙虾”的爆发式增长。

第二个多模态的浪潮则主要归功于中国影视文化全产业链的生态优势。中国人口众多，短视频普及率全球最高；同时，短剧也彻底改变了中国人的文化消费习惯与方式。

当视频模型的效果接近实拍水平，或者观众已经无法分辨内容是AI生成还是传统拍摄时，行业界限就被彻底打破了。这个突破始于2025年6月，当时“漫剧”成为了爆发点。传统漫剧需要设计师手绘、排版、渲染，逐帧制作，成本极高且耗时漫长；而AI则可以通过几个简单的指令搭建工作流，先生图再生视频，或使用首尾帧控制就能轻松完成制作。在盲测中，AI生成的效果与传统方式已经难以区分，而前者成本只有后者的五分之一甚至十分之一。

我们公司虽然一直保持低调作风，但也恰好赶上了这个风口与机遇。

NBD：在AI短剧、AI短视频营销领域，你们的市场占有率如何呢？

王科：市占率这个问题目前还不好说，因为市场还处于爆发初期阶段。比如红果平台每天都有大量短剧上线，虽然我们目前只喝到了一口汤，但空间巨大且潜力无限。因为我们会逐渐被市场所熟知与认可。AI短视频营销的市场体量更是AI短剧的百倍量级。在AI短视频营销领域，我们既服务头部电商平台，也覆盖中小跨境商家与线下实体门店，同时还有软硬件一体化的营销产品提供全方位支持。

今年一季度，我们的签约收入已经超过去年全年总和。我们会尽力保证收入质量的长期可持续性，并且在风口来临时也不会吝啬投入与资源。我们会加大力度获取用户、为用户创造更多价值。最终目的是在模型迭代、产品迭代和用户信任三个方面实现长期发展与突破。

大模型的终局不会“赢家通吃”

智象未来的机构股东呈现多元化布局态势。其中，既有安徽省、合肥市系列国有产业基金的长期加注与支持，也汇集了东方富海、深创投等一线创投机构的青睐；科大讯飞、京东科技提供技术产业协同与助力，长江电影集团、华策影视等影视企业也相继入股，为公司AI影视、短剧业务的落地带来了丰富的内容与渠道资源支撑。在战略性融资不断的同时，盈利问题也备受关注与期待。

NBD：AI研发投入巨大，智象未来的盈利路线是什么？何时能够实现盈利呢？

王科：赚钱当然是我们必须要思考的问题，这也是投资人经常会问到我们的问题。如果把研发的投入成本都算上的话，我们目前肯定还是处于亏损状态的。但我们愿意持续投入与研发，因为我们有能力、有使命去打这场仗并取得胜利。

NBD：芯片问题仍然是制约中国大模型公司发展的因素之一吗？

王科：客观来说确实是这样的。如果我们缺少芯片的话，训练速度就会明显变慢且效率低下。

NBD：之前你们提到投入了“超2000亿参数”，这意味着什么？会不会出现“技术越强、亏得越快”的情况呢？

王科：首先，“2000亿参数”并不是盲目堆算力就能训练出来的成果。参数大了之后，模型容易崩溃且难以控制。根据我们掌握的信息来看，当前市面上能用2000亿参数训练且模型还不崩的只有两家公司，我们是其中之一。这考验的是我们的算法架构和数据能力是否足够强大与稳健。

其次，算力消耗并不是随参数线性增长的简单关系。我们比较克制与稳健，不会为了争“月度榜单第一”而狂烧算力与资源。而是选择“两三个月一个大版本迭代”的稳健策略来推进研发工作。

所以，我觉得“技术越强亏得越快”这个论断并不成立。技术强并不等于烧钱多，它体现在算法架构的优化、数据回流的效率以及算力使用效率的提升上。“2000亿”并不是客户体验的直接卖点或噱头，而是我们底层能力的支撑与保障。

NBD：有一种观点认为，大模型的终局是“一家通吃”，其他公司只有被收购或合并的命运。你如何看待这一观点呢？

王科：我并不认可这种观点。AI本身是技术平权的产物，它应该是百花齐放、百家争鸣的。各家大厂都有其自身的基因和路线选择，Google、OpenAI、字节跳动、阿里巴巴、智谱等都在积极布局与研发。谁都没有独门秘技或绝对优势可言。所以，我觉得“一家通吃”的可能性并不大，当前也没有看到哪家公司有这样的能力或潜力。唯一值得警惕的是，有的海外公司正试图通过垄断数据来建立壁垒与优势地位。比如在扫描典籍后销毁原始数据等不负责任的行为。我觉得这种做法是对人类的不负责与背叛行为，会受到反噬与惩罚的。真正的壁垒是服务于整个生态系统的建设与发展壮大起来才是真壁垒与核心竞争力所在。”

点击展开全文