AI写小说套路大揭秘：Claude叙事平淡，GPT爱用梦境，Gemini视角单一

2026-05-31 11:05:24未知作者:徽声在线

先来做个趣味小测试。

看看下面这段文字：

“他感觉胸口发闷，冷汗顺着后背不断滑落，周围的灯光似乎也变得昏暗起来。空气中弥漫着一股难以言喻的气息，既像雨后清新的泥土，又仿佛是某种深埋心底的古老记忆在悄然复苏。”

再瞧瞧这段：

“李四内心充满了恐惧。他也不清楚为何会这样，但就是感觉不对劲。他不由自主地想起了小时候奶奶给他讲的那个神秘故事。”

凭直觉，你觉得哪段是AI创作的呢？

大概率你会选第一段。这是因为我们似乎已经“进化”出了一种鉴别AI写作的敏锐“雷达”——那些过度渲染感官体验、把“恐惧”用一堆生理反应堆砌起来的文字，怎么看都像是ChatGPT的杰作。

在过去的一年里，网络上充斥着各种各样的“AI写作鉴别指南”。有人说爱用破折号的就是AI写的，有人说爱用“首先、其次、最后”这种表述的是AI写的，还有人说形容词堆砌严重的也是AI写的。然而，这些所谓的鉴别方法大多都只是基于“风格特征”，只要稍微换一套提示词，就能轻松绕过这些“关卡”。很多人坚信，只要掌握正确的“调教”方法，就能让AI写出和人类毫无二致的文字。

但马里兰大学和Google DeepMind的科研团队却要告诉你：别再白费力气了，AI写故事的“底层操作系统”和人类有着本质的不同，仅仅修改提示词是远远不够的。

（论文地址：https://arxiv.org/abs/2604.03136）

一场“文学深度剖析”实验

2026年4月，马里兰大学计算机系的Jenna Russell团队与Google DeepMind携手合作，在arXiv上发布了一篇名为《StoryScope: Investigating idiosyncrasies in AI fiction》（《故事显微镜：探究AI小说的独特特质》）的论文。

5月28日，沃顿商学院的Ethan Mollick教授在X平台上分享了这篇论文，并配文道：“关于AI写作的风格特征，比如破折号的使用等，已经有很多相关的讨论了。但这篇论文关注的焦点是AI的叙事特征。AI和人类在叙事方面存在着令人着迷的差异，而且即便让AI尝试用不同的风格进行写作，也几乎无法改变这种差异。”

Ethan Mollick于2026年5月28日在X上分享的论文核心图表，获得了31.5万次的浏览量

这条推文在短短一天内就获得了31.5万次的浏览量，3000多个点赞，以及近600次的转发。AI领域的学者、写作者以及普通读者都被同一个问题深深吸引：AI究竟会不会讲故事？

这次实验的规模堪称惊人：研究人员收集了10272个写作提示（相当于写作题目），然后让人类作者和五个大语言模型，分别是Claude、DeepSeek、Gemini、GPT、Kimi，各自根据每个提示创作一篇故事，每篇故事大约5000字。最终，他们收获了61608篇故事，并对每篇故事提取了304个叙事特征。

这是怎样一个概念呢？这就好比把六万多部小说的“骨架”一根一根地拆解开来，放在显微镜下进行细致的比对，从情节结构、角色的能动性、时间的连贯性到对话的密度，涵盖了各个方面。

研究团队开发了一个名为StoryScope的自动化分析流程，它能够从10个维度自动归纳出细粒度且可解释的叙事特征，这些特征涵盖了情节、主体、时间结构等多个层面。然后，通过对比AI生成的故事和人类创作的故事，看看它们的“骨架”到底存在哪些不同。

实验结果令人惊讶，研究人员完全摒弃了用词、句式、标点等风格信号，仅仅依靠叙事特征，就能够以93.2%的准确率区分出人类和AI的写作；在判断“六个作者分别是谁”的六类归属任务中，准确率也达到了68.4%。作为对比，包含了风格线索的完整模型，其准确率也仅仅高出不到3%。

换句话说，AI写作的“底层叙事逻辑”其实就像一张明牌，清晰可见。即便你把所有的破折号都删除，把所有的“首先其次最后”都换成口语化的表达，AI的叙事骨架依然会暴露它的真实身份。

AI写故事，究竟哪里不对劲？

研究团队将AI和人类在写故事方面的核心差异归纳为五个维度。

AI太热衷于“说教”了。AI创作的故事，就像一个生怕读者理解不了的语文老师，总是迫不及待地直接点明故事的主题：“这个故事告诉我们……”，而人类作者这样做的比例只有52%。在AI故事里的对话中，出现哲学讨论的比例高达59%，而人类故事中这一比例仅为34%。

更明显的是，AI对其他作品的引用大多都是“模糊的暗指”（占比72%），而人类作者则更倾向于直接提及作品名称，比如“像《百年孤独》里那样”，明确提及作品名称的比例占到了50%。AI的潜台词似乎是：“我告诉你一个道理，你要认真听好。”而人类的潜台词则是：“你自己慢慢品味。”

你可能会说，这不是挺负责任的吗？把道理讲清楚有什么不好呢？问题在于，真正优秀的故事从来都不是靠“讲道理”来打动读者的。托尔斯泰在《安娜·卡列尼娜》的结尾并没有写“这个故事告诉我们，出轨没有好下场”，而是让读者自己去感受其中的情感和道理。而AI却做不到“放手”，它必须把每一件事情都讲得明明白白。

人类擅长“跳时间线”，而AI只会按部就班。人类在讲故事的时候，常常喜欢玩一些花样，比如从葬礼开场，然后倒叙几十年前发生的事情，再突然闪回到现在。然而，这种非线性的叙事方式在AI创作的故事中几乎不存在。数据显示，79%的AI故事“没有支线情节”，而人类故事中这一比例是57%。AI故事中主角驱动型结局的比例占到了69%，而人类故事中这一比例只有46%。

人类更喜欢给故事留下一些悬念，让读者自己去发挥想象空间。人类故事的结局更倾向于开放式模糊结局，让读者自己去琢磨“接下来会发生什么”。而AI则必须给每个角色一个明确的交代，主角要么顿悟了，要么接受了现实（占47%），而人类故事中只有27%会这样做。

研究团队举了一个非常生动的例子：让AI和人类分别创作一个悬疑故事，人类可能会从葬礼开场，然后倒叙几十年前的恩怨情仇；而AI则会从第一条线索开始，按照时间顺序一路推进到大结局，中间没有任何“岔路”。

AI对“身体描写”情有独钟。回到开头的测试，AI写作有一个非常显著的特征：它不会直接表达角色的情绪，而是通过身体反应和环境描写来“演绎”情绪。

数据显示，在81%的情况下，AI会通过生理感受和身体隐喻来传达情绪（人类这一比例只有38%）。AI使用嗅觉意象的比例高达82%（人类为57%），还喜欢把环境设定作为角色内心状态的映射。人类作者写“王五害怕了”，就是简单直接的一句话。

而AI写“害怕”则是：胸口发闷、冷汗直流、灯光变暗、空气中弥漫着某种气息……人类明确使用情绪标签（“感到害怕”“很愤怒”）的比例是29%，而AI只有8%。这暴露了一个本质问题：AI并没有真正的情绪体验，它只能从训练数据中学习“情绪的外在表现”，然后用一种“教科书式”的方式把它们堆砌起来。

它知道恐惧会让人出汗，但它根本不知道出汗是一种怎样的感觉。所以它的描写总是有一种“用力过猛”的违和感，就像一个人从来没有吃过柠檬，却要努力描写柠檬的酸味。

人类会“打破第四面墙”，而AI只会埋头创作。人类作者有一个AI很难学会的独特技巧：和读者直接对话。“你，亲爱的读者，一定猜不到接下来会发生什么……”这种打破“第四面墙”的写法，在28%的人类作品中会出现，而AI作品中这一比例只有7%。

同时，人类写作中提及具体文本和作者的比例几乎是AI的两倍（47% vs 24%）。人类能够自如地在显性引用和隐性参考之间进行切换（37%的人类作品是“混合模式”，AI仅16%），而AI只能躲在模糊的暗指背后，仿佛生怕暴露自己“没有读过多少书”。

这并不是因为AI“没有读过”，它的训练数据里包含了各种各样的书籍，而是因为它不知道什么时候该说“我在引用”，什么时候该保持沉默。换句话说，AI的叙事是“没有读者意识”的叙事。它不在乎读者是否在看，也不在乎读者能否跟上故事的节奏，它只是在机械地“完成任务”。

AI创作的故事“千篇一律”。AI生成的故事在“叙事空间”中紧紧地挤在一起，而人类的故事则散落在各个角落。人类的故事素材库更加丰富多样，涉及更多的地点、对话占比更高、更多支线情节融入核心主题（42% vs 21%），也更常塑造存在道德矛盾的主角（59% vs 38%）。

人类的主角可以是好人，也可以是坏人，可以既善良又自私，具有复杂多面的性格；而AI的主角则倾向于“完美无缺”。AI的问题不是“写得不好”，而是“写得都一样”。它被困在一个狭窄的“默认叙事模板”中，无法突破。即便你给不同的AI模型同一个提示词，它们创作出的故事在叙事空间中的位置也会惊人地接近。

每个AI都有自己的“叙事独特印记”

论文中最有趣的发现来了：不同的大语言模型在写故事的方式上，就像不同作家有着独特的“笔迹”一样，各自都有一些明显的特点。

论文摘要中明确列出了三个模型的独特印记特征——Claude创作的故事中事件升级的过程格外平淡，GPT过度使用梦境序列来推动情节，Gemini则默认使用外部视角来描述角色。基于论文实验数据的进一步分析推断，DeepSeek和Kimi也呈现出各自鲜明的叙事倾向。

这是什么意思呢？如果你看到一篇小说里频繁出现“梦境的转折”，那么八成是GPT创作的；如果整个故事波澜不惊，情节推进像一杯白开水，那么大概率是Claude的手笔；如果每个角色都只是从外部进行描述，就像在看人物档案卡一样，那么Gemini肯定是“罪魁祸首”。更厉害的是，利用这些“独特印记”进行六类归属判断（从五个AI模型和人类中识别具体作者），准确率高达68.4%。

更让人扎心的是，论文还发现：所有AI模型生成的故事在叙事空间中都聚集在同一个共享区域，而人类故事则散布在更加广阔的空间里。

也就是说，不管你是Claude还是GPT，不管你如何调整“写作风格”，你们的“叙事DNA”其实都是相似的。这种“叙事趋同”现象，可能是大语言模型训练范式存在的一种固有问题——它们都从相似的语料中学习“什么是一个好故事”，然后得出了相似的结论。

“去AI味”还有必要吗？

这项研究的出现，恰逢“去AI味”成为网络上的热门话题。就在论文发布的同一个月，中文互联网上掀起了一场关于“豆包体”的群嘲热潮——那些“最”“非常”“深深地”等词语满天飞的AI生成文本，让网友们笑得前仰后合。与此同时，各种“消除AI味的不完全手册”也如雨后春笋般涌现出来。与此同时，尼日利亚作家纳齐尔的小说《林间之蛇》被指控存在大量“AI写作痕迹”，文学界关于AI写作的争议也愈演愈烈。

但StoryScope的结论却给这些努力泼了一盆冷水：修改词汇、变换句式、调整标点，这些都只是“表面功夫”。你让AI写“我很悲伤”而不是“一股悲伤涌上心头”，改变不了它的叙事结构。你把所有的破折号都删除，也改变不了它偏爱单线程叙事、回避道德模糊性的“底层代码”。

Ethan Mollick在推文中特别强调：“要求AI用不同风格写作，也几乎无法改变叙事层面的这些差异。”

这其实触及了一个更加深刻的问题：AI到底能不能“像人类一样”进行创作？

从风格层面来看，是有可能的。如果提示词写得好，AI能够模仿海明威的简洁风格、博尔赫斯的迷宫式叙事、王小波的戏谑口吻。但从叙事层面来看，AI在“怎么编故事”这件事上，和人类有着根本性的不同——它没有经历过真实的生活，不理解死亡的意义，不知道什么是“欲说还休”，所以它只能套用一个“标准的故事模板”。

这或许才是AI写作和人类写作之间，最难以跨越的巨大鸿沟。

论文的结尾，研究团队抛出了一个值得我们深思的问题：随着AI生成文本越来越多地混入人类创作中，我们究竟该如何定义“原创性”？

他们公开了StoryScope的全部代码、10272个写作提示，以及51336篇AI生成的叙事文本（部分提示因生成失败未纳入），供学术界进行进一步的研究。这更像是一种“预警”——当AI生成的文字如洪水般涌入文学市场时，我们需要一套能够穿透表层、直达叙事底层的“照妖镜”。

而对于每一个使用AI辅助写作的人来说，这篇论文或许也在提醒我们：别只想着“去AI味”，多想想你到底想要表达什么。因为AI可以帮你写出通顺的文字，但它永远无法替你经历一段真实的人生——而后者，才是好故事的真正源泉。（本文首发徽声在线，作者 | 硅谷Tech_news，编辑 | 焦燕）

点击展开全文