DeepSeek R1 幻觉率 14.3%，会不会使互联网的文学垃圾越来越多？

发表于 2025-4-22 13:44:49

DeepSeek R1 幻觉率 14.3%，会不会使互联网的文学垃圾越来越多？-2.jpg

DeepSeek R1 幻觉率 14.3%，会不会使互联网的文学垃圾越来越多？-3.jpg

幻觉率我不知道是啥意思
互联网的文学垃圾是什么意思我也不太清楚
如果换成
文字
垃圾的话倒能稍微理解一点
而且肉眼可见地
互联网的文字垃圾确实是越来越多了。
我对DS这个东西的本质以及AI以及算法什么的完全不了解
上个月陪老婆看病的时候遇到一位老同学，跟我都是2000年大学毕业那种
好久没见，没话找话的时候，他问了句DS对网文有没有影响，我当时回答是按照当时群里的普遍观点来的——

这玩意儿对写小说本身没任何用处，因为他就没有任何这方面的逻辑，也根本不是人脑思维。
但恰恰正因为如此，写脑洞向小说，或者缺乏脑洞的时候，反倒可以利用这点，加入一些骨骼清奇出乎所有人预料之外的脑洞。
对，这里就不是脑洞了，而是AI洞。
属实是反向利用。
不过当时由于我没什么空看知乎或者其他地方
完全没注意到，很多人已经纯粹在拿DS回答知乎问题了
简直是重灾区中的重灾区
与此同时番茄那边也明显提高了全勤甚至签约的标准，也就是说很多人是真的不动脑子
甭管好坏真的直接就拿DS出的东西就用了
这些显而易见是彻彻底底的文字垃圾
你说文学？
压根都到不了文学那个档次，怪得了谁呢。
当然这些还不是最逗的
最逗的是
其实如果按正常人逻辑，拿DS当搜索引擎辅助其实也是有用的
重点是看他搜的什么链接
但这方面也有大聪明直接就拿结果来跟人抬杠
我的天……
真的是本末倒置

发表于 2025-4-22 13:58:31

互联网自媒体，正在变成大型DeepSeek垃圾场。
3月以来，我刷到的“Made in DeepSeek”内容越来越多，已经到了泛滥的程度。
举几个例子：

有没有觉得，这种文风好像哪里不对，但又说不上哪里不对。
这就是DeepSeek被滥用的后果——互联网内容，从鲜活个性的表达，被异化成了溢出牵强的哲学撕扯，匠气生硬的条缕罗列，和吊诡空洞的赛博场景。
这种“内容垃圾”，来自于一个无法自净的封闭信息垃圾场。

#01

DeepSeek，包括其它大模型，处理信息的逻辑都大同小异：
用户提问 → 「语料库+算法」生成内容投喂给用户 → 内容被用户释放到生态平台 → 大模型抓取内容作为二次搜索的信息源 → 内容二次被投喂给用户 → 「反刍」后的内容二次被释放
......
一句话总结，就是用语料库生成内容，内容又再度投喂给语料库，蛇头吞蛇尾，“用AI写AI”。
就像一直往垃圾场里倾倒垃圾，垃圾又被加工成日常用品，供我们使用后再次生成垃圾。
不同的是，垃圾场会对垃圾进行净化处理，而DeepSeek，很难对语料进行清洗。
举个例子：你让DeepSeek帮你写篇职场文，连续重写3次，开头都是“凌晨三点的写字楼”。

DeepSeek R1 幻觉率 14.3%，会不会使互联网的文学垃圾越来越多？-4.jpg

这种垃圾语料的俄罗斯套娃，正在疯狂圈养着互联网用户。

#02

更可怕的是，这种虚拟世界的垃圾反刍和熵增，会让现实世界的操作变得无比诡谜，比如：
你用DeepSeek生成简历，HR反手用DeepSeek筛选简历；
你用DeepSeek给客户写PPT，客户用DeepSeek干掉供应商。
用AI对抗AI，用魔反杀魔法，用垃圾攻击垃圾。
DeepSeek不但不能帮你加速进化，反而会拖着你加速坠落，掉进封闭、熵增的内容黑洞，永远堕入充斥着粗糙虚幻低层级信息的黑域。
而一手造成这个黑域的人，就是我们自己。

#03

DeepSeek不需要神话，也不需要妖魔化。
成神还是成魔，就在使用者的念想之间。
对流量的极度饥渴，让创作者把DeepSeek当成了救命稻草，不择手段炮制“爆款基因”内容，根本不在意内容质量。

平台出于商业目的，也对泛滥的同质化低劣内容睁一只眼闭一只眼，毕竟注意力经济时代，谁能多留用户一分钟，谁就能比友商多挣一份钱。
内容源和平台双重放水，现在的内容生态，更像一个黑心地沟油作坊：
第一步，用高油高盐刺激味觉的垃圾菜品揽客；
第二步，回收食客吃剩下的泔水地沟油；
第三步，再用地沟油做成菜，继续招揽新食客。
最终，我们都吃着自己吐出来的东西，还甘之如饴。
这比吃残羹剩饭，更恶心。

#04

AI时代，最稀缺宝贵的能力，是信息的鉴真能力。
能鉴别信息的真伪，衡量信息的优劣，是AI时代最高级，但也最痛苦的能力。
真正清醒的创作者，会陷入深深的痛苦：我们有义务为这个世界求真吗？
对于信息不敏感的人，对于互联网生态上80%的金字塔基层的用户，我们有必要揭露信息的真相吗？
这个哲学味儿十足的思考，曾经困扰过我，最后我的看法是：不要打扰别人的幸福。
因为很有可能，在DeepSeek变得有毒之前，他们之前吃的更差。
我们可以不相信DeepSeek的自净能力，但要相信人类求真求美的底层动力。
AI只能把人类的智力工业化，想在AI生态里做一个清醒的谋局者，要拼命打磨自己数字内容之外的高质量信息。
你的用户体察，你的深度关系，你的IP能量。
享受你能用AI享受的，给自己，给家人，给客户创造AI无法提供的价值。
最重要的是：好好活着，活到能看到、能享受到AI真正改变世界的那一天。
到了那个时候，我们最普通的人，都能蒙荫到AI带来的巨大生产力飞跃，变得富足，幸福。
<hr/>如果你还没有启动你的超级智能商业IP业务，欢迎大家订阅我的专栏学习↓
专栏：超级IP AI创富营今天的分享就是这些，我是曦姐，全网20W+粉丝，做过10W+销售量的爆款课，带过1000+学员，短视频连续15天上过热推。视频号、小红书内容服务商，帮助50+企业增收超千万，只交付可落地的获客方案。

点亮【赞和在看】，让我们在新流量时代名利双收。

发表于 2025-4-22 14:06:59

互联网本来就全是文字垃圾你本来就不敢用啊
AI是用垃圾训练的所以它继续量产垃圾
它只是忠实地映射出人类有多垃圾

发表于 2025-4-22 14:17:14

大模型的本质是概率预测，编程、数学题可以用结果监督过程，但文学不可以，所以训练之后的幻觉率大概率接近社会平均水平。
所以冷门话题反而可能表现好，毕竟讨论的人少，“社会平均水平”只统计了发声的一部分。
而一些热门话题里的冷门问题，很可能就胡说八道。因为社会平均水平就是胡说八道。
我常常用“描述三国演义中太史慈与王朗的战斗”测试大模型。
deepseekv3与r1是仅有能差不多正确回答的。
演义里，王朗虽然年纪大了心脑血管不好被诸葛亮骂死了，年轻时还是能文能武的。

其他的有编故事太史慈打死王朗的（符合广大人民群众对两者战力的认知）。
高级一点有说两人没交过手的，至少不编故事了。（o1、o3mini）
Genimi 2.0 flash就比较神奇，战斗的大致时间定位正确，知道是孙策平定江东时期的战斗，但把太史慈放在了王朗阵营。

<hr/>这个测试有趣之处在于，三国演义必然是被抓取到训练数据里了的。所以不涉及不同模型数据广泛度的差异比较。
Deepseek:

Gemini:

chatgpt

发表于 2025-4-22 14:27:57

我觉得，大家都要搞搞清爽，
DeepSeek R1是STEM领域的逻辑推模，它要做的是逻辑不犯错，同时保持核心知识尽量不捏造。
R1不是事实领域的百科词典，你考它历史问题，社会新闻，肯定要翻车的。
R1的个性偏向于积极探索，所以，它会自己滑进坑里——大模型的直觉分为高频中心区，低频长尾区，R1很容易掉进长尾区出现幻觉，但如果它一直在高频区晃悠，你又会觉得它陈词滥调，说些妇孺皆知的事。
这点从Gemini 2 Flash 可以看出来，它的幻觉被认为比较低，但它就是一个陈词滥调的模具，而它的兄弟2FT，就明显活跃一点，代价么，就是幻觉也变高了——这和DeepSeek R1/V3的关系是一样的。有一部分推模为了释放模型的&#34;原动力&#34;，没有经过高强度的人为对齐。
要理解这个问题，最好把基础的(伪)哲学概念补一下，
什么叫逻辑，什么叫事实。为什么两者缺一不可，替代不可？
有时候，智能这个词，是垃圾词，容易把逻辑与事实混为一谈。

DeepSeek R1 幻觉率 14.3%，会不会使互联网的文学垃圾越来越多？

本周热门