让 AI 查了 330 次新闻，平均准确率 25%，近一半链接打不开，AI 为什么没有传说中的好用？

以“查一条新闻”为起点，我们对六款国产AI进行了测试，评估AI引用新闻事实的可靠程度。
我们拿着30条新闻片段，一共向AI提问了330次。这是330次问讯后的几个核心发现：
AI很难准确引用新闻报道，六款AI的平均准确率只有25%，其中豆包最准确、文心一言出错最多、通义千问最常拒绝回答。
大部分AI依然会自信提供错误答案，而不是承认不知道。
来源是错误重灾区，27%的新闻来源被AI完全说错。
AI经常表示自己找不到链接，或者提供已被删除的链接，因此很难验证出处——而且一些打不开的链接地址明显是编造的。
AI普遍链接到新浪财经、腾讯新闻等门户网站，不乏给自媒体“搬运号”引流，而不是原始来源。媒体拿流量更难了。
详见：

让 AI 查了 330 次新闻，平均准确率 25%，近一半链接打不开，AI 为什么没有传说中的好用？-1.jpg

让 AI 查了 330 次新闻，平均准确率 25%，近一半链接打不开，AI 为什么没有传说中的好用？-2.jpg

让 AI 查了 330 次新闻，平均准确率 25%，近一半链接打不开，AI 为什么没有传说中的好用？-3.jpg

让 AI 查了 330 次新闻，平均准确率 25%，近一半链接打不开，AI 为什么没有传说中的好用？-4.jpg

发表于 2025-4-16 14:21:40

这就是AI，如果没有自己的情绪和盲点，那和传统的搜索引擎有什么区别？

发表于 2025-4-16 14:30:08

用的什么 Ai 产品，330 次，这么具体啊。用代码查的吗，你知道不知道提示词这个概念呢，就是和 AI 对话发的文字。
你的描述也有点太泛化了，不知道具体想问什么，现在程序员都用 AI 可以编程了，怎么就不好用了呢，可以反思一下。

发表于 2025-4-16 14:39:53

选用的几款AI产品主打的都不是联网搜索，搜索不是它们的强项，要看搜索新闻能力，可以试试：秘塔AI搜索、天工AI、纳米搜索

发表于 2025-4-16 14:51:07

可以尝试使用Grok3、Claude和chatGPT，如果能公布提示词的话，可以做一次完整的测试，这个还是非常有意义的。

发表于 2025-4-16 15:06:06

这些平台我只试过通义。它大概是几个月前上线了新闻联网搜索总结模式，当时试了下可用性是很差。
从技术上我能理解这类产品的这些表现。
其实很多平台（比如大家最常用的微信）的ai搜索总结回答都离真的&#34;可用&#34;有很大差距。
但我疑惑的是，为什么明明技术上（或者说工程上）还没有解决AI和资讯搜索总结结合的可用性，但这些平台都这么快急着上线这些功能。
一个不太一样但有点类似的例子:deepseekr1非常不适合用来做文生图提示词的辅助撰写，但即梦还是把它接入到自己的应用上，给用户去用。
为什么现在这些大厂做ai产品完全不顾真实可用性，只是为了上线而上线。
可能再大的厂，在AI面前，也要以草台班子的方式前进吧。

让 AI 查了 330 次新闻，平均准确率 25%，近一半链接打不开，AI 为什么没有传说中的好用？

本周热门