让 AI 查了 330 次新闻,平均准确率 25%,近一半链接打不开,AI 为什么没有传说中的好用?

以“查一条新闻”为起点,我们对六款国产AI进行了测试,评估AI引用新闻事实的可靠程度。
我们拿着30条新闻片段,一共向AI提问了330次。这是330次问讯后的几个核心发现:
AI很难准确引用新闻报道,六款AI的平均准确率只有25%,其中豆包最准确、文心一言出错最多、通义千问最常拒绝回答。
大部分AI依然会自信提供错误答案,而不是承认不知道。
来源是错误重灾区,27%的新闻来源被AI完全说错。
AI经常表示自己找不到链接,或者提供已被删除的链接,因此很难验证出处——而且一些打不开的链接地址明显是编造的。
AI普遍链接到新浪财经、腾讯新闻等门户网站,不乏给自媒体“搬运号”引流,而不是原始来源。媒体拿流量更难了。
详见:

让 AI 查了 330 次新闻,平均准确率 25%,近一半链接打不开,AI 为什么没有传说中的好用?-1.jpg


让 AI 查了 330 次新闻,平均准确率 25%,近一半链接打不开,AI 为什么没有传说中的好用?-2.jpg


让 AI 查了 330 次新闻,平均准确率 25%,近一半链接打不开,AI 为什么没有传说中的好用?-3.jpg


让 AI 查了 330 次新闻,平均准确率 25%,近一半链接打不开,AI 为什么没有传说中的好用?-4.jpg
收藏者
0
被浏览
62

5 个回答

niming LV

发表于 3 天前

这就是AI,如果没有自己的情绪和盲点,那和传统的搜索引擎有什么区别?

杨帆 LV

发表于 3 天前

用的什么 Ai 产品,330 次,这么具体啊。用代码查的吗,你知道不知道提示词这个概念呢,就是和 AI 对话发的文字。
你的描述也有点太泛化了,不知道具体想问什么,现在程序员都用 AI 可以编程了,怎么就不好用了呢,可以反思一下。

o111 LV

发表于 3 天前

选用的几款AI产品主打的都不是联网搜索,搜索不是它们的强项,要看搜索新闻能力,可以试试:秘塔AI搜索、天工AI、纳米搜索

迟钝的小松鼠 LV

发表于 3 天前

可以尝试使用Grok3、Claude和chatGPT,如果能公布提示词的话,可以做一次完整的测试,这个还是非常有意义的。

让 AI 查了 330 次新闻,平均准确率 25%,近一半链接打不开,AI 为什么没有传说中的好用?-1.jpg

dyanother LV

发表于 3 天前

这些平台我只试过通义。它大概是几个月前上线了新闻联网搜索总结模式,当时试了下可用性是很差。
从技术上我能理解这类产品的这些表现。
其实很多平台(比如大家最常用的微信)的ai搜索总结回答都离真的"可用"有很大差距。
但我疑惑的是,为什么明明技术上(或者说工程上)还没有解决AI和资讯搜索总结结合的可用性,但这些平台都这么快急着上线这些功能。
一个不太一样但有点类似的例子:deepseekr1非常不适合用来做文生图提示词的辅助撰写,但即梦还是把它接入到自己的应用上,给用户去用。
为什么现在这些大厂做ai产品完全不顾真实可用性,只是为了上线而上线。
可能再大的厂,在AI面前,也要以草台班子的方式前进吧。

您需要登录后才可以回帖 登录 | 立即注册