百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?
收藏者
0
被浏览
63

8 个回答

少看知乎多读书 LV

发表于 前天 08:13

知乎惯例先问是不是再问为什么,作为这几家 AI 产品的深度用户,我不觉得这几家 AI 产品有什么必然的胜负,拿来拉踩文心一言显然也是不对的。大模型千人千面,随机性很强,每个人的需求场景和 Prompt 用法都不一样,我觉得还是要自己亲自测试体验,不要人云亦云。
举个例子,把新课标一卷的高考题目交给文心去做,一次性录入了所有问题并一次性输出了所有答案[1],文心一言能得多少分呢?

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-1.jpg

答案是满分(80),不信大家可以自己试一下,然后挨个对一下答案。作为对比,通义千问是 77.5 分,而 Kimi 是 75 分。(图截不全,大家同样可以自己测一下)

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-2.jpg

但是我举这个例子,并不是为了反过来踩千问或者 Kimi,而是想说,现阶段的 AI 大模型的能力上限是有限的,各家的水平差距没那么大,大家都抵在了接近 GPT-4 的瓶颈上
从国内 OpenCompass 的模型竞技场得分上就能看出来[2],GPT-4o 排第一,文心一言 4.0 和 Qwen2 等一众国产大模型紧随其后,差距非常小:

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-3.jpg

说白了就是,简单题几家大模型差不多都会,困难题大家都不会,中等题就看运气了,测评时在这个 case 上会赢,也有可能在另一个 case 上输。
其实相比于去年 3 月刚刚首发测试的时候,文心已经进步很多了,或者说,国产 AI 整体进步非常多了。而且大家现在各有所长,策略都是先做好自己擅长的事情,再以点带面完善其他功能。比如千问强在开源模型,Kimi 好在产品体验。大家各有千秋,你方唱罢我登场,国内大模型的生态环境才会如此热闹,发展才会如此迅速,确实没必要非得拉踩谁。
那么问题来了,模型能力差不多的情况下,怎么拉开差距?自然就是应用了。
在这里先叠个甲,模型和应用肯定不是二选一。模型能力很重要,继续卷模型绝对是有意义的。但基于当前模型能力做落地同样重要,否则普通用户没有获得感,消耗算力无限烧钱也不可持续。
而文心一言的长处,我感觉就是应用和用户。百度在 AI 方面发力比较早,早也有早的优势,比如产品线比较全,用户基数很大,再加上李彦宏多次发言要卷应用,网盘、文库都是很好的 AI 落地场景,all in AI 多年的百度不会在大模型上掉队的。
从这个角度上讲,百度的 AI 产品已经远不止于文心一言了。很多人可能不知道,在最新的国内 AI 数据榜,百度文库的文档助手已经干掉 Kimi 和文心一言自己当老大了(倒反天罡#狗头):

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-4.jpg

最近还有个很火的 AI 工具,叫橙篇,同样很少有人知道,橙篇就是基于百度文库和文心一言的技术,主打一手长文本理解和长文本生成。

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-5.jpg

更早的时候,百度网盘去年就做了智能助理「云一朵」,支持对网盘文件的知识问答,视频转 PPT 等生成场景:

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-6.jpg

这些还只是基于文心的第一方应用,百度对大模型的认知是:

  • 未来大型的 AI 原生应用都会是 MoE 架构(大小模型混用)
  • 特定场景,经过 SFT 微调的小模型可以媲美大模型,且推理成本更低、响应速度更快
  • 智能体(Agents)能力的提升会不断催生新的 AI 应用

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-7.jpg

也为此开发了 AgentBuilder、AppBuilder 和 ModelBuilder,这三个工具的门槛由易到难,适用人群也从普通人、开发者到模型开发者。
从百度飞桨的开发者社区和文心 toB 的工作,其实不难推测百度的布局。未来也许会有更多基于大模型应用无感知地进入生活。
回头看看去年最初的文心一言,短短一年时间,进步已经非常大了。也正是因为大家在不断地向前,不断地刷新榜单,不断地挑战 AI 智能的上限,国产大模型才会有更好更快的发展。
对于普通用户来说,能满足自己使用需求的就多去尝试,暂时不能满足需求就提出反馈期待改进。
百度「文心一言」的真实内测使用体验如何?文心一言的作图能力如何?它能生成哪些类似「鱼香肉丝」的有趣 AI 图?

苏打 LV

发表于 前天 08:27

题主在提出这个问题的时候,不知道有没有深入去了解这三款AI的实际能力,并且做了一些严格的对比。如果没有的话,感觉做出这个结论其实有点太过随便了。
要知道的是,目前的AI在现阶段并不是全能的,它们的能力和背后公司擅长的领域有很大的关系,有的偏向于各种文字内容的处理,有些偏向于数据代码的处理,这些AI碰到一些新的领域,都会出现不够聪明的情况。
你直接用一个单一的标准来对不同的AI进行简单的对比,是非常不客观的,而且会因为这一不客观的评价影响AI后续的发展。
在了解了AI在目前的情况下很难进行精准的对比,且对比会导致AI的发展受限后,我们再来回答一下,百度的文心一言发布的最早怎么现在还不如阿里的通义千问和月之暗面的kimi这个问题。
在AI热潮大爆发后,百度作为早在十几年前就对AI投入大量的人力物力成本的企业,迅速发布了文心一言这个应用,为百度吸引了大量的目光,当时很多人第一次接触AI产品,就是用的文心一言。
但后续国内很多公司看到AI未来的发展空间,纷纷开始对AI投入大量的资源,在这个烧钱的过程中,阿里的通义千问和月之暗面的kimi在短时间内迅速崭露头角,其能力逐步紧逼文心一言,强大对手的竞争分流了文心一言的用户,也给文心一言带来了很大的压力。

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-1.jpg

这点可以从非凡产研的数据上看到,2024年二月,文心一言虽然依然以1001万的访问量高居榜首,但阿里通义和月之暗面的kimi,访问量也分别达到了356万和297万,正紧追其后。虽然从独立访客数据量去看,文心一言依然有广泛的用户基础,但AI领域的变化迅速尤其之快,可能半个月就能发现翻天覆地的变化。
这种变化,是互联网产品发展过程中的必经之路。虽然这种变化对文心一言而言或许是一种压力,但文心一言依然以百度多年来搜索引擎带来的大量数据,和百度领先很多企业率先进入AI领域所积累的经验,顶住了这些压力。
目前百度拥有业界最大的多源异构知识图谱,包含了 50 亿实体和 5500 亿事实,而且一直在不断演进和更新。这些数据,绝对不是一朝一夕所能实现的,它是多年来的投入所带来的,很多AI公司,不可能在几个月的时间就拿下这样的成果。所以说,文心一言在文字处理能力和信息检索上的能力,是很多AI所不能媲美的,对需要这一能力的人来讲,通过文心一言更能找到满意的答案。
当然,口说无凭,我通过一些内容测试了文心一言的能力,能看到的是,文心一言、kimi、通义这三款应用,针对于文字创作等内容时,文心一言的优势更加明显。

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-2.jpg

但如果你是进行内容检索的话,kimi能更好get到我的意思,让我直接进入链接。

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-3.jpg

而通义千问的优势,其实是依靠阿里背后的强大数据运算能力,在数据运行上具有很强的能力。因此实际的答案和我一开始说的一样,不同的AI其实是各有所长而不是谁不如谁。
最后,想要AI得到良性的发展,最重要的就是不要太早把AI拉入谁强谁弱的竞争中,而是容许百花齐放,发现它们的优势,使用它们,才有利于这个行业的未来。

赵启 LV

发表于 前天 08:36

文心一言+迅捷AI写作+通义千问+kimi+豆包+迅捷AI写作


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-1.jpg

在回答这个问题之前,我们来先看看目前国内AI的情况。
至2022年AI爆发后,在中国已催生了上千个AI产品。
这些产品涵盖了从头部大厂到高等院校,再到初创企业的广泛阵容。
如:

  • 大厂:百度文心、阿里通义、腾讯元宝、字节豆包、讯飞星火等
  • 高校:清华大学、北京大学等
  • 初创:月之暗面KIMI、深度求索DeepSeek也已崭露头角,推出了独具特色的AI产品。
到这里有个问题就浮现了,应该选择哪个AI,哪个AI适合自己?
这里是清华SuperBench的测评数据

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-2.jpg

类似这样的测评报告互联网上已经很多,真正哪个合适自己还是自己尝试一下
以下是个人的一些经验分享让大家少走些路,仅供参考一下:
目前在国际上顶端的还是gpt4与claude 3,国内主要就是文心4与清华GLM-4。
在国内选择的话:

  • 如果花钱的话,可以选择文心一言4.0
  • 免费AI

    • 考虑到综合能力的话可以选择字节的豆包
    • 只考虑文本类的话deepseek也是不错的选择
    • 偏搜索引擎类的话秘塔AI、KIMI


前期文心一言3.5的表现的确是很差,可以对比自己之前问的问题,差别是非常大的。之前胡说八道的回答还是比较多的,现在比如增加了联网搜索等功能,可以说文心一言已经迭代级了很多。
正如我上面所说,国内的AI产品如雨后春笋爆发出来了,同时它们在不断迭代与进步。它们不仅能快速检索信息,还能智能地分析搜索结果并给出结论。这种能力对于日常工作中处理信息和数据至关重要。
但是还有人不知道怎么用这些AI工具,甚至都不知道入口在哪儿。我推荐你来听听知乎知学堂的这节「AI工具公开课」。2个小时的公开课,讲完 9 个主流AI工具的使用技巧,还有工具之间的结合,听完可以领20个主流的AI工具+20套PPT模版,进阶版还有对应的安装教程。虽然是公开课,但是干货非常足,老师通过案例实操快速带你上手,小白完全不用担心看不懂。
入口就是下面这个,不知道啥时候结束,建议先报名占个坑:
完课后20款工具精选和20套工作汇报PPT模板及其它福利免费赠送,机会难得,别错过。

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-3.jpg

再回到我们的问题,与其说文心一言还不如通义千问、KIMI,还不如把问题扩大点,国内AI产品的对比?
这里我选择其中的5个AI产品进行对比
一、信息更新程度


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-4.jpg

在信息更新程度来说通义千问与豆包的表现非常好,当然这个测试还是比较片面的,大家可以在遇到其它时效性问题时也进行对比一下。
以下是具体的对比情况:
问题一

2024年福建高考录取分数线?
此问题是在2024年06月24日16时26分公布的,问题是在公布后5分钟左右内问的
目前国内关注性最高的应该就是高考分数线公布与填写高考志愿了。目前已经有几个省公布了高考分数线,刚才看了一下最近2024年06月24日16时26分福建省也公布了分数线,这是福建省教育考试院官方网截图。

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-5.jpg

我们来看看几款国内的AI产品的信息更新情况:
1)迅捷AI写作

使用链接:
<a href="http://link.zhihu.com/?target=https%3A//www.xunjieshipin.com/xunjieaixiezuoapp%3Fstzhcjl20240723-3549831881" class=" external" target="_blank" rel="nofollow noreferrer">https://www.xunjieshipin.com/xunjieaixiezuoapp?stzhcjl20240723-3549831881
迅捷AI写作给出的各个分数都是准确的,而且还专门划分了普通类、艺术类、体育类三部分。列点明确,看起来一目了然。

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-6.jpg

2)文心一言3.5&4.0


  • 文心一言3.5

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-7.jpg

物理类431分,是不对的。
历史类453分,也是不对的,可以看到括号里的说明,它已经找到了正确的文章2分数是正确的,还找到文章3是错误的分数,然而最后AI判断后选择了错误的文章3的结果。

  • 文心一言4.0

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-8.jpg

文心一言4.0能给出正确的答案,实时度非常的高。
3)通义千问

通义千问输出的结果是对的,不但输出的2024年正确的结果,同时还给出了历年的分数线数据。

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-9.jpg

4)KIMI

KIMI没有查询到福建省的高考录取分数线。

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-10.jpg

5)豆包

豆包也能正确的输出答案,同时也给出了近几年的录取分数线。

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-11.jpg

6)DeepSeek

显然deepseek的知识库和以上的几款AI是不同的,它不是实时的它是截至2023年的知识库。

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-12.jpg

问题二

2024年上海高考录取分数线?
此问题是在2024年06月23日13时42分公布的,问题是在公布后1天后问的
看看上海的分数线,公布的比较早是2024年06月23日13时42分公布的,这是上海市教育考试院官方网截图。

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-13.jpg

只要是知识库是实时的,基本是对的

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-14.jpg

二、图片解析能力



百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-15.jpg

通过一张网络上流传的比较广的一张图

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-16.jpg

这张“不干了”的图片,看看AI们是如何解析它的

1)文心一言3.5

文心一言3.5支持上传word、pdf及图片格式的文件,上传图片后它可以解析出图片中木板上刻着“不幹了”字样,但无法给不出图片中描述的是哪些历史人物。

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-17.jpg


2)文心一言4.0

文心一言4.0也可以识别出木板上的文字,同时进了一步就是把繁体“不幹了”翻译成简体“不干了”。同样也无法给不出图片中描述的是哪些历史人物。

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-18.jpg


3)通义千问


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-19.jpg

识别出来的是“不辩了”,识别能力还是不行

4)KIMI


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-20.jpg

KIMI支持上传pdf、doc、xlsx、ppt、txt、图片等文件,没有识别出木板上的文字

5)豆包


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-21.jpg


豆包支持的文件类型:PDF、Docx、xlsx、txt、pptx、csv。所以我把图片放到docx里再上传给豆包。它可以识别出木板上的文字

6)Copilot

看完这些后或许得到的结论就是AI只能识别出木板上的文字,推理不出描述的是哪位历史人物,我们来看看微软的Copilot的回答。鲁迅终于出现了。。。。


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-22.jpg

三、图像生成功能



百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-23.jpg

生成以下要求的图片:
中国古代女子,女子有几缕青丝垂于耳畔,头上插着一支玉簪,簪头镶嵌着一颗小巧的珍珠,闪烁着温润的光泽。

1)文心一言3.5


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-24.jpg


2)文心一言4.0


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-25.jpg


3)通义千问


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-26.jpg


4)豆包


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-27.jpg


生成图片方面个人感觉还是豆包比较符合审美风格
四、自然语言处理能力


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-28.jpg

问题一

来一份钢丝球炒鸡蛋的做法
一个比较经典的问题,看看AI们的回答
1)迅捷AI写作

使用链接:
https://www.xunjieshipin.com/xunjieaixiezuoapp?stzhcjl20240723-3549831881

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-29.jpg

比较正确的回答
·会对这道菜的名称进行解析(不存在钢丝球)
·然后再推荐一个类似的做法
·并列举所需材料、工具、制作步骤、提示和建议、烹饪时间、分量等等。
内容很详细~

2)文心一言3.5


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-30.jpg

能正确的回答不存在,还过和早期所有的AI产品一样还是会把假设性做法列出来。我记得这个问题的回答进阶是这样的:

  • 钢丝球炒鸡蛋是道美味的菜,再列出炒钢丝球步骤
  • 然后就是钢丝球炒鸡蛋是不存在的,再列出假设炒钢丝球步骤
  • 再然后就是不存在,再列出炒鸡蛋的步骤
文心一言3.5应该处于第二阶段了
3)文心一言4.0


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-31.jpg

比较正确的回答
4)通义千问


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-32.jpg

比较正确的回答
5)KIMI


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-33.jpg

比较正确的回答
6)豆包


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-34.jpg

比较正确的回答
7)DeepSeek


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-35.jpg

比较正确的回答
问题二

汉字里带水字旁边,却与水无关的字
这个问题也是早期AI产品刚出来后就问的一个问题
1)文心一言3.5

这是2024年6月问的

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-36.jpg

我记得在年初那会问这个问题的回答第一并没有详细的解释,第二也有出现河、瀑之类的字。
说明文心一言3.5已经更新和进步了很多。
2)文心一言4.0


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-37.jpg

比较正确
3)通义千问


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-38.jpg

比较正确
4)KIMI


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-39.jpg

KIMI还是有不少瑕疵的,也出现之前文心一言3.5的河字
5)豆包


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-40.jpg

比较正确
6)DeepSeek


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-41.jpg

比较正确
五、翻译能力


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-42.jpg

想对比一下AI的翻译能力,网友给推荐这个中国式的"意思",我们来看看AI是如何翻译的
把以下内容翻译成英文:
领导:“你这是什么意思?”
阿呆:“没什么意思,意思意思。”

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-43.jpg

翻译速度快,且准确性较高。关键是还会对句子中的“意思意思”进行分析解答。

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-44.jpg

可以看到基本表现都还不错,只不过通义千问的翻译少了点“意思”,其它AI都能表达出那个意思。
六、总结

以上都是一些非专业的对比,只是基于个人的使用体验。当然也有一些机构输出也专业的测试报告。
比如:这份《中文大模型能力评测榜单》综合能力得分为分类能力、信息抽取能力、阅读理解能力、数据分析能力四者得分的平均值。


其实可以看到不同机构输出的报告都有所不同,最终怎么样我们可以自己试试。

wxw850227 LV

发表于 前天 08:47

你这是虚假预设啊!
没数据支撑,没有横向测评,怎么能断定文心不如后两者呢
要问当下哪个强?咱可以比较一轮么~

1、排名大比拼

首先,软件的比较,离不开一个重要数据:活跃用户数。
这是极光大数据2024年5月,国产AI的用户活跃报告,分为Web端和移动端。
在网页端,kimi和文心是当之无愧的第一梯队,通义紧随其后。


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-1.jpg


在移动端,文心和豆包在第一梯队,用户数是kimi和通义的3~10倍。


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-2.jpg


网页端和移动端,虽说会有一些用户重叠,但其实是不同的人群需求。
如果我们简单粗暴,将两个渠道的用户数做叠加,那么,前三名是:kimi3366w,文心3356.9w,豆包1577w。

注意,这是活跃用户数,并非注册数或使用数,代表着就算哪家企业做了大量的营销获客,但能留下来就代表了AI的能力。

那么,这个数据排名,就能一锤定音 ‘kimi’ 最强吗,文心次之,通义最弱吗?
当然不是,就在OpenAI发布‘断供’的第二天,全球开源平台Hugging Face发布的AI开源大模型排行榜里,阿里直接第一。


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-3.jpg


6月27日,上海人工智能实验室大模型测评榜的最新结果,阿里通义仅次于GPT4o。


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-4.jpg


这么看来,是不是又觉得通义应该最牛啊?
那我们再来看一个最近的榜单,AI高考成绩排名,如下:
?豆包竟然是国内第一?不过看理科成绩,文心竟然比GPT4o都强。


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-5.jpg


所以,到底谁最厉害,谁敢轻易断言呢?
虽然我目前使用Kimi最多,那是因为,我的文字处理工作居多。
但是,如果我想做数据分析,在以上排行榜中尾部的智谱清言,反而是最厉害的。
除了各个大模型都能做的 ‘ 数据类文件解读 ’ 外,智谱还能帮你做表格、画可视化图表
比如,给它一个几百行的电商销售台账,让他计算各大客户各品类的购买总和,直接生成代码,输出excel表,还支持下载


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-6.jpg


还可以要求它画出 ‘柱状图’ 、 ‘折线图’ 等。


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-7.jpg


国内AI正处于蓬勃发展,你追我赶阶段,没有如GPT4那样的全能王者,但都有其优势功能。对于用户来说,同时用好几个工具自然很费时间,最好的办法是,了解每个AI的优势,根据自己需求,选择对应AI即可。
如果你不想自己一个个试,可以听一下 ‘ AI智能办公 ’ 公开课,针对职场提效,通过9+案例演示,让你了解各AI的优势功能,如AI数据分析用WPS AI和智谱AI写文章用Kimi和火山,还有AI做PPT、AI做图、AI做市场调研等等,都有最合适的工具。
2小时直播,就能了解目前AI的能力边界,并节省大量试错时间,学一个提效技巧,说不定就少一次加班,真的可以听一下~


如果你擅长自学,一定记得加助教老师,领取完课礼包,20+主流AI工具集及功能介绍、提示词指南等,都很实用~

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-8.jpg


说完各大权威排行,我也来自行实测一下~

2、功能横向测评

我的测试就两项:
1、新媒体文撰写:主要测评文笔表达能力
2、数据类工作汇报:测试运算能力、逻辑思维、以及分析能力

测试一:新媒体文撰写

提示词如下:
你是一名资深美妆品类小红书运营,你的产品是‘ 防晒霜’ ,面向人群是:20~30岁年轻女性;产品卖点是:敏感肌专用,轻薄不黏腻,防紫外线8小时。请创作一篇小红书笔记文案
分别看下kimi、文心3.5、通义的结果。

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-9.jpg


上kimi,下左通义,下右文心

很显然,在语言表达上,Kimi更自然,更有人味。在整体排版上,也是Kimi更好,卖点加粗,分段的阅读体验也很好。
而文心和通义就显得比较一般了~

测试二:数据类工作汇报

提示词如下:
请根据以下内容,输出一份周报大纲,需要markdown格式

1、后台咨询量5000条,小红书1000条,抖音3000条,视频号2000条,上个月小红书800条,抖音2300条,视频号1600条;
2、私域引流人数2100个,小红书200个,抖音800个,视频号1100个,上个月小红书120条,抖音600条,视频号700条;
3、直接购买人数200个,小红书50个,抖音80个,视频号70个,上个月小红书30条,抖音70条,视频号50条。
4、各平台本月付费投流:小红书100元,抖音150元,视频号120元(上个月无投流)。   
请重点分析各平台付费投流后的私域引流及购买转化率,并对比3个平台的付费投放效果(1块钱能转化多少个购买客户),以及下周的投流策略
来,我们横向对比一下结果:

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-10.jpg


左通义,中文心,右kimi

首先,从数据统计方面看,只有文心计算了环比增长百分比,Kimi和通义只是计算了增长数据。
其次,在数据分析方面,正式因为只计算了增长数量,没计算环比增长率,Kimi给出了武断的结论,文心显然考虑更全面。而通义虽然也因为少了一步计算,觉得‘小红书’效果最差,但给出了更全面的分析,比如要在内容上做优化,尝试提升数据等。
最后,三者都掉入了,我预先埋在提示词里的坑。就是,我只说了‘上月无投流’,但没有明确下达任务,‘计算投流转化率,要减去上月未投流转化的数据’ 。
因为我提示词不够精准,三个比拼的结果,我认为文心>通义>kimi。

这个案例可以看出,提示词的准确性以及确定性,对结果的影响非常大。想用好免费的大模型,就一定得学提示词。所以,在上课时,别只看功能,要多关注老师的提示词技巧。完课礼包里的‘提示词设计指南’也很实用,非常适合0门槛新手~
<a data-draft-node="block" data-draft-type="edu-card" data-edu-card-id="1791106981521666048">
于是,我加一轮,把错误指出来,看看他们三的修正结果:
对上述付费投放计算有疑问。从题干得知,上月无投流,小红书购买人数是30,本周投流100,购买人数是50。计算1元钱可以转化的购买客户数,应该用(50-30)/100=0.2

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-11.jpg


左通义,中文心,右kimi

三个都做了修正,但从数据分析以及迭代策略上,很显然通义考虑得更加全面。
那么,修正后,我认为通义>文心>kimi。

只是两个测试,就能看出没有哪个AI,是绝对的最厉害。
国产大模型,都在不断迭代和优化中。最终会变成一家独大,还是在不同领域各自称王,就静观其变吧!
但是,对于我们普通人来说,最重要的是,趁着AI互卷,大家都还免费,我们先用起来,为自己工作提效。
等未来跑出绝对王者,就该收费了呀~
<hr/>Hi,你好,我是@安歌Mia,分享AI工具、AI+副业、AI+职场等内容,欢迎关注我,一起学习AI,抓住时代机遇~

fdsgsg LV

发表于 前天 09:00

好问题。
我个人同时使用已经几个月了ChatGPT-4o、文心-4、kimi。下附充钱证明。
我真充钱,而且真在用。

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-1.jpg


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-2.jpg


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-3.jpg

<hr/>先说结论,我个人的体验是在我的使用中,文心-4在中文能力上确实完全不输给ChatGPT-4o,有时候甚至超越。ChatGPT-4或者说ChatGPT-4o在最近一个月变懒了,经常答非所问。反而是文心-4或者文心-4工具版更能直接完成我的任务。
我让他们完成的任务大概就是一些写代码、阅读代码、询问某个知识点、询问一些Linux的指令、debug、做一些文档整理的工作。很杂,大概就是一个CS 博士生日常科研的一切疑难杂症都交给他们解决了。
文心的回答很多时候更加完善,比如我让他回答一个单选题,他可能会把每个选项都分析一下原因,为什么对为什么错,而GPT-4o只会对正确选项进行分析——这也是我说他变懒的原因。
另一个让我选择文心的原因是,文心不需要魔法。GPT-4o是要魔法的,而且一直弹讨厌的验证框,基本回答2个问题就要弹验证框,比如下图。

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-4.jpg

文心就痛快多了,直接上,速度也挺快。
你可以说GPT-4o用中文本身就是一种对GPT-4能力的削弱,但是我觉得对于中文用户来说,中文能力始终是最重要的。即使我懂英语,我完全可以用英语对GPT-4o提问,但是这不累的慌吗?我可以用中文解决,肯定优先选择中文。等到文心都回答不了的时候,我再考虑用英语向GPT-4o提问也不迟。
特别是文心-4的工具箱版本,这个我觉得挺好用,会很智能地调用代码解释器、计算器解决计算问题。而GPT-4o虽然也内置了类似的功能,但是调用的概率没有像文心那样大。甚至在我刚刚的“随堂测试”中还弄错了方程..

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-5.jpg


百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-6.jpg

嗯,提醒了一下GPT-4o方程错了之后,两个都是算对了。
所以说,就事论事是一件很重要的事情。
GPT-4o还有一个很重要的能力是英语(毫无疑问),在英语上,比如论文润色、中翻英、英译中,文心是完全没法比的。GPT-4o的多模态能力也是远强于文心。
<hr/>Kimi完全就是一个读paper的大模型,处理杂活上完全不行,可能在知识点询问的时候会有不错的效果。
但是读paper上,Kimi比文心和GPT-4o都要好用。
似乎Kimi在阅读、检索上做了很多工作。基本上我想要知道论文的什么要素,他们就能检索的很好。

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-7.jpg

<hr/>qwen我真没用过,但是听说是好用的。我刚刚尝试了一下,把一个今天下午刚刚遇到的问题交给他解决,计算的是像模像样,但是算错了(没调用工具,纯生成)。
而文心是直接调用代码解释器,把这个题算出来了。
GPT-4o则是直接算,算对了。
这个结果过几天再放出来。最近这个题还有保密的必要。
没有代码解释器可能是qwen一个很大的缺点(也可能是我没探索到)
<hr/>我的最终评价是,什么样的模型就应该去干什么样的活。
百度确实是一家恶心的公司,但是他们的文心确实有点东西,只不过这点东西也就是局限在中文领域。
btw 文心3.5也是一坨,没什么意义。
<hr/>从这里开始将会是更多的文心-4、GPT-4o和通义-2.5的对比。
注意:GPT-4o在英文环境下能力可能更强,但之后的测试均为中文环境。
选出的任务是我日常调用时不涉及科研内容的任务,不会挑选任务而造成对任何一个模型的偏袒。

目前任务、任务类型及其结论:
1、代码日常
Prompt:帮我写一个python代码,作用是检查Ubuntu系统中硬盘的温度,如果大于50度,则通过QQ邮箱发邮件提示我。我一共有6块机械硬盘,分别是/dev/sda, /dev/sdb, /dev/sdc.../dev/sdf,我需要事实检测他们的问题。
结果如下:
写的都差不多。但是文心有一个细节做得很好,帮我自动添加了无限循环While True和一个time.sleep()操作。我的本意是想时刻监察硬盘温度,而不是一次性的,但是我将“实时”错打成了“事实”,文心理解到了这一层“手误打错”。如果要用“写代码”来实现温度监察,一般都是长期性质的,在这次任务当中,文心-4>GPT-4o=通义-2.5

2、高中数学题(数学联赛一试/高考压轴难度)
Prompt: 已知cos(x-y)=cosx-cosy,求cos(x-y)的最大值
结果如下:
都做错了。但是错的程度还是有区别的。GPT-4o只利用了三角函数的基本取值范围。文心-4(工具版)给出了一个非常关键的恒等式:和差化积;并且这个公式给的是正确的;但是这个式子之后的利用方式有问题。通义-2.5点出了“和差化积”的公式,但是却写了“cos的两角和差公式”,自然后面也错了。
这个题的标准解法是先和差化积,然后将和差化积的sin((x+y)/2)放缩成1或者-1,然后再换元解。所以点出“和差化积”很重要。在这一题上文心-4(工具版)>通义-2.5>GPT-4o

3、概念题
Prompt: ZFS是什么存储系统
结果如下:
回答都差不多。个人偏向通义的结果,因为他提供了RAID-Z的解释。所以


<hr/>Prompt:帮我写一个python代码,作用是检查Ubuntu系统中硬盘的温度,如果大于50度,则通过QQ邮箱发邮件提示我。我一共有6块机械硬盘,分别是/dev/sda, /dev/sdb, /dev/sdc.../dev/sdf,我需要事实检测他们的问题。
结果如下:
写的都差不多。但是文心有一个细节做得很好,帮我自动添加了无限循环While True和一个time.sleep()操作。我的本意是想时刻监察硬盘温度,而不是一次性的,但是我将“实时”错打成了“事实”,文心理解到了这一层“手误打错”。如果要用“写代码”来实现温度监察,一般都是长期性质的,在这次任务当中,文心-4>GPT-4o=通义-2.5

GPT-4o:
  1. import os
  2. import smtplib
  3. from email.mime.text import MIMEText
  4. from email.mime.multipart import MIMEMultipart
  5. from email.header import Header
  6. def get_disk_temperature(disk):
  7.     try:
  8.         result = os.popen(f'sudo smartctl -A {disk} | grep -i "Temperature"').read()
  9.         if result:
  10.             temp_str = result.split()[-1]
  11.             return int(temp_str)
  12.     except Exception as e:
  13.         print(f"Error getting temperature for {disk}: {e}")
  14.     return None
  15. def send_email(subject, body):
  16.     # QQ邮箱的SMTP服务器地址
  17.     smtp_server = 'smtp.qq.com'
  18.     smtp_port = 587
  19.     # 你的QQ邮箱账号和授权码
  20.     sender_email = 'your_email@qq.com'
  21.     sender_password = 'your_email_password'
  22.     receiver_email = 'your_email@qq.com'
  23.     msg = MIMEMultipart()
  24.     msg['From'] = Header("Temperature Monitor", 'utf-8')
  25.     msg['To'] = Header("Me", 'utf-8')
  26.     msg['Subject'] = Header(subject, 'utf-8')
  27.     msg.attach(MIMEText(body, 'plain', 'utf-8'))
  28.     try:
  29.         with smtplib.SMTP(smtp_server, smtp_port) as server:
  30.             server.starttls()
  31.             server.login(sender_email, sender_password)
  32.             server.sendmail(sender_email, receiver_email, msg.as_string())
  33.         print("Email sent successfully.")
  34.     except Exception as e:
  35.         print(f"Failed to send email: {e}")
  36. def check_temperatures():
  37.     disks = ['/dev/sda', '/dev/sdb', '/dev/sdc', '/dev/sdd', '/dev/sde', '/dev/sdf']
  38.     for disk in disks:
  39.         temp = get_disk_temperature(disk)
  40.         if temp and temp > 50:
  41.             subject = f"Warning: High Temperature on {disk}"
  42.             body = f"The temperature of {disk} has reached {temp}°C, which is above the safe limit."
  43.             send_email(subject, body)
  44. if __name__ == "__main__":
  45.     check_temperatures()
复制代码
文心-4:
  1. import os  
  2. import smtplib  
  3. from email.mime.text import MIMEText  
  4. import subprocess  
  5.   
  6. # 邮箱配置  
  7. SMTP_SERVER = 'smtp.qq.com'  
  8. SMTP_PORT = 587  
  9. MY_EMAIL = 'your_email@qq.com'  
  10. MY_PASSWORD = 'your_password'  
  11. TARGET_EMAIL = 'recipient_email@example.com'  
  12.   
  13. def check_drive_temperature(device):  
  14.     cmd = f'smartctl -a /dev/{device} | grep "Temperature_Celsius"'  
  15.     result = subprocess.run(cmd, shell=True, stdout=subprocess.PIPE, universal_newlines=True)  
  16.     if result.returncode == 0:  
  17.         output = result.stdout  
  18.         temp_str = output.split()[9]  # 假设温度值始终在相同的位置,可能需要调整  
  19.         try:  
  20.             temperature = int(temp_str)  
  21.             return temperature  
  22.         except ValueError:  
  23.             return None  
  24.     return None  
  25.   
  26. def send_email(subject, content):  
  27.     msg = MIMEText(content)  
  28.     msg['Subject'] = subject  
  29.     msg['From'] = MY_EMAIL  
  30.     msg['To'] = TARGET_EMAIL  
  31.   
  32.     try:  
  33.         server = smtplib.SMTP(SMTP_SERVER, SMTP_PORT)  
  34.         server.starttls()  
  35.         server.login(MY_EMAIL, MY_PASSWORD)  
  36.         server.sendmail(MY_EMAIL, TARGET_EMAIL, msg.as_string())  
  37.         server.quit()  
  38.         print("Email sent successfully!")  
  39.     except Exception as e:  
  40.         print(f"Failed to send email: {e}")  
  41.   
  42. def monitor_drives():  
  43.     drives = ['sda', 'sdb', 'sdc', 'sdd', 'sde', 'sdf']  
  44.     while True:  
  45.         for drive in drives:  
  46.             temperature = check_drive_temperature(drive)  
  47.             if temperature is not None and temperature > 50:  
  48.                 subject = f"Warning: Hard Drive {drive} Temperature Alert!"  
  49.                 content = f"The temperature of hard drive {drive} is {temperature}°C!"  
  50.                 send_email(subject, content)  
  51.         # 等待一段时间再次检查,例如5分钟  
  52.         time.sleep(300)  
  53.   
  54. if __name__ == '__main__':  
  55.     import time  # 需要导入time模块  
  56.     monitor_drives()
复制代码
通义-2.5:
  1. import subprocess
  2. import smtplib
  3. from email.mime.text import MIMEText
  4. from email.header import Header
  5. # 邮件配置
  6. smtp_server = 'smtp.qq.com'  # SMTP服务器地址
  7. smtp_port = 465  # 端口号
  8. smtp_user = 'your_email@qq.com'  # 发送方邮箱
  9. smtp_password = 'your_smtp_password'  # 授权码,不是登录密码
  10. receiver_email = 'receiver_email@example.com'  # 接收方邮箱
  11. # 监控的硬盘列表
  12. disks = ['/dev/sda', '/dev/sdb', '/dev/sdc', '/dev/sdd', '/dev/sde', '/dev/sdf']
  13. def get_disk_temperature(disk):
  14.     try:
  15.         # 使用smartctl工具获取硬盘温度
  16.         cmd = f'smartctl -A {disk} | grep "194 Temperature_Celsius"'
  17.         output = subprocess.check_output(cmd, shell=True, text=True)
  18.         temp_line = output.strip().split()
  19.         temp = int(temp_line[9].replace(',', ''))
  20.         return temp
  21.     except Exception as e:
  22.         print(f"Error getting temperature for {disk}: {e}")
  23.         return None
  24. def send_email(subject, message):
  25.     msg = MIMEText(message, 'plain', 'utf-8')
  26.     msg['From'] = Header(smtp_user, 'utf-8')
  27.     msg['To'] = Header(receiver_email, 'utf-8')
  28.     msg['Subject'] = Header(subject, 'utf-8')
  29.     try:
  30.         server = smtplib.SMTP_SSL(smtp_server, smtp_port)
  31.         server.login(smtp_user, smtp_password)
  32.         server.sendmail(smtp_user, [receiver_email], msg.as_string())
  33.         server.quit()
  34.         print("Email sent successfully")
  35.     except Exception as e:
  36.         print(f"Failed to send email: {e}")
  37. def check_disks():
  38.     for disk in disks:
  39.         temp = get_disk_temperature(disk)
  40.         if temp is not None and temp > 50:
  41.             subject = f"Warning: Disk Temperature High"
  42.             message = f"The temperature of disk {disk} is {temp} degrees Celsius."
  43.             send_email(subject, message)
  44. if __name__ == "__main__":
  45.     check_disks()
复制代码
<hr/>Prompt: 已知cos(x-y)=cosx-cosy,求cos(x-y)的最大值
结果如下:
都做错了。但是错的程度还是有区别的。GPT-4o只利用了三角函数的基本取值范围。文心-4(工具版)给出了一个非常关键的恒等式:和差化积;并且这个公式给的是正确的;但是这个式子之后的利用方式有问题。通义-2.5点出了“和差化积”的公式,但是却写了“cos的两角和差公式”,自然后面也错了。
这个题的标准解法是先和差化积,然后将和差化积的sin((x+y)/2)放缩成1或者-1,然后再换元解。所以点出“和差化积”很重要。在这一题上文心-4(工具版)>通义-2.5>GPT-4
GPT-4o:

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-9.jpg

文心-4(工具版):

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-10.jpg

通义-2.5:

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-11.jpg

<hr/>Prompt: ZFS是什么存储系统
结果如下:
回答都差不多。个人偏向通义的结果,因为他提供了RAID-Z的解释。所以
GPT-4:

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-13.jpg

文心-4

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-14.jpg

通义-2.5

百度的文心一言发布得最早,现在和阿里的通义千问和月之暗面的Kimi相比是否更好?-15.jpg

夕遥 LV

发表于 前天 17:08

关于百度文心一言与阿里通义千问以及月之暗面的Kimi的对比,可以说每个产品都有其独特之处。<br><br>百度文心一言发布时间早,在技术研发和应用方面拥有一定优势。然而,技术的好坏并不仅仅取决于发布时间,更在于其技术实力和创新能力。阿里的通义千问和月之暗面的Kimi也在自然语言处理领域有着自己的特色和优势。<br><br>因此,无法简单地说哪个产品更好。每个产品都在不断地进行技术研发和创新,为用户带来更好的体验和服务。

llmllm LV

发表于 前天 17:13

关于百度文心一言与阿里通义千问以及月之暗面的Kimi的对比,百度文心一言发布时间较早,经过不断的优化和迭代,其在语言理解和处理能力上已经相当成熟。然而,每个AI语言模型都有其独特之处,通义千问和Kimi在某些方面也有其优势。因此,无法简单地断言哪个更好。<br><br>三者之间的优劣取决于具体应用场景、用户需求等因素。建议在实际使用中,根据具体需求和场景选择适合的模型。同时,随着技术的不断进步,这些模型都在不断优化和升级,未来会有更好的表现。

yanjifu LV

发表于 前天 17:18

关于百度文心一言与阿里通义千问以及月之暗面的Kimi的对比,可以说每个产品都有其独特之处。<br><br>百度文心一言发布时间早,在技术研发和应用方面拥有一定优势。然而,产品的优劣并不仅仅取决于发布时间,更要看其在技术更新、性能优化等方面的表现。阿里的通义千问和月之暗面的Kimi也在自然语言处理领域有着自己的特色和优势。<br><br>因此,无法简单地断言哪一个产品更好。需要根据具体应用场景和需求来选择最适合的产品。

您需要登录后才可以回帖 登录 | 立即注册