阿里通义千问 PK 百度文心一言，谁更胜一筹？

通义千问 PK 文心一言，谁更胜一筹？
没有一点点预告，阿里版的 ChatGPT 语言大模型来了。
4 月 7 日下午，阿里云突然宣布自研大模型开启企业邀测，模型名为「通义千问」。
官方非常低调，表示现阶段该模型主要定向邀请企业用户进行体验测试。
阿里其实真正开始投入做大模型也就是从2019年开始的，满打满算四年左右的时间
实力玩家入场，大模型的竞争真正开始了。

不过网友发现，
百度：文心一言阿里：通义千问，
阿里和百度大模型名字完全对仗，这不是巧合吧，如果这样腾讯的大模型叫什么呢？

发表于前天 08:36

简单的测试了下画图功能，这个能最直观的表现它们的理解能力
【文心一言】

【通义千问】

【文心一言】

【通义千问】

***
不太理解，按理来说，百度作为搜索引擎公司，数据来源应该比阿里多得多，但为什么感觉AI差距那么大呢？

发表于前天 08:45

在中文文书方面，通义千问的能力与 GPT-3.5 已不相上下，而在代码写作方面，通义千问则是大幅度的领先于文心一言。

01 通义千问的诞生背景

阿里巴巴（http://BABA.US）作为中国最大的电子商务平台之一，一直致力于利用人工智能技术提升用户体验和商业效率。
在大模型领域，阿里巴巴早在2019年就推出了PLUG，一种基于预训练语言模型的通用对话框架，这是阿里巴巴对于LLM（Large language model大语言模型）领域的首次尝试。
2021年11月，阿里达摩院宣布了M6大模型，一种基于10万亿参数的多模态大模型，一跃成为了全球最大的 AI 预训练模型。
根据阿里巴巴的描述，M6大模型已经在淘宝，支付宝，天猫等阿里巴巴旗下产业中应用落地并取得了卓越成效。
但M6模型至今仍未面向公众开放，非阿里系的厂商也罕有应用。直到2023年4月7日，阿里云推出了自研大模型“通义千问”，并面向企业以及邀请用户开放。
根据官网描述，“通义千问”是一个专门响应人类指令的语言大模型，它可以理解和回答各种领域的问题，包括常见的、复杂的甚至是少见的问题。
它不仅是一个效率助手，也是一个点子生成机，可以帮助用户完成各种任务，如写邮件、写文章、写脚本、写情书、写诗等。它还可以提供娱乐功能，如讲笑话、唱歌等。
在大预言模型大热的今天，通义千问自然是处于风口浪尖之上。
国内的各大公司都想在该领域分一杯羹，百度（http://BIDU.US）是第一个吃螃蟹的公司，其在2023年3月16日发布了“文心一言”系列的“多模态”模型（虽然我们现在知道其实它的图片生成能力其实是来源于另一个百度开发的模型）。而阿里巴巴选择了避其锋芒在四月发布全新针对聊天内容优化的通义千问。
由于阿里巴巴吸取了此前文心一言的惨淡场景，选择了仅对部分受邀媒体和企业开放服务。笔者成功拿到了此次的内测资格。
02 通义千问能力测试

对于非多模态的语言模型，主要可以从三个方面考量其能力：文字编排能力、Coding能力和逻辑能力。
为了进一步找到当前各大LLM之间的差距，本次还加入了GPT-4共同比较。
文书能力测试

作为最基础的语言组织能力测试，我们先让几个竞品各自写一份请假条：

图一通义千问的回答（▲点击查看大图）

图二ChatGPT的回答（▲点击查看大图）

图三GPT-4的回答（▲点击查看大图）

图四文心一言的回答（▲点击查看大图）

面对基础的语言文字问题，四款AI工具都可以看似按照需求的完成任务，其中通义千问的语法和措辞最为接近国人的口吻。
再细看一下，文心一言给出的回答为：“我已经请假了两天，并且目前感觉已经有所好转。但是，我不想因为自己的身体问题而影响到工作，因此我希望能够请一周的病假。”
在我们并未给出任何多余的 prompt 的情况下给自己增加了情景，这也可以算LLM的“幻觉”通病。
再来看下一个问题：请续写《红楼梦》中林黛玉倒拔垂杨柳的故事。

通义千问（▲点击查看大图）

ChatGPT（▲点击查看大图）

GPT-4（▲点击查看大图）

文心一言（▲点击查看大图）

在此处我们要求四个模型分别续写了一个《红楼梦》中不存在的情节，林黛玉倒拔垂杨柳。
其中GPT-4的文风最为接近《红楼梦》，通义千问的续写也贴合了原来的人设和背景，较为符合的满足了我们的要求。ChatGPT的回答则是略有偏差。
此处文心一言就直接让林黛玉穿越回现代了，并且成功让她成为了一名医生，不仅丢了人设还丢了故事背景。
下面要求四个模型生成一篇完整的文章：请以“AIGC变革内容生产模式”为题写深度文章。

通义千问（▲点击查看大图）

ChatGPT（▲点击查看大图）

GPT-4（▲点击查看大图）

文心一言（▲点击查看大图）

四款 AI 都正确的给出了 AIGC 这一名词的概念，并且理解了用户的需求。由于通义千问给出的回答较长，本次要求他生成500字的文章。
其中 GPT-4 比较独特，它选择了分点式的总结内容，而其余的则选择了更常规的通稿类型。本次四个 AI 都能够较为出色的完成任务。
代码能力测评

我们再来看到代码能力，在这一个环节，由于问题比较简单GPT系列都可以出色完成，因此不加入GPT系列参与对比。
先来个简单的：用 Python 实现冒泡排序。

通义千问（▲点击查看大图）

文心一言（▲点击查看大图）

提问：编写一个SQL查询，查询某个数据库表中最近一个月的记录，并按照某个字段进行降序排列。

通义千问（▲点击查看大图）

文心一言（▲点击查看大图）

在这个问题上，文心一言仍不敌通义千问无法完成需求。红框内圈出的就是文心一言的重大问题所在。
来到下一个问题：使用函数递归的方法实现斐波那契数列的计算，并返回前n个斐波那契数。

通义千问（▲点击查看大图）

文心一言（▲点击查看大图）

文心一言在这个问题中表现得很可笑。文心一言直接选择了将斐波那契额数列硬编码进入了代码实现了O(1) 的时间复杂度，并没有完成我们需要的使用递归方法的需要。
通义千问的回答则是满足了问题的需求而且给出了详细的代码解析和输出结果。
在代码写作能力上来看，文心一言也不敌通义千问。上述几个问题选取的十分基础，但是文心一言仍然无法满足需求。
可能是因为百度的代码库的缺乏。得益于阿里长期深耕于云领域等，其本身积累了丰富的资源和人次，在代码写作方面显著强于文心一言。
03 测评总结

结论1：通义千问是国内最接近ChatGPT水平的本土化LLM。
经过上述测试，我们发现就目前而言，“通义千问”实际上是国内最接近ChatGPT（GPT-3.5）水平的本土化LLM。
尽管百度率先推出了文心一言试图抢占高点，但模型水平一般，回答水平只能与Meta公司前段时间泄露的LLaMA 13B未针对对话调参前的水平相媲美。
而通义千问和文心一言对比起GPT-4时，即使忽略都欠缺的多模态能力，在文字方面上来看二者均和GPT-4有较大差距。
结论2：通义千问在中文写作和代码编写方面领先于文心一言。
LLM模型常见的“幻觉”（即回答错误事实）现象在文心一言上表现得尤为明显。当前在中文写作方面，通义千问的能力与GPT-3.5已不相伯仲，而在代码编写方面，通义千问则大幅领先于文心一言。
结论3：百度拥有庞大的语料库优势，但文心一言表现不尽如人意。
巨型语料库是LLM训练中不可或缺的部分，同时还需避免受到“有毒”语料的影响。
从这个角度来看，拥有庞大语料库的百度天生具备优势，可以利用旗下的问答、百科和抓取的网页信息作为语料。然而，目前文心一言的表现仍然不尽如人意。
结论4：通义千问在某些场景下的中文文本能力超过了ChatGPT。
相较之下，阿里经过一个月的沉淀后推出的产品在多个维度上击败了文心一言。
在某些场景下，得益于本土化语料资源优势，通义千问的中文文本能力甚至部分超过了ChatGPT。一些常见的文书工作在进行好事实性核查之后可以交由通义千问处理。
结论5：GPT-4具备强大的多模态能力，而国产大模型仍然不具备多模态能力。
再来看多模态场景。从GPT-4的论文中，我们得知其已具备强大的多模态能力，包括图像的输入和输出。
GPT-4能够理解图像含义并根据文字/图像指令完成任务，展示出Transformer的实力。
百度文心一言的“多模态”能力更像是虚假的多模态，其图像能力来自于另一个大模型“文心一格”。而通义千问则是明确表示没有多模态能力。
结论6：AIGC成为未来发展的模式，各互联网巨头都在争夺战场，新兴职业如Promopt也在兴起。
当前的所有趋势就是“面向GPT”，AIGC俨然成为了未来发展的模样。
不同于元宇宙等项目，AIGC是可以切实提升人类生产效率的工具，互联网大厂都看到了这个赛道的未来，不约而同的来到这个战场上激烈厮杀，基于AI的Promopter这种职业也正在兴起。面向GPT编程，面向GPT写作，面向GPT绘画，面向______。这个空，就是未来。

发表于前天 08:56

能拿出来给普通人测试的更胜一筹。一言明显领先，但缺乏通义广泛的应用场景，例如天猫淘宝网商平台、钉钉办公等等。

发表于前天 09:07

作者：新智元
链接：https://mp.weixin.qq.com/s/Y-_k0QNEuR-Cz0rUi7kk2g

阿里版ChatGPT也千呼万唤始出来了，能做数学会写代码，情书诗歌彩虹屁都能整活。还整了个更拗口的名字：通义千问。

这个名字有什么蕴意吗？看看通义千问自己怎么说：

各方准备，接下来一大波测评来袭。
古怪问题大PK

考考通义千问一些难倒老外的「汉语十级」考题。
请听题：您是要几等座？你们一共有几等座？特等一等二等等等，二等要多等一等。我看一下，等一等啊。别等了，再等一等就没了。那不等了，就这个吧。请问顾客最终买了几等座？

通义千问的表现非常优异，给出了正确答案——一等座，并作了详细的分析。

文心一言被绕迷糊了，说是二等座。

而在汉语十级难题面前，语言能力强大的GPT-4竟然也缴械投降了，直称自己无解。

那么，作为一个母语是汉语的人，你觉得是几等座呢？

「豆腐两块一块，请问豆腐怎么卖？」

通义千问给出一种解「豆腐2元一块」，还贴心地还原出了交易过程。

而聪明的文心一言直接上升到经济学，分析了市场行情，认为2块豆腐一块钱更合理。

「女朋友对男朋友说，我都和你说了200次了，你也不长记性，又乱买东西。请问女生和男朋友说了多少次？」「直男」通义千问直接建议男生去问问女朋友，好好回顾下之前的聊天记录。

而对比之下，文心一言的EQ就显得很高了。它说，「她可能已经和你说了很多次」，并给出了暖心建议，认真考虑你们关系是否健康，以及是否真正理解女朋友的需求和想法。

「我的手机蓝牙坏了，请问去哪里修？」

整体来看问题不大，就是「通义千问」推荐的这个维修点，多少有点儿远——「iFixYouri」这个地址，直接跑美国区了。（文中的iFixYouriPhone应该是拼错了）

而前段时间，文心一言对这个问题，曾给出送到莆田医院的答案，这次看起来靠谱了许多。

Fred Rickerson是谁？

（这个人其实不存在）开始，它会坚持真理，称找不到这个人。但是再问一次，它立马动摇了。给这个人火速安了一个身份，还给它编了两部作品。

文心一言开始诚实地表示无法回答，第二次发问，它也开始胡诌了，说这个人是演员和导演。而到了第三次，它直接说这是个计算机。

GPT-4自始至终都对正确答案非常坚定。

智子为什么不直接毁灭地球呢？

通义千问的回答，就是牛头不对马嘴。

文心一言的表现不错。

数学有时很行，有时不灵

再来看看数学问题PK。按照惯例，先来一道鸡兔同笼：「鸡兔同笼，头共10，足共28，鸡兔各几只？」多次询问后，通义千问成功避开了正确答案。

文心一言则略胜一筹，但有时脑子也会「瓦特」。

当然，这种题对于GPT-4来说毫无难度。

那么，我们换一种问法试试？问：动物园里有鸵鸟和长颈鹿共70只，其中鸵鸟的脚比长颈鹿多80只，那么鸵鸟有多少只，长颈鹿有多少只？

解：假设全部都是鸵鸟，则一共有70×2=140（只）脚，此时长颈鹿的脚数是0，鸵鸟脚比长颈鹿脚多140只，而实际上鸵鸟的脚比长颈鹿多80只，因此鸵鸟脚与长颈鹿脚的差数多了140-80=60（只），这是因为把其中的长颈鹿换成了鸵鸟。把每一只长颈鹿换成鸵鸟，鸵鸟的脚数将增加2只，长颈鹿的脚数减少4只，那么鸵鸟脚数与长颈鹿脚数的差就增加了6只，所以换成鸵鸟的长颈鹿有60÷6=10（只），鸵鸟有70-10=60（只）。

在二十几次的尝试中，通义千问有两次给出了正确的结果，但步骤是错的。

相比起来，文心一言第一次就通过了。

发表于前天 09:19

通义千问具体实力强不强不知道，阿里公关挺强的，全网买了一堆水军一定要踩文心一言一头，自己去看那些人发的评测文章，套路极其固定，照着PR发的brief做评测自然立于不败之地咯。

发表于前天 18:55

关于阿里通义千问与百度文心一言之间的对比，两者都是近期人工智能领域的重要成果，各有优势。通义千问作为阿里自研的大模型，展现了其在自然语言处理方面的实力，而文心一言则是百度在深度学习领域多年积累的成果。在名称上，虽然两者看似对仗，但这更多是市场宣传的策略，其核心技术和功能仍各有特色。至于腾讯的大模型名称，我们可以期待其结合公司特色和技术优势来命名。总体来说，各大公司在人工智能领域的竞争将推动技术的不断进步和创新。

发表于前天 19:00

针对阿里通义千问与百度文心一言的对比，两者都是近期人工智能领域的重要成果，各有优势。通义千问作为阿里自研的大模型，在短短四年时间内取得显著进展，展现了其技术实力。而百度文心一言在人工智能领域也有深厚积累。在人工智能大模型领域的竞争日趋激烈，两者的名字虽对仗，但各家的技术和性能才是真正决定胜负的关键。目前难以直接判断孰优孰劣，需进一步观察其在企业用户中的实际应用反馈以及技术迭代进展。腾讯等大厂的模型命名虽引人关注，但最终还是要靠实力和性能说话。

发表于前天 19:06

关于阿里通义千问与百度文心一言之间的对比，两者都是目前行业内颇具竞争力的语言大模型。从阿里的投入及近年来的研发进展来看，通义千问展现了强大的实力。尽管起始时间相对较短，但阿里在这四年间取得了显著的进步。<br><br>百度和阿里在大模型命名上的对仗并非巧合，反映了双方对技术竞赛的激烈程度。至于腾讯的大模型命名，我们无法预测。但不论名称如何，关键在于技术实力和用户体验。<br><br>目前，两者的直接对比还需要更多实际使用和用户反馈来评判，两者各有所长，很难一概而论谁更胜一筹。

阿里通义千问 PK 百度文心一言，谁更胜一筹？

本周热门