文心一言，讯飞星火，通义千问，这三家国产AI大模型，谁更有前途？

发表于前天 07:59

我的回答是，通义千问目前来看其实做得更好。
在文本大模型这一块，国内的AI发展其实已经追上了国外的开源大模型。比如阿里在上半年发布的Qwen系列模型，其在2月份开源过Qwen1.5-110B大模型，并在Open LLM Leaderboard榜单（在 6 个关键基准上评估模型，用于在大量不同的评估任务上测试生成语言模型）中，拿下了开源第一名的成绩，总分达“75.42”的好成绩

而其在最新的Qwen2模型中，比开源的Llama-3-70B和Qwen1.5-110B还要强。

在小模型的评测下（参数量少于等于10B），Qwen2-7B模型也比开源的Llama3-7B、GLM4-9B模型更好：

在代码方面，成功将CodeQwen1.5的成功经验融入Qwen2的研发中，实现了在多种编程语言上的显著效果提升。而在数学方面，大规模且高质量的数据帮助Qwen2-72B-Instruct实现了数学解题能力的飞升。

所以说目前国内的文本大模型在整体上已经可以追上国外的一流模型，而在局部领域上更是超越了META的LLAMA3。

在针对数学推理能力上，Qwen2.5-Math可能在某些方面能够达到o1大模型的效果。这个模型是特定针对数学能力进行推理。但是Qwen2.5-Math模型看起来并不打算蹭o1大模型的热度，林俊旸表示，它像猕猴桃而非草莓，意味着有显著不同，且无基于过程的深度推理能力。

到底Qwen2.5-Math效果怎么样，可以直接拿数学题目给他进行测试。从我测试的效果来看，这个模型的做题思路来看是对的，但是在数字比较大小的时候还是会出错

这里那了2024年高考数学题目给它解答：

先来看看正确的答案是：7/15

由于它支持图片输入，因此直接用图片进行问答：

一开始整个解答过程没有什么错误：它先定义了a，b，c三个作为前三次抽到的号码，然后可以得到

和

，然后由于题目要求m和n两个数的差值不超过0.5，因此可以得到

，接下来化简就可以得到

，这时候只需要穷举法，讨论每个c的取值，就可以得到每一种情况的概率。

Qwen2.5-Math一直到这里还是得出的正确的步骤。但是后面的步骤有点看不懂了。
它在穷举法的时候，在c=1的时候，明明已经得到

的等式了，但是在举例（a，b）的值时候，把（2，4），（2，5）这些明明就不满足等式要求的也计算上，导致最后在c=1的时候，得出来有10个满足的值。在c=2、3、4、5、6的时候同样有这些错误。当然最后得到的答案也是错误的

这里有合理怀疑，Qwen2.5-Math模型在遇到长文本生成的时候，由于失去了过多的步骤推理，导致莫名其妙的就会失去模型比较大小的能力。我为什么会得出这个结论呢？是因为在单独问它c=1时候的步骤有没有错误的时候，它是能够纠正出来的

那我们再来看看o1大模型对这个题目的解答：o1模型和千问模型一样，在前面两个步骤上都答对了，且能得出

这个答案了，但是和千问一样，在穷举法的时候也计算错误了，在计算三个值满足条件的时候，得到的答案是54，与正确答案差了2个值。

但是由于o1大模型得出的步骤和答案离正确答案更加接近，因此从评分上看效果要比Qwen2.5-Math要好一点。但是从这个题目也能看出，两个模型效果都差不多，都在前置步骤上解答对了，但是在穷举的时候比较数字大小出错。

本人还是很看好Qwen模型系列的，而且它还没有加入COT这种推理逻辑大杀器，推理能力上就能够和o1大模型差不多了，期望Qwen3的出现能够超越国外的大模型。

发表于前天 08:08

三个当中，最好用的是通义千问，不管在分析力以及理解力都是最强，并且是最接近GPT4o的国产AI，我通过多轮的测试并以GPT4o作为参照物，才得出来的结论。
以下为综合测试的结果：

	GPT4	通义千问	文心一言	星火
文案	★★	★★★	★★	★
阅读文献	★★★	★★★	★	★★
搜索资料	★★	★★★	★	★
其他功能	★★★	★★	★	★

基本上来说，通义千问是有两个方面是胜过GPT4o，就如文案方面，由于通义千问的中文本地化更加人性化，至于搜索资料，GPT4o没有实时性，是根据训练数据来推断，因此通义千问略胜一畴；而在AI绘画方面以及思维导图方面，GPT4o有着GPTs加持，自然无往而不利！
至于文心一言以及星火，基本上是半斤八两，不论在文案以及阅读文献、搜索资料等方面，都与通义千问都不是同一个等级，如果是苦于没有AI工具的途径，可以到知乎知学堂的AI办公提效公开课学习，找助教老师要AI工具，只要0.1元就能体验到全球一流的AI工具，很多小伙伴其实都有参加过知乎的活动，都有很多知币，这课相当于免费，并且一节课免费教授AI入门使用方法。
链接放下面了，想体验的小伙伴就点下面入口：
点击上面卡片，添加工作人员，即可领取AI工具以及教程，还有各种资源，这是我常用的资源，相当实用：

口说无凭，马上来看看，对话AI中的四国战记！
1.写文案

写作能力，基本有短句、长句、段落等。
可以分別来测试一下！
（1）宣传口号

一眼看去，星火的最简单，也没有备选就肯定是垫底的存在。

而通义千问、文心一言跟GPT的是直接能用，也可以当作是原创！
（2）改写长句

长句更考验AI 写作工具的逻辑以及组词能力，现在就测试一句：
请修改以下内容。
技术与舒适：使用独创技术以及错位设计，共享扶手，实现了灵动性与适用性的完美融合，将舒适性与科技智能完美结合，保证长时段的使用舒适度。

在重写长句当中，通义的表现最好，能用比喻的手法来写出这样的句子：“创新技术为翼”，其余的GPT、星火、文心一言都没有多大的区別，都是在原来的句子上简单修改。
因此，在文案写作方面：通义千问>GPT>文心一言>讯飞星火。
2.阅读文献

问题都是：请阅读PDF，写一份500字的简要内容。
文档都是“试论八旗军的衰落”。

GPT的读后整理的逻辑是：八旗始于努尔哈赤，兼具农民与士兵，再论根本原因是制度本身的缺陷，再与清朝衰落的关系。

通义千问的读后整理的逻辑是：八旗始于努尔哈赤，也提到了农兵二象性，再论制度的局限性，以乃清朝衰落的关系。

讯飞星火的回答逻辑基本类似，但是与GPT、通问千义不同的是，没有明确到八旗制度确立的时间。

文心一言比起讯飞星火更差一些，有讯飞星火的部分内容，但没有提到「列强侵略以及签订一系列辱国」的内容。
因此，在阅读文献方面：GPT=通义千问>讯飞星火>文心一言。
3.思维导图

问题：阿法狗AI和GPT的区別用思维导图来显示，要显示中文。

显然易见的是，通义千问用文字画出了一个简易版的思维导图，而星火在内容上解释了二者的区別，只有文心一言的内容上比较空洞无力。
通义千问、讯飞星火、文心一言都没有自己AI应用集，而GPT用的是GPTS中的Whimsical Diagrams，是个基于GPT4的开发的思维导图工具。
对比结果：GPT4>通义千问>讯飞星火>文心一言。
4.搜索资料

再看看搜索资料方面，通义千问的结果最让人满意，其次是GPT，最差的是讯飞星火，答非所问。

通义千问是文本对话AI，还是一个搜索AI。GPTS里的搜索AI也是半吊子，搜索的略逊一些，这也是通义千问唯一能胜过GPT的一点。
所以对比结果：通义>GPT4>文心一言>星火。
想要发挥出AI效用，跟语言模型、Prompt有关，相信有很多小伙伴都收藏了大量的Prompt和山寨版AI工具，但用起来就是强差人意，AI工具和prompt都要针对性地去搭配和使用，別的AI的prompt不一定适用于通义，想要最新以及官方正版的AI工具和最适合的prompt资源包？
直接到知乎知学堂的官方公开课，找助教老师领取，都是上课前或课后发放AI工具和资源包，方便你边学边练，课堂上讲的都是新手扫盲，不仅系统讲述了AI（写作+出图+视频+数据分析+PPT+客服对话）全能工具（软件&使用教程），还会教你提示词训练技巧、商业变现逻辑，简单易上手，想要工具和资源的小伙伴直接点击下面入口：
<a data-draft-node="block" data-draft-type="edu-card" data-edu-card-id="1815488321184477184">课前课后有什么疑问都可以找助教老师，千万别忘了领取AI工具、提示词集合、AIGC学习入门指南！

如果想要体验一下AI工具的小伙伴，记得领取福利，会有专人告诉你安装方法以及使用方法。
有兴趣可以看看其它AI知识：AI大千宇宙

发表于前天 08:19

文心靠PPT和一些难以言喻的Agent
讯飞最早出现过套壳GPT3.5
通义千问一直在开源，对整个LLMs社区的推动最大

所以我是无容置疑的千问吹，不过EMO和AnimateAnyone这种README开源还是越少越好

发表于前天 08:31

其它不好说，我第一个BANG掉的是讯飞星火。
为啥，完全不在同一个频道上，文心一言后面是百度，通义千问后面是阿里，都是万亿市值的主，每年的利润都几百亿。
讯飞星火后面的讯飞科技是啥啊！
就一个卖翻译器的，这翻译器还注定要被AIGC淘汰的那种。
你别看它股价还有1000亿，但销售只有100亿，利润才200万！
暴跌50%！
这说明什么？
这说明科大讯飞慌了，自己的产品不好卖，技术替代快，已经撑不起股价，它搞个讯飞星火，主要是跟风，看看能不能拉抬一下股价。
真别说，这三样我都用过，讯飞星火免费，用了几手就扔了，还不如同为免费的智谱清言呢，技术水到底了。
文心一言收费的缘故也不用了，最近还在用千问。
从当前的功能来看，讯飞星火远不如另两家，当然它想做B端，做项目，出发点是好的。
但你在C端的产品没优势，拿什么来占领B端啊！
何况，现在登记的大模型都100多个了，想胜出，得靠熬，持续投入，烧钱。
公司都烧得没利润了，拿什么投入。
所以，讯飞星火的倒下是必然的，看它什么时间完全退出运营吧。

发表于前天 08:43

先给结论，我认为通义千问更有前途。
首先我们来看看这几个厂家的大模型应用场景。
百度的文心一言。百度是to c起家，目前文心一言还是面对的to c消费者。当前他的应用场景就是文心一言app和用于检索rag。to c场景是很难盈利的，至少当下，想通过收会员费把钱挣了的概率不大，你看openai就是个例子，openai够顶尖了吧，但是当前会员费的钱都不够后台服务器的钱，更别提研发费用了。所以通过卖会员费来盈利不太现实。然后看检索rag，这个就是自己革了自己的命。百度是靠收广告费挣钱的，但是rag后用户直接从第一个位置获得了答案，就不会往下翻页了，那百度靠什么挣钱呢？用户不往下翻页，那没法浏览广告，这就是个死局，如果不做别人做了他就没了，如果做了，当前不盈利甚至还会降低自己的盈利。两难啊。
再看讯飞星火，讯飞做大的场是教育，当然目前国家在推荐大模型落地教育，但是在教育中能起到什么样的作用这个还不好说。如果有作用，讯飞没有关键壁垒，你做我也能做，原始那种做软件非要靠一个学校一个学校去推的模式我感觉在大模型面前应该不会存在了。为什么呢？原始的软件模式是服务都部署在学校本地，所以完全靠一家家去推，后期运维、服务都很难，这个建立了壁垒，其他人很难超越，讯飞在这块是有很大的沉淀的。但是现在大模型只能是云上，相比之前进学校的门槛低了很多，我不需要去线下运维，线下到场服务，那就跟现在的公共云模式是以一样的。这个时候反倒是讯飞会被别人分掉市场。
最后看阿里云的通义千问。阿里云当前的业务场景是tob，首先tob场景就有很多智能化的能力可以做，tob的购买能力本身就很强。只要真的做出有价值的事情，他们肯定是有购买动力的，本身阿里云在国内都是云业务第一的。而且阿里云本身的技术研发实力还是很强的，通义千问体验过，除开慢之外，效果还是不错的。所以相比其他两家，阿里云无论从面对的客户的购买力，还是自身的处境，他都是最有前景的。

发表于昨天 07:08

针对文心一言、讯飞星火和通义千问这三种国产AI大模型，它们各自具有不同的优势和特点，因此难以直接判断谁更有前途。 首先，它们都在自然语言处理领域有着广泛的应用，但各自的应用场景和定位略有不同。其次，这些模型的技术架构、算法等方面也有所不同，具有各自的优势和劣势。因此，未来的发展取决于各家公司的技术实力、市场定位、应用场景等多个方面。 从目前的市场反馈和技术进展来看，这些模型都在不断迭代和优化中，未来都有很大的发展潜力。因此，无法简单地判断哪个模型更有前途，需要根据具体情况综合考虑。

发表于昨天 07:14

关于文心一言、讯飞星火和通义千问这三家国产AI大模型谁更有前途的问题，其实很难给出一个明确的答案，因为每个模型都有其独特的特点和优势。 文心一言在自然语言处理方面表现出色，尤其在文本生成和理解方面；讯飞星火则在语音识别和合成领域有着显著的优势；通义千问则专注于机器翻译和语义分析。每个模型都在不断迭代和优化，未来的发展潜力难以预测。 因此，要评估哪个模型更有前途，需要考虑具体应用场景、市场需求、技术发展趋势等多方面因素。目前，这些模型都在不断进化，未来谁能够占据更大的市场份额，还需要时间的检验。

发表于昨天 07:18

关于文心一言、讯飞星火和通义千问这三个国产AI大模型谁更有前途的问题，其实很难给出一个明确的答案，因为它们各自在不同领域和应用场景中有不同的优势和特点。 总体来说，这些大模型都在不断迭代和进化，具有广阔的发展前景。要判断哪个更有前途，需要考虑模型的技术水平、应用场景、市场需求、团队实力等多个因素。 从目前公开的信息来看，这些大模型都在不同方面展现出了强大的能力，而且都在不断地优化和改进。因此，我们无法确定哪个模型更有前途，需要结合具体情况进行综合考虑。

文心一言，讯飞星火，通义千问，这三家国产AI大模型，谁更有前途？

本周热门