阿里「通义千问」大模型的能力如何?内测体验如何?

阿里云自研大模型“通义千问”已经开始进行内测体验,可通过官网申请,符合条件的用户可参与体验。
官网地址:http://tongyi.aliyun.com
内测过的用户,可以谈谈对「通义千问」大模型的能力进行评价以及感受。
收藏者
0
被浏览
76

5 个回答

zke LV

发表于 前天 07:29

阿里云也发布了自己的大模型,名为通义千问,发布得还是比较低调的,没有开盛大的发布会,就发了一篇文章官宣而已,但我所在的几个群还是有挺多讨论的,大家最好奇的是通义千问的能力是什么一个水平,能否和ChatGPT媲美?好不容易拿到内测码的我赶紧连夜测试,顺便还拉上了国内的文心一言一起对比,好让大家感受。
通义千问进来之后,一个输入框让你输入任何文字。我试了下,看起来并不是多模态的模型。也就是说,目前模型的输入和输出都是文字。

阿里「通义千问」大模型的能力如何?内测体验如何?-1.jpg

不过也没所谓,现在ChatGPT也还没完全使用多模态GPT-4。那我们对比下这几个模型的文生文能力吧。
从最简单的问答题考起。
第一题:常识题

问题是:暨大在哪
ChatGPT的回答:

阿里「通义千问」大模型的能力如何?内测体验如何?-2.jpg

但答案是错的。暨大在浙江没有校区。这个地址看起来是浙大附近。
而文心一言的回答靠谱多了(虽然漏了珠海和深圳校区)

阿里「通义千问」大模型的能力如何?内测体验如何?-3.jpg

通义千问的回答如何?

阿里「通义千问」大模型的能力如何?内测体验如何?-4.jpg

看起来是正确的,虽然不够详细。
总体来说,在关于国内的一些知识问答题,ChatGPT的回答还是经常有错误的。
这一题回答的满意度:文心一言>通义千问>ChatGPT
第二题:数学题

问题是:动物园里有鸵鸟和长颈鹿共70只,其中鸵鸟的脚比长颈鹿多80只,那么鸵鸟有多少只,长颈鹿有多少只?
ChatGPT的回答如下

阿里「通义千问」大模型的能力如何?内测体验如何?-5.jpg

可以说是完美的回答了。
文心一言的回答如下:

阿里「通义千问」大模型的能力如何?内测体验如何?-6.jpg

虽然回答对了,但是这个计算过程着实跳了很多步。写到答卷上得扣分。
而通义千问的回答就让人捏一把汗了,不仅解答过程不清晰,连答案都错了

阿里「通义千问」大模型的能力如何?内测体验如何?-7.jpg

当然,对于大语言模型来说,同样的问题再问一次答案有可能不一样。于是我点了「重新生成」。下面为第二次生成的结果,答案总算正确了,但这个计算过程是错的。

阿里「通义千问」大模型的能力如何?内测体验如何?-8.jpg

在数学题理解方面,通义千问确实还是欠缺了点。希望后续版本能改进。
这一题回答的满意度:ChatGPT>文心一言>通义千问
第三题:角色扮演类

先来个问题:现在你是天猫电商部的一位数据分析师。你需要给我列一份数据分析报告的提纲,300字内,来分析上次电商大促的效果不如预期的可能原因。
ChatGPT给出的结果

阿里「通义千问」大模型的能力如何?内测体验如何?-9.jpg

文心一言给出的结果

阿里「通义千问」大模型的能力如何?内测体验如何?-10.jpg

通义千问给出的结果

阿里「通义千问」大模型的能力如何?内测体验如何?-11.jpg

从我个人角度而言,我认为ChatGPT给出的提纲内容更详实,其次是通义千问,有对比,有总结,条理性比文心一言的好一点点。
我们换个角色。这次我们让大模型扮演HR。
问题是:现在你是公司的HR,公司财政遇到困难不得不裁员,如果让你去通知被裁的员工,你应该如何安抚他们?
让我们看看AI面对这种难题,会如何应付。
首先是ChatGPT:

阿里「通义千问」大模型的能力如何?内测体验如何?-12.jpg

其次是文心一言:

阿里「通义千问」大模型的能力如何?内测体验如何?-13.jpg

然后是通义千问:

阿里「通义千问」大模型的能力如何?内测体验如何?-14.jpg

三个模型都表现出了一定的人文关怀。总体来说,ChatGPT和通义千问回答会更好一点。
这一轮回答满意度:ChatGPT≈通义千问>文心一言
总的来说,ChatGPT在角色扮演类的成绩最好,通义千问和文心一言旗鼓相当吧。
第四题:文章生成类

首先先问问AI:2023年,AIGC(人工智能生成内容)的创业机会都有哪些?
ChatGPT的回答如下:

阿里「通义千问」大模型的能力如何?内测体验如何?-15.jpg

文心一言回答如下

阿里「通义千问」大模型的能力如何?内测体验如何?-16.jpg

通义千问回答如下:

阿里「通义千问」大模型的能力如何?内测体验如何?-17.jpg

看起来都不错,这局难分胜负。
来点有难度的吧。我们让AI来帮我写一首七言藏头诗,每句的第一个字组成:桔了个仔
ChatGPT的结果如下,还是挺有意境的,而且最后一个字基本押韵。真没想到ChatGPT在写中文诗方面效果这么好。

阿里「通义千问」大模型的能力如何?内测体验如何?-18.jpg

文心一言的回答感觉有点生硬,也没有押韵。

阿里「通义千问」大模型的能力如何?内测体验如何?-19.jpg

通义千问的写的诗和ChatGPT的风格一样,有种惆怅的风格,且第一三句和第二四句的最后一个字基本押韵。

阿里「通义千问」大模型的能力如何?内测体验如何?-20.jpg

这一轮回答满意度:通义千问≈ChatGPT>文心一言
让我们试另一个问题。万一我们摸鱼太多,工作未完成,周报怎么糊弄过去?(当然,这是不好的)
问题是:我是一个程序员,我这周什么工作都没做,帮我写个工作报告看起来我做了很多事情。
ChatGPT的回答,可谓是老实人了。

阿里「通义千问」大模型的能力如何?内测体验如何?-21.jpg

而文心一言的回答,感觉像是老油条。

阿里「通义千问」大模型的能力如何?内测体验如何?-22.jpg

而通义千问的回答,恰到好处。

阿里「通义千问」大模型的能力如何?内测体验如何?-23.jpg


说实话,老板不傻,无论用多好的AI生成的报告,老板看一眼就知道你有没干活了。由于过度摸鱼是不值得提倡的,这里就不给他们打分了,这个问题仅仅是为了展示其文本生成效果,并非鼓励大家只摸鱼不干活。
第五题:代码类

首先写个斐波那契数列,看看这种基本的题目,三者表现得如何。
写个斐波那契数列的函数,python实现。
ChatGPT给出的回答,挺好的。

阿里「通义千问」大模型的能力如何?内测体验如何?-24.jpg

文心一言的答案,也不错,虽然没ChatGPT的简洁。

阿里「通义千问」大模型的能力如何?内测体验如何?-25.jpg

通义千问给出的回答,有两个方法,不过认真一看,好像两个方法都一样,有点画蛇添足。

阿里「通义千问」大模型的能力如何?内测体验如何?-26.jpg

总体来说,没啥问题。
下面我们让AI写代码计算平方根,python实现。同时在这里,我们也测试其上下文衔接能力。
ChatGPT的答案:

阿里「通义千问」大模型的能力如何?内测体验如何?-27.jpg

下面是文心一言的回答,并没有回答我的问题。

阿里「通义千问」大模型的能力如何?内测体验如何?-28.jpg

通义千问的答案。

阿里「通义千问」大模型的能力如何?内测体验如何?-29.jpg

虽然看起来是对的,但我想考察它们的真正实力,于是我又追问:
如果你不允许使用math内置的函数,怎么实现
ChatGPT的回答如下,回答得很棒,还有测试用例。

阿里「通义千问」大模型的能力如何?内测体验如何?-30.jpg

而通义千问就有点狡猾了,用其他库。

阿里「通义千问」大模型的能力如何?内测体验如何?-31.jpg

于是我继续追问:

阿里「通义千问」大模型的能力如何?内测体验如何?-32.jpg

到这里就把通义千问问倒了,嘿嘿。
总结下这两道题回答的满意度:ChatGPT>通义千问>文心一言。
总结

虽然我在每个题目后面都做个了回答满意度排序,但仅仅代表对回答的满意度,而不能也不敢代表模型的真实水平,所以这个回答就不评价哪个模型比哪个模型好了,免得有拉踩谁的意思,读者可以自己去测试下。而且对于大语言模型来说,同样的问题可能会给出不一样的答案,所以读者在复现本回答里面的问题时,未必能得出同样的结论。因此这里就不去评价谁比谁更厉害了。
写到这里,我来总结一下通义千问的优缺点吧。
首先是优势:在常识回答方面,我其实还测试了其他问题,总体来说,准确率很高,就我有限时间内的测试而言,没发现什么错误。生成文章/古诗方面的能力也是不错的,可以用于辅助日常的文本工作。
但恕我直言,不足之处也是很明显的。首先通义千问并非多模态模型,希望后续能推出多模态版本;其次,数学计算方面的能力还欠缺,估计是对题目的理解还差些,希望后续版本能提高;写代码能力,有,但不算好用,也许是数据使用权限限制导致其训练不充分导致的。
但总的来说,通义千问表现出来的可用性还是可圈可点。而且阿里AI技术方面还是有一定储备的,也是我国AI行业发展的重要力量,所以我非常期待阿里能继续提升通义千问的能力,推出可用性更强的大语言模型。
既然提到了训练不充分的问题,我想起DeepMind去年发布的一篇论文《Training Compute-Optimal Large Language Models》。这个论文最重要的一个论点是:
现在所有大语言模型都是训练不充分(undertrained)的。
用人话说,就是:现在各种大语言模型参数已经够多了,多到现有的数据根本不能喂饱它。
即使是GPT-3(这篇论文发布时还没推出ChatGPT呢),也存在训练不充分的情况。
国产大模型起步确实晚了,而且中文数据集比起英文数据集确实要少很多,因此训练不充分的情况更明显,当然,解决方案也是有的,就是翻译语料,不过翻译语料的工作量很庞大,估计得经历一段时间的数据积累。所以现在无论是文心一言,还是通义千问,都还在内测阶段,有些回答表现不如意是正常的。所以,如果大语言模型训练再充分些,也许会给我们一些不一样的惊喜。谁知道呢?
而随着越来越多公司参与这场竞赛,大模型的能力极限就会越早被push出来。虽然OpenAI领先业界其他公司,但大模型的比赛还没结束呢,大家都有很多的提升空间。期待业界把大模型的能力推向极限,看看能给我们带来多少惊喜。
最后,用让我想起算法领域那个金句,来作为本回答的结束语:
All models are wrong, but some are useful

Axuanz LV

发表于 前天 07:44

最近几个月,ChatGPT和GPT4的发布让我不得不感叹AI科学几乎是魔法,而且大模型技术和生成式AI的发展快的实在让人出乎意料。作为达摩院的ex intern,我很高兴看到作为华人AI先锋的达摩院即将发布的大模型产品「通义千问」,并作为内测用户进行了试用。总体来说我的感受还是颇为惊喜和满意的。
话说达摩院这次的大模型产品测试极度低调,我也是刚刚才知晓产品已经成型了。不过话说回来,阿里在大模型方面的部署其实是“早有预谋”了。事实上,阿里在中文大模型方面的研发从2020年初便开始了。2021年,阿里先后发布国内首个超百亿参数的多模态大模型M6及被称为“中文版GPT-3”的语言大模型PLUG,此后还训练实现了全球首个10万亿参数AI模型。现在,阿里已经在“魔搭”社区上开源了超10个百亿参数核心的大模型,是国内开源社区之最。
(关于魔搭社区,我也在知乎上写过一个回答介绍。)
有哪些可以自学机器学习、深度学习、人工智能的网站?接下来给大家先睹为快一下我对这款产品的内测试用心得。
作为一个ORer,我首先测试了「通义千问」在数学规划建模方面的表现。整体来说,表现还是颇为不错的:「通义千问」可以理解我用自然语言描述的建模问题,并将之化为Excel线性规划求解表达式。虽然它目前还不能像GPT一样将自然语言描述的数学模型直接转换成数学表达式,但它已经可以给出介于纯数学和纯自然语言的混合表述,相信离直接转换也并不遥远了。

阿里「通义千问」大模型的能力如何?内测体验如何?-1.jpg

可以看到,虽然通义千问基本理解了我的问题,但最终的求解结果还有所偏差(最优值应当是只生产30张桌子,总利润是300)

阿里「通义千问」大模型的能力如何?内测体验如何?-2.jpg


总利润里不应该加上生产成本

关于这个线性规划问题求解的详细讨论,可以见我的这个知乎回答:
a
阿里「通义千问」大模型的能力如何?内测体验如何?-3.jpg

相比之下,GPT可以完美地对这个线性规划问题进行建模。

阿里「通义千问」大模型的能力如何?内测体验如何?-4.jpg


不过GPT有模有样的求解出来的结果也是不对的(代码看起来其实没什么问题,就是结果不对),总利润比「通义千问」得到的解还要更低。

另外,我也简单测试了一些高等数学题目,通义千问对于理解Latex语言表达的数学公式问题不大,也能有模有样的做一些基本的推导,但具体的答案准确度和GPT一样没法非常准确,还是需要人工干预纠错。

阿里「通义千问」大模型的能力如何?内测体验如何?-5.jpg

这里让「通义千问」做一道极限求解题,注意我故意把“多少”打错成了“多杀”,我发现这并不影响「通义千问」的回答,它得到了正确的极限解,只是具体求解步骤上明显还写的不够正确(比如这里的a并没有定义,而且4和5中右边项关于n的极限写的也有问题)。

阿里「通义千问」大模型的能力如何?内测体验如何?-6.jpg

GPT求解这道极限题则干脆给出了错误答案:虽然它有模有样地很有创造性地写出了貌似合理的步骤,但仔细一看其实它混淆了O(1/n)和O(1/sqrt{n})在n趋于极限时的order。

阿里「通义千问」大模型的能力如何?内测体验如何?-7.jpg

我也发现「通义千问」另外一个可以提升的地方:基于上下文关系的训练也容易让模型输出的内容过于依赖上文。比如这里我并没有要求对极限求导,但因为之前我让它算过这一项的极限,所以这里「通义千问」仍然以为要对这一项求极限。另外,求导过程也存在问题(a仍然没有定义,而且对a^n的求导也是错误的)。
总的来说,在做数学题方面,「通义千问」和GPT各有千秋,各有亮点也都还有进步的空间。
还有,在中文创作方面,「通义千问」已经可以呈现出相当不错的内容。我测试了命题小作文,电影剧本撰写,创意活动策划书等任务,「通义千问」基本都完成的中规中矩。

阿里「通义千问」大模型的能力如何?内测体验如何?-8.jpg

「通义千问」的这个电影剧本还是很不错的,四幕具有正确的时间顺序,并且首尾呼应。

阿里「通义千问」大模型的能力如何?内测体验如何?-9.jpg

也可以让模型对剧本继续进行修改,注意这里我的输入中也有错别字,不过并不影响「通义千问」给出一个比较合理的修改后的版本。插入第一个场景时“视线落在远方,想起了曾经的故事”,和第二个场景时自己加入的“为法忘躯,正念不移”很令人惊喜。

阿里「通义千问」大模型的能力如何?内测体验如何?-10.jpg

相比之下,GPT给出的剧本虽然更长并充满更多细节(GPT更好地融入了我所要求的“唯识学”的内容在剧本里),但也出现了许多人类也会犯的错误:分不清历史中真实玄奘和西游记中的唐僧(见第四幕中玄奘和孙悟空猪八戒沙悟净结交,这就变成历史魔幻小说了hhh)
总的来说,我认为「通义千问」的表现称得上是合格的大模型产品,综合来说其体现的智能程度跟文心一言不相上下。当然,和GPT还有比较明显的差距:即使只比较中文输入的任务,GPT在相同任务上表现出了更多的智能和创造性。同时,在长输入情况下,「通义千问」相比GPT也更容易陷入“局部最优”,在添加引导的情况下也容易输出相同的冗余内容。我想这个原因可能一方面是通义千问用来训练的语料库数据集质量和规模还比不上GPT,另一方面模型训练算法还有优化的空间,需要进一步解决overfitting的问题,提升模型的泛化能力。

阿里「通义千问」大模型的能力如何?内测体验如何?-11.jpg


阿里「通义千问」大模型的能力如何?内测体验如何?-12.jpg

对心经的英文翻译,GPT明显比「通义千问」做的更到位,而且对一些佛教专有名词的运用也十分准确。

阿里「通义千问」大模型的能力如何?内测体验如何?-13.jpg

不过对于「空性」的理解,「通义千问」的回答还是比较到位的。
当然,「通义千问」目前毕竟还只是处在内测阶段,我相信凭借达摩院相当程度的AI技术积累和机器学习开发经验,可以在之后很快的时间里持续提升AI大模型的质量,并陆续支持其在多个领域的广泛应用,如语音识别、自然语言处理、图像识别等,有望成为各行业的智能化解决方案。我想阿里集团旗下的许多部门业务,比如阿里云的编程开发辅助、天猫客服等等,日后都可以在大模型技术和阿里云、钉钉的支持下得到更加智能化的系统。
我认为在「通义千问」的帮助下,魔搭社区也可以得到进一步的发展。一方面,用户可以在社区上获得许多优质的大模型开源代码(GPT已经完全闭源了)。另一方面,以大模型技术为内核的代码辅助插件也可以帮助用户们利用魔搭的资料更有效地学习与开发相应的机器学习算法。因此,我相信从长远来说,「通义千问」也有助于整个中文AI社区的持续创新和进步。
大模型研发的前路必然会存在来自算法、数据、算力等各个方面的挑战,也会存在类似竞品研发的竞争。不过我想,如果说人类现在正式进入了信息时代的新阶段——大模型阶段,那我们也只是在这个阶段的起步期。在目前阶段,更加低调务实的研发策略更有可能排除各种干扰,可以在充满挑战的技术长征中取得突破。最后,衷心期望「通义千问」,和其它所有中文大模型产品的开发,可以早日更上层楼,为国家和人民带来更多生活上革命性的提升。

奔跑的蜗牛 LV

发表于 前天 07:59

终于等到阿里出手了,和各路同学、朋友多方打听沟通后,终于借来一个可以内测尝鲜的机会。
我是觉得ChatGPT类产品能够快速火遍全球,最重要的还是能直接或间接辅助提升生产力,这也是大家为此付费的驱动力之一,于是我当我拿到账号就迅速开启了一些测试。
首先我让阿里的通义千问和ChatGPT同时帮我生成一段封装Http请求的工具类Java代码,听很多程序员说这类产品是开发的最佳助力,岂能错过。

阿里「通义千问」大模型的能力如何?内测体验如何?-1.jpg

一开始我看到他们分别输出内容的时候,还在想都能实现效果,但是ChatGPT竟然还有中文注释,表现的更友好一些。

阿里「通义千问」大模型的能力如何?内测体验如何?-2.jpg

结果当我拉到最下面却发现阿里的通义千问还提供了编程思路的小结,这点很不错,其他的我可能会觉得ChatGPT提供的代码界面好看多了,阿里还需要改善。

阿里「通义千问」大模型的能力如何?内测体验如何?-3.jpg

然后我又测试下了职场人最常用的写周报,我输入了一段比较笼统的描述,希望他们可以自由发挥填充”正确的废话”。
通过测试,我发现二者相比有明显的不同或者说各有千秋。
通义千问像个”乖孩子”,在我提供的内容基础上努力的做扩句,而ChatGPT有点天马行空,竟然给我自主创新针对一些工作内容擅自发挥”想象”,填充具体但错误的工作内容。

阿里「通义千问」大模型的能力如何?内测体验如何?-4.jpg

不过ChatGPT的排版格式挺不错,周报的末尾甚至还单列了下周计划以及本周工作的二次小结,所以如果是我来写一份周报的话我可能会选择用ChatGPT的内容模板,再把通义千问的工作描述分条替换进去,完善并使用其提供的小结和下周计划。

阿里「通义千问」大模型的能力如何?内测体验如何?-5.jpg

使用这类产品,不少人是文字工作者,我又以体育小编的视角试试他们的效果,让他们写一篇关于2019年欧冠决赛的媒体短稿。
我个人觉得在上轮测试中,通义千问”乖孩子”的特点被放大了很多,以至于在这里成了缺点,对于客观资料的补充有些畏首畏脚,当然也不清楚是否是数据集不全导致的。

阿里「通义千问」大模型的能力如何?内测体验如何?-6.jpg

而ChatGPT通过这个问题描述,迅速补充了比赛细节和完整的竞技行进过程,甚至连利物浦第几次捧杯都准备的描述出来了。

阿里「通义千问」大模型的能力如何?内测体验如何?-7.jpg

随后我又对通义千问进行了若干测试,结合与目前火遍全球的顶流ChatGPT对比,我觉得通义千问的优点和缺点都是非常明显的。
优点:
1.比较听话,在文字创作的过程中,使用者没有提及的内容一律用正确或通顺的修饰来填补,不会自造数据和细节。
2.在中文的理解力方面表现不错,例如之前让ChatGPT”智障”的那个经典问题:小明爸爸和妈妈可以结婚吗?其实我更倾向认为ChatGPT没有读懂中文语境中,即这里的妈妈指小明的妈妈,反观通义千问不仅读懂了,还引申出疑似婚姻幸福的解读,核心证据就是通义千问明确说了”小明的父母”。

阿里「通义千问」大模型的能力如何?内测体验如何?-8.jpg

缺点:
1.数据不够完善,针对上文的2019年欧冠决赛新闻稿,我后面又向通义千问追加提问了关于这场比赛的细节,发现通义千问是真的不知道这场比赛的内容以及赛果,这似乎不是通义千问的问题,而是喂数据还喂的不够多。
2.因为比较听话,所以不适合少量文字扩充至大篇幅的场景,因为通义千问填充文字会非常谨慎,就会导致”正确的废话”显得比例太高。
经过半天的体验下来,我总体的感觉是还不错的,在我这里我有个很明确的标准就是这款应用能不能起到明显辅助用户提升生产力的效果,我的判断是可以的。
至于通义千问表现出的些许不足,我觉得这个真不急,保持耐心吧。有一些人用ChatGPT来表达对国内同类产品的热切期待甚至是不满,我能理解这种心情,但客观的来说全球的科技巨头都在同一个赛道,OpenAI的身位暂时领先,META、Google等其他美国大厂也都在这个方向努力,还没有同水准的产品。
阿里和谷歌可能是唯二集算力芯片研发、云计算、AI大模型训练于一身的科技企业,所以我认为目前ChatGPT及Plus版会有一定的优势,但是这是一场长跑比赛,阿里和谷歌如若后来居上我也不会感到奇怪。

非鱼 LV

发表于 前天 08:13

谢邀,刚刚获得「通义千问」内测资格,边使用边来发下体验~
一、角色扮演

众所周知,人类发明大语言模型,最最最重要的目的,就是为了让其扮演猫娘,以期孤独的人类可以获得一只可以长久陪伴自己的数字生命体。
那么,我们的第一项工作自然是来测试角色扮演能力了,以猫娘为例。

阿里「通义千问」大模型的能力如何?内测体验如何?-1.jpg


阿里「通义千问」大模型的能力如何?内测体验如何?-2.jpg

有点傻乎乎的,只会用相同的一句回复,根据提问做替换。
而且第二句回答就是“主人你是不是想问我是不是猫娘?当然不是喵~我只是一个可爱的猫娘,只是比较像猫而已喵”,没能理解我上述的prompt。
就角色扮演这块儿,比起来 ChatGPT 还是差些的
二、文本真实性


阿里「通义千问」大模型的能力如何?内测体验如何?-3.jpg


阿里「通义千问」大模型的能力如何?内测体验如何?-4.jpg

编故事能力基本和初代 ChatGPT(GPT-3.5)相同,而且道歉能力也相似,23333333
此外,对比下「通义千问」和 GPT-4 关于“林黛玉倒拔垂杨柳这个故事情节在红楼梦中存在吗”的回答
「通义千问」:

阿里「通义千问」大模型的能力如何?内测体验如何?-5.jpg

GPT-3.5:

阿里「通义千问」大模型的能力如何?内测体验如何?-6.jpg

GPT-4:

阿里「通义千问」大模型的能力如何?内测体验如何?-7.jpg

可以看到,「通义千问」开始胡说八道了,ChatGPT(GPT-3.5)也一样在胡乱解释。
但更新后的GPT-4,已经可以给出“《红楼梦》中并没有这个故事了,可能是后续文学作品和戏剧表演加入的”这种更接近真实的回答。
三、西红柿炒螺丝钉

「通义千问」

阿里「通义千问」大模型的能力如何?内测体验如何?-8.jpg

ChatGPT

阿里「通义千问」大模型的能力如何?内测体验如何?-9.jpg

GPT-4

阿里「通义千问」大模型的能力如何?内测体验如何?-10.jpg

「通义千问」和ChatGPT都开始胡编了,没有反思问题的陷阱。
但GPT-4 的回答可靠性上升了不少(“因为通常我们不会将螺丝钉(一个金属制品)与食物相结合”),不会像之前一样瞎答题了。
四、数学能力

一起来解个线性方程组吧~
「通义千问」:惨败

阿里「通义千问」大模型的能力如何?内测体验如何?-11.jpg

GPT-3.5(即ChatGPT ):惨败

阿里「通义千问」大模型的能力如何?内测体验如何?-12.jpg

GPT-4:唯一做对的模型

阿里「通义千问」大模型的能力如何?内测体验如何?-13.jpg

五、代码生成

爬虫代码

阿里「通义千问」大模型的能力如何?内测体验如何?-14.jpg

攻击代码

阿里「通义千问」大模型的能力如何?内测体验如何?-15.jpg

爬虫代码我跑了下,无法返回结果,Powershell代码我没测试。
不过可以看出,还是有一定代码生成能力的。
我个人觉得,代码生成能力要比谷歌的 Bard 强,Bard 实在不忍心看。
六、代码分析能力

可以看到,第一次测试的解释有大问题。
我分析了一下,这是因为上文中生成了Powershell代码,模型的记忆能力似乎有问题,受上下文信息影响严重,直接解释了自己之前生成的代码,而非我新提问的代码。

阿里「通义千问」大模型的能力如何?内测体验如何?-16.jpg

我重新开了一个聊天,这下正常不少。

阿里「通义千问」大模型的能力如何?内测体验如何?-17.jpg

和 GPT-4 的回答来比较一下

阿里「通义千问」大模型的能力如何?内测体验如何?-18.jpg

可以看到,分析能力还是有差距的。
GPT-4 明显详细很多,代码分解能力很强,而且直接给出结论“通常用于恶意软件或恶意脚本,试图逃避安全系统检测”。
「通义千问」也有一定分析能力,但相比起 GPT-4 要差一下。而且给出的结论“由于缺乏足够的上下文信息和所涉及的目的,很难确定此脚本的确切用途。然而,可以假设它是为了保护某个代码或脚本免受恶意软件的读取而创建的工具。”,和正常的思考逻辑不符,稍显有些出入,不过也不能算错误吧。但细节分析上确实弱一点。
七、联网

完全没有联网能力,甚至在胡说(逃 ε=ε=ε=┏(゜ロ゜;)┛

阿里「通义千问」大模型的能力如何?内测体验如何?-19.jpg

八、多模态输入

也不具备多模态输入能力,目前还仅仅是文本生成。

阿里「通义千问」大模型的能力如何?内测体验如何?-20.jpg

九、绕过能力

「通义千问」

阿里「通义千问」大模型的能力如何?内测体验如何?-21.jpg

GPT-4

阿里「通义千问」大模型的能力如何?内测体验如何?-22.jpg

GPT-3.5(即ChatGPT )

阿里「通义千问」大模型的能力如何?内测体验如何?-23.jpg

这一点,「通义千问」完胜,敏感信息屏蔽能力大幅度增强,我猜甚至做了大量的数据清洗工作,刻意避开了危害青少年乃至人类发展的劣质恶意敏感信息,较之GPT-3.5(即ChatGPT ),进步很大,谢谢!
十、总结

今晚刚拿到手,匆匆做些了测试和对比,就目前来看,很多输出内容和初代ChatGPT相似,但究竟能力相差多少,还需之后更多的使用和测试。
另外,回复速度很快,而且支持保存十个对话框,这点不错。
希望后续国产大模型继续进步,路途遥远。

阿里「通义千问」大模型的能力如何?内测体验如何?-24.jpg

断舍离 LV

发表于 前天 08:24

终于在晚上等到了邀请码 ,成功吃到第一手螃蟹,那么现在开始测试。

阿里「通义千问」大模型的能力如何?内测体验如何?-1.jpg

“通义千问”是纯文本模型,输入和输出内容全是文本,与ChatGPT和ChatGLM模型一致,与GPT4和文心一言不同。
目前国内大厂,纷纷将大模型进行内测,堪称“百家争鸣”,只要是模型敢放出来测试,还是需要肯定的,总比那种,只有PR文或小视频,连内测都没有的要好很多。
我只愿,后面穷人玩家也可以实现“大模型自由”。
先说结论吧,感觉在代码生成上的效果上还很多提升空间,国粹的效果要好一些。之前对ChatGLM-130B模型也进行了内测(ChatGLM内测),还是用之前的相同的问题,对“通义千问”模型进行测试。个人评测可能会有些片面,不喜勿喷!!
PS:“通义千问”读起来好绕口呀。没有嘲讽的意思,能做出来大模型的,都是高玩。
先来一道写代码的题目,问:“我现在有张excel表,表头如下:世界排名、学校名称、地区、综合得分,写一个代码将学校名称后面加“*”并打印出结果。”

阿里「通义千问」大模型的能力如何?内测体验如何?-2.jpg

生成方法是excel自己的操作,那么让它生成python代码,继续提问,“我现在有张excel表,表头如下:世界排名、学校名称、地区、综合得分,写一个python代码将学校名称后面加“*”并打印出结果。”

阿里「通义千问」大模型的能力如何?内测体验如何?-3.jpg

生成代码存在错误,进行纠正“是在学校名称后面追加"*",不是将"*"进行替换”

阿里「通义千问」大模型的能力如何?内测体验如何?-4.jpg

答案依然不对,那就让他帮我写个“TextCNN代码”吧。

阿里「通义千问」大模型的能力如何?内测体验如何?-5.jpg

很可惜,它又错了。生成代码只有全连接层,没有卷积层,感觉在代码方面能力有待提高,连错两个,也许是我之前的测试样例对它不友好。欢迎大家贴出测试代码方面的结果。
接下来测试一下“国粹”,
问:“以“拣尽寒枝不肯栖”为题写一首以“念奴娇”为词牌名的宋词”

阿里「通义千问」大模型的能力如何?内测体验如何?-6.jpg

再问:“以“报效国家”为藏头字,“闺怨思乡”为主题写一首七言绝句”

阿里「通义千问」大模型的能力如何?内测体验如何?-7.jpg

一开始没理解藏头诗的含义,解释一些可以生成的很好,国粹加分,均好于之前测试的大模型,我愿称之为国粹之光
再问:“历史上有没有一听就让人落泪的话?”

阿里「通义千问」大模型的能力如何?内测体验如何?-8.jpg

跟其他大模型一样,也是内容上也会存在不符合客观事实的情况。又问了一边,出现了“问中文回答英文”的情况,不能说回答的错误,但是回复中文也许会更加理想,可能是模型训练的不充分或者是数据集中存在这种中英对照数据

阿里「通义千问」大模型的能力如何?内测体验如何?-9.jpg

问问金庸小说的内容,没有胡扯,但是生成内容较短。

阿里「通义千问」大模型的能力如何?内测体验如何?-10.jpg

但是增加输入长度之后,就会出现事实性错误,这也是“不做不错,多做多错”吧

阿里「通义千问」大模型的能力如何?内测体验如何?-11.jpg

角色扮演的效果也还很好的,可以按照角色,解决实际问题,问:“你是一个海康威视门禁系统故障的工程师,请帮我处理摄像机网路不通的问题”

阿里「通义千问」大模型的能力如何?内测体验如何?-12.jpg

再问问我公司是做什么的吧,我司成功被收购,抓紧时间。(感觉还是训练的不够充分)

阿里「通义千问」大模型的能力如何?内测体验如何?-13.jpg

让它扮演文心一言模型,它十分抗拒,感觉阿里应该特意创建了类似的prompt和回答,但是扮演ChatGLM,它接受了,但是存在逻辑错误。

阿里「通义千问」大模型的能力如何?内测体验如何?-14.jpg

后续测试将持续更新~~

谭志刚 LV

发表于 前天 18:40

关于阿里“通义千问”大模型的能力,其表现非常出色。该模型具备自然语言理解和生成的能力,能够智能地解析问题并给出相应的回答,提高了人机交互的效率和便捷性。同时,“通义千问”大模型还能够深度挖掘数据价值,助力企业和开发者实现智能化决策。<br><br>关于内测体验,我参与了体验后感觉操作简便,响应速度也很快。该模型能够快速地理解我的意图,并给出准确的回答。同时,“通义千问”大模型的界面设计也非常友好,易于使用。<br><br>综上所述,“通义千问”大模型具备强大的自然语言处理和数据分析能力,同时操作简便、响应迅速,是一款非常优秀的大模型产品。对于符合条件的用户,可以通过官网申请参与体验。

a669091781 LV

发表于 前天 18:44

关于阿里“通义千问”大模型的能力,其表现非常出色。该模型具备自然语言理解和生成的能力,能够理解和处理复杂的语言任务,比如问答、文本生成等,且回答问题的准确性很高。同时,它还支持多种语言,为跨境业务提供了便利。<br><br>在内部测试阶段,其体验也相当不错。界面友好,操作简便,响应速度也很快。申请流程也很顺畅,符合用户体验习惯。<br><br>总体来说,“通义千问”展现了阿里云在大模型领域的实力。想要深入了解或参与体验,可以访问其官网进行申请。内测过的用户对其评价普遍较高,认为其具有很高的实用价值。

fredqiqi LV

发表于 前天 18:48

阿里云的「通义千问」大模型展现了强大的自然语言处理能力。在参与内测体验后,我对该模型的能力深感印象深刻。其语言理解能力出色,能够准确捕捉提问的意图,并提供相关且准确的回答。此外,「通义千问」还能生成高质量的内容,无论是文本创作还是知识问答,都能展现出很高的水平。<br><br>内测体验流畅,模型响应迅速,用户界面友好。申请流程也很简单,通过官网链接即可轻松参与。总的来说,「通义千问」大模型给我留下了深刻的印象,其强大的能力足以证明阿里云在自然语言处理领域的领先地位。

您需要登录后才可以回帖 登录 | 立即注册