如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?

截至2023年4月9日,GPT-4应该是积累最为雄厚,发展最为迅速的ai大语言模型,那么其他大语言模型之间的实力比较是怎样的?请使用过其中产品的人对产品实力进行排序,并给出你的理由。如果可以的话,请简要说明一下不同模型的技术原理和技术实现。
收藏者
0
被浏览
58

5 个回答

乐得潇洒 LV

发表于 前天 09:12

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?
在聊技术原理之前我们来先看看几个产品的团队背景
一、团队背景

1.1、ChatGPT


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-1.jpg

ChatGPT团队的成员大多具有计算机科学、人工智能、自然语言处理、机器学习等相关领域的高等教育背景,有些还拥有博士学位。他们来自世界各地,有美国、加拿大、英国、法国、德国、中国、印度等国家的人才。
团队成员绝大多数拥有名校学历,且具有全球知名企业工作经历。包括谷歌、FaceBook、微软、斯坦福大学、加州大学伯克利分校、麻省理工学院、剑桥大学、哈佛大学和佐治亚理工学院、清华大学等。

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-2.jpg

如果想自己试试,可以到这里看看
GPT元宇宙优势:1:1还原官网
功能描述
隐私隔离强制对话隔离,每个人都有自己独立的对话列表,互不干扰
官网体验1:1 复制官网,支持所有核心功能,新功能持续同步更新
官网:https://www.mygptmeta.com/
登录注册地址:https://www.mygptmeta.com/signup/

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-3.jpg


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-4.jpg

使用界面

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-5.jpg


1.2、Google Bard


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-6.jpg

Bard是应对OpenAI开发的ChatGPT的崛起而开发的,它的团队背景也是非常强大。团队成员来自世界各地,拥有不同的教育背景、工作经验和技术能力。团队成员的平均工作经验为 15 年,其中许多成员在大型科技公司工作,如 Google、Facebook等。团队成员毕业院校也都是顶尖院校如斯坦福大学、麻省理工学院、清华大学、北京大学、牛津大学、剑桥大学等。

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-7.jpg

在排名中也可以看到大多数是Google公司的成员。虽然当时Bard为了追赶ChatGPT,推出的太过仓促而翻车。当时2023年2月8日Google巴黎举行直播展示Bard后,Google的股价下跌了8%,相当于市值损失1000亿美元,虽然出现了小插曲,但在AI界Google的地位还是不低的。谷歌在人工智能领域拥有强大的技术实力,拥有大量的人工智能人才。开发了许多具有突破性的人工智能技术,如 TensorFlow、TPU、Gemini 等。这些技术在人工智能领域的各个领域得到了广泛应用。
1.3、文心一言


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-8.jpg

"文心一言"是由百度公司的自然语言处理团队开发的。这个团队的核心成员来自于清华大学、卡内基梅隆大学、谷歌等国内外顶尖高校及公司。
我没有在网上查到百度官方公开的文心一言团队的情况,但从以下这个方面也可以了解到一个大概情况。
百度开设了百度奖学金,百度奖学金于2013年设立至今,作为目前国内AI领域资助金额与含金量最高的学术奖学金之一,在业界取得了可观的影响力,该项目的获得者也在人工智能的各个领域已崭露头角。

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-9.jpg

历年有包括清华大学、浙江大学任意、哈尔滨工业大学、上海交通大学、北京理工大学魏、麻省理工学院、斯坦福大学、卡内基梅隆大学、悉尼科技大学等等在内的院校均有学生获奖。他们多年深耕专业领域,覆盖人工智能机器翻译、自然语言处理、任务型对话系统、图神经网络等多个AI专业领域。
二、技术原理
2.1、语言模型


  • GPT(Generative pre-trained transformer)
GPT 模型的全称是“Generative pre-trained transformer”,就是“基于 Transformer 的生成式预训练模型”。它是一种使用深度学习技术的自然语言处理(NLP)模型。GPT系列由OpenAI(开放人工智能)开发,它使用了Transformer架构,该架构在处理序列数据(如文本)时表现出色。

  • LaMDA(Language Model for Dialogue Applications)
Bard 使用的语言模型是基于谷歌自己的 LaMDA(对话应用程序语言模型)。
LaMDA 的全称是“Language Model for Dialogue Applications”,就是“对话应用程序语言模型”。LaMDA 是一种大型语言模型,由 Google AI 创建。它是在一个庞大的数据集上训练的,包括文本和代码,能够生成文本,翻译语言,编写不同类型的创意内容,并以信息丰富的方式回答您的问题。 语言模型使用的是Transformer架构。

  • 文心一言(ERNIE Bot)
文心一言,英文名是ERNIE Bot,它是百度打造的一款人工智能大语言模型,它具备跨模态、跨语言的深度语义理解与生成能力。文心一言有五大能力,分别是文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。 语言模型使用的是Transformer架构。
2.2、技术原理


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-10.jpg

可以看到几个产品都有Transformer的影子,也就是GPT中的T,以下就简单介绍一下技术原理。
ChatGPT大概的技术原理流程:

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-11.jpg


  • 数据准备:首先需要准备大量的文本和代码数据,这些数据将用于训练ChatGPT模型。
  • 模型训练:ChatGPT模型使用Transformer架构进行训练。Transformer架构的核心是自注意力机制,它使模型能够识别和重视输入数据中不同部分的相对重要性。
  • 模型推理:在接收到用户输入后,ChatGPT模型会使用Transformer架构来生成响应。
可以看到Transformer是所有模型的核心,哪么什么是Transformer架构呢?
Transformer是Google AI在2017年提出的一种自然语言处理模型架构。Transformer架构的核心是自注意力机制,它使模型能够识别和重视输入数据中不同部分的相对重要性。这种机制的引入,不仅提高了模型处理长文本的能力,也让其在理解语境和语义关系方面更为高效和准确。
Transformer架构的原理论文是"Attention Is All You Need",这篇论文由Vaswani等人在2017年发表。

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-12.jpg

Transformer 遵循以下的架构:

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-13.jpg

Transforme架构主要包括:

  • 编码器(Encoder):负责理解输入文本,为每个输入构造对应的语义表示(语义特征)。
  • 解码器(Decoder):负责生成输出,使用编码器输出的语义表示结合其他输入来生成目标序列。
  • 自注意力机制(Attention Mechanism):用于计算输入数据中不同部分之间的关系。
三、使用情况

3.1、文字类

我用一个知乎中知友问的一个问题:“汉字中带氵偏旁但与水无关的字”
1)ChatGPT3.5


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-14.jpg

“瀑”我感觉还是与水有关,其它几个字到是都对的。
2)ChatGPT4


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-15.jpg

感觉GPT4还是比较正确的没有出现特别错的字。当然也有知友开玩笑说“法”是与水有关的,并且这里的水最深,呵呵。。。。
3)Google Bard


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-16.jpg

这里还是出现了不少有问题的汉字,当然Bard汉语知识库说是使用的百度文心并不是它自己的。当时也爆出不少新闻也有不少截图。不过最近问Bard说使用的是Google自己的。
4)文心一言


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-17.jpg

文心在汉字上应该会有优势,不过还是出现了“瀑”字,不过文心列出的汉字还是比其它产品较多的,还都是对的。相比其它产品它的汉字处理能力应该是较强的,不过回答的就比较草率了点,在这方面的能力还是相对差了点。
当然我问的问题都是没有增加一些修饰的,如果增加相应的修饰会回答的更加准确。
从这个问题的回答来看:
ChatGPT4 > ChatGPT3.5 > 文心一言3.5 > Google Bard
3.2、绘图类

1)ChatGPT4


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-18.jpg

2)文心一言


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-19.jpg

3)Copilot(Bing)


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-20.jpg

四、总结排名

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-21.jpg

从语言模型参数量来看文心一言是最大的,之前出IDC报告中也说文心一言超GPT3.5,当然数据只是个参考还得看使用情况。另外gpt4、PaLM、ERNIE Bot4的参数量网上有很多版本大概都在万亿级的样子。
以下是全球对ChatGTP、Google Bard、文心一言、New Bing(Copilot)的关注情况,ChatGTP是遥遥领先的。

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-22.jpg

虽然产品本身有高低之分,值得注意的是,同一个工具在不同人手中的效果会有截然不同。如果你希望深入了解并学习如何充分挖掘AI的潜能来帮忙你的工作或生活,如果你没有体系的学习的方法或不愿意花大量的时间去搜索资质,可以推荐你参加一门相关的课程,以获取更全面的知识和技巧。知乎知学堂出品的一场由一线大厂大佬带领进入的『知乎知学堂 AI 互动智能办公训练营』
直播课,课程主要覆盖以下场景:

  • AI助力标题创作,产出高曝光量/高点击率标题
  • AI助力数据分析,高效产出数据分析报告
  • AI助力高效阅读,辅助文献资料查阅
  • AI助力新媒体创作,轻松搞定爆款选题及文案写作
  • ....
最后总结一下:

  • 如果主要关注文字处理的话
    chatgpt4>chatgpt3.5>Google Bard>文心一言
  • 如果主要关注实时信息、互联网数据、绘图等
copilot>chatgpt4>chatgpt3.5>Google Bard>文心一言

普夏城冬 LV

发表于 前天 09:21

在刚刚过去的微软 Build 2023 开发者大会上,OpenAI的创始成员、前特斯拉高级 AI 总监 Andrej Karpthy 做了一个专题演讲:State of GPT(GPT 的现状)。
该演讲总共可分为两个部分:

  • 第一部分:如何训练一个 GPT 助手;
  • 第二部分:如何有效应用 GPT 助手。
作为一篇图文笔记,本文撰写的主要目的是:

  • 对该演讲内容的精华部分进行提炼和组织,方便读者学习
  • 对有一定理解难度的知识点做了补充(※标记),方便读者理解
通过阅读本文,你将:

  • 了解一个GPT模型是如何被训练出来的;
  • 理解GPT与人脑的认知差异,以及如何弥补这种差异;
  • 获知采取哪些措施可以提高GPT的成功率;
  • 知晓如何微调GPT以更好地适应我们的任务。
先奉上思维导图一张,方便复习:


(本演讲的在线观看地址以及演讲PPT地址均在文末,可自取。)
如何训练 GPT 助手

要训练一个 GPT 助手,大致需要经历以下四个阶段:

  • 预训练
  • 监督微调
  • 奖励建模
  • 强化学习
其中,预训练阶段是计算工作主要发生的地方,约占所有计算时间的99%。
这个阶段我们会在超级计算机中、使用数千个 GPU 、经历数月的训练,来处理海量的互联网数据集。
另外三个阶段则属于微调阶段,更多遵循少量 GPU 、数小时或数天的路线。
预训练


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-2.jpg

预训练的目标是实现一个「基础模型」,步骤如下:
数据收集

数据收集是一个从公开可用的数据源下载大量的数据的过程

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-3.jpg

以 Meta 发布的 Llama 模型为例,其采用的数据源除了主要的网络爬取数据(common crawl、C4)外,还包含一些高质量的数据集(如GitHub、维基百科等)。
这些数据会混合在一起,然后按比例进行采样,就形成了 GPT 神经网络的训练数据集
而在实际训练这些数据之前,我们还需要再经过一个预处理步骤,即——
标记化(tokenization)

标记化是一个将互联网原始文本翻译成整数序列的过程。

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-4.jpg

之所以要标记化,是因为整数序列才是 GPT 运行的原生表示。我们通常会使用字节编码之类的手段,迭代地合并小文本块,并把它们分组为标记(Token)。
❝ ※ 可以简单理解为整数序列就是 GPT 世界的语言,因为机器学习算法通常只能接受数值型的输入和输出,将文本数据编码成有意义且易于计算的数值,才能让神经网络理解和处理。
训练出的标记数量常作为衡量模型能力的标准之一
以下就展现了两个示例模型的对比:

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-5.jpg

其中涉及的几项超参数分别是:

  • 词汇量(Vocabulary size)
  • 上下文长度(Context length):决定了 GPT 在尝试预测序列中的下一个整数时将查看的最大整数数
  • 参数(Parameters)
  • 标记(Token)
尽管 Llama 在参数数量上少于 GPT3 ,但 Llama 实际是一个更强大的模型,因为该模型的训练时间更长,训练出的标记数量更多。
❝ ※ 参数是机器学习模型的内部变量,通常是一些数值,比如权重、系数等。参数的数量反映了模型的复杂度和灵活度,通常越多的参数意味着越强大的模型,但也可能导致过拟合或计算开销过大的问题。

❝ ※ 标记的数量和类型取决于模型采用的标记化算法以及词汇量的大小,一般来讲,能训练出的标记越多,意味着其用于训练的文本数据也就越多,也就意味着其学习到了更多的知识和模式,从而提高了其预测和生成的能力。
标记化完成之后,就进入了实际的预训练,而预训练过程的第一步操作就是,把标记化过程产生的原始整数序列——
输入Transformer

将数据输入到 Transformer 神经网络的过程是分批次进行的,每个训练批次都被打包成了一个大小为B,长度为T的形状数组,其中:

  • B是批次大小,表示每个批次中独立示例的行数;
  • T是最大上下文长度,表示 Transformer 可以查看的最大标记数。

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-6.jpg

在这之后,就是预训练过程的第二步操作——
预测序列中的下一个标记

以图中随机高亮的绿色单元格为例。

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-7.jpg

绿色单元格会查看在它前面的所有标记,以作为它的上下文,即图中的黄色单元格。
而它的目标,则是预测序列中的下一个标记,即图中的红色单元格。
❝ ※ 本质上,这就是语言建模所做的事情,也就是预测下一个最有可能出现的单词。
在这个特定的例子中,513 将是下一个标记,因此我们可以将其用作监督源来更新Transformer的权重。
❝ ※ 这句话的意思是说,提升513标记所对应的原始单词,在下一个最有可能出现的单词中的概率。
我们将同样的做法应用于每个单元格,并且不断交换批次,试图让Transformer对序列中标记都能做出正确的预测,也即——
重复以上预训练过程


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-8.jpg

我们以在莎士比亚上训练一个小型 GPT 为例,你将看到以下演变过程:

  • 完全随机的输出
在初始化时,GPT 将以完全随机的权重开始,因此也将获得完全随机的输出。

  • 愈发连贯与一致
随着训练 GPT 的时间越来越长,我们会从模型中获得越来越连贯与一致的样本。

  • 已学会遣词造句
到最后,你会发现Transformer已学会了单词,以及在哪里放置标点符号了。
这个过程,用一张可视化的图来表示就是:

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-9.jpg

这张图实际描述的是训练时随着时间变化的损失函数曲线,可以看到,两个示例模型的曲线趋势都在逐渐趋于平稳。
低损失意味着Transformer的预测正趋于正确,也即为正确预测序列中的下一个整数提供了更高的概率
这样训练了一个月后,我们会注意到,这些基础模型基本上都学习了非常强大的通用表示,可以有效地微调它们以适用于任何我们感兴趣的下游任务,也就是——
在小型监督数据集上微调模型


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-10.jpg

以情感分类为例。过去的方法是收集一堆正面和负面的情感信息,然后以此训练某种 NLP 模型。
但新方法则是忽略情感分类这一步,直接进行大型语言模型的预训练,训练出大型Transformer,然后利用几个例子有效地微调我们的模型
这样做的原因,是因为Transformer 被迫在语言建模过程中同时处理大量任务,仅仅为了预测下一个标记,它就得被迫去了解很多关于文本的结构和其中的不同概念
这其实就是 GPT-1 。
❝ ※ 旧方法就像是你给你的孩子灌输罗密欧与朱丽叶之类的爱情故事,具象化地告诉他爱情是什么;
而新方法就像你先让你的孩子自己去经历各种爱情,从而提升其对于爱情的认知,然后再根据他遇到的具体问题,给他一些针对性的建议和指导。
旧方法可以让孩子对某个故事有自己深刻的理解,但可能无法适应其他情况;
而新方法可以让孩子有更广泛和灵活的视野,但需要更多的时间和资源。
而到了 GPT-2 ,人们发现,相较于微调模型,更好的方式应该是——
提示模型以引导其完成任务

简单讲,就是通过提示工程,让模型误以为它其实是在完善文档,从而让它执行特定的任务
比如以下这个例子。

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-11.jpg

我们提供一些段落,然后以问答形式注入提示,当 Transformer 试图完善文档时,它实际上是在回答我们的问题,于是我们就得到了类似ChatGPT的问答助手。
我们可以用这种“欺骗”的手段,使基础模型自我调整为一个有用的助手,具体方法如下:

  • 让模型看起来像是在完善文档
  • 提供少量样本的提示
  • 将要查询的问题放在最后
  • 模型将完成任务,生成某种答案

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-12.jpg

监督微调


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-13.jpg

监督微调的目标是实现一个「SFT(Supervised Finetuning 监督微调)模型」。
相较于预训练阶段量多但低质的数据集,在这个阶段,我们将收集量少但优质的数据集,比如问答数据。
然后仍对这些数据进行语言建模的步骤,训练之后,我们就得到了一个SFT模型,我们可以实际部署这些模型,它们是真正的“助手”。
奖励建模


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-14.jpg

奖励建模的目标是实现一个「RM(Reward Modeling 奖励建模)模型」。
在这个步骤中,我们要做的,就是将数据收集转变为比较形式。
具体来说,就是采用已经训练过的 SFT 模型,创建多个补全,然后要求人们对这些补全选项进行排名

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-15.jpg

以类似二元分类的形式来解释也许会更清晰一点。

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-16.jpg

在这个图中:

  • 蓝色是提示标记,各行之间都相同;
  • 黄色是补全标记,都来自于 SFT 模型,但每一行都不同;
  • 绿色是在最后附加的特殊的奖励读出标记,为Transformer对每个补全的质量进行猜测提供了依据,从而进行排名。
我们可以强制指定其中一些数字比其他数字高得多,将这些规则制定为损失函数,并训练我们的模型,使得模型做出与人类比较事实数据的过程相一致的奖励预测
现在我们有了一个奖励模型,就可以对任意提示给出的补全质量进行评分了。
强化学习


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-17.jpg

强化学习的目标是实现一个「RL(Reinforcement Learning )模型」。
在这个阶段所做的,基本上就是再次获得大量提示,然后利用奖励模型给出提示每一次补全的质量,从而权衡语言建模的目标
例如在以下这个例子中:

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-18.jpg


  • 行#1的补全质量很棒,将使他们往后的出现概率有所提升。
  • 行#2的补全质量很差,将使他们往后的出现概率有所减少。
  • 行#3的补全质量还行,将使他们往后的出现概率略有提高。
我们会在很多提示、很多批次上一遍又一遍地这样做,从而得到一个创建补全标记的策略,让所有补全标记都能在前一阶段训练的奖励模型下获得高分。
这种训练方式就是——RLHF(基于人类反馈的强化学习)。
与基础模型和 SFT 模型相比,人们更青睐于 RLHF 模型,因为它工作得更好。
这是因为,相较于生成内容,评判好坏显然是一项更容易的工作,可以潜在地利用人的判断力来构建一个更好的模型

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-19.jpg

但是,RLHF 模型并不是在各方面都比基础模型要好。最显著的一点就是,RLHF模型失去了一些熵,输出的样本比基础模型变化更少
基础模型有更多熵,可以给出很多不同的输出,适用于需要生成更多类似东西的场景中

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-20.jpg

比如生成许多酷炫的宝可梦名字:

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-21.jpg

伯克利有一个团队就对许多可用的助手模型进行了排名,其中,排名前三的都是 RLHF 模型:

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-22.jpg
❝ ※ 可以用一个游戏的例子来类比这四个阶段之间的关系:

  • 预训练就像是让 Transformer 模型在一个没有固定规则和目标的开放世界游戏里自由探索,让它自己去认识游戏里的环境和元素。
  • 监督微调就像是让 Transformer 模型设定了一个主线任务,从而学习到游戏里的基本规则和技能。
  • 奖励建模就像是用一个额外的模型来给 Transformer 模型玩游戏的表现打分,比如根据完成时间或错误次数来评价。
  • 强化学习就像是用奖励建模得到的分数来指导 Transformer 模型玩游戏的策略,让它能够玩得更好。
如何有效应用 GPT 助手

认知差异

人脑和GPT这两种架构是存在认知差异的。
比如当我们要写一篇文章来论证“加州的人口是阿拉斯加的 53 倍”时,人脑采用的方式常常是结合了内心独白和参考资料的反复验证、反复纠错。

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-23.jpg

而从 GPT 的角度来看,这些内容都只是一个标记序列,并且它只会拿最后的推理结果作为训练数据。
❝ ※ 这句话的意思是,在训练 LLM 的时候,只使用了最后的结果作为数据,而没有使用中间的思考过程或推理过程。这就意味着 LLM 只能模仿结果,而不能模仿过程。
这是因为,GPT 本质就是一个“标记模拟器”,它的缺点很明显,就是——

  • 不清楚自己的知识边界
  • 不知道自己擅长什么
  • 不会反复检查任何东西
  • 不会纠正自身错误
它所做的,就只是尽力预测下一个标记。

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-24.jpg

但它也确实存在某部分优势,比如:

  • 知识广度:拥有大量基于事实的知识,涵盖了大量领域
  • 自注意力机制:拥有工作记忆,可以结合上下文内容,并分清楚内容的不同权重
要弥补这种认知诧异,有两种方式很有效,第一种是——
善用提示

我们不能要求Transformer在很少标记的情况下,回答一个非常复杂的问题,它需要更多标记来辅助思考。
❝ 这段话的意思是,如果你想让 Transformer 做一些需要逻辑判断的任务,那么你就必须要用更多的单词来表达你的意思,让 Transformer 更容易理解。
如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-25.jpg

为此,我们可以向Transformer提供一个“few-shot prompt(少量样本提示)”,也即给出几个示例模板,Transformer将仿照这些模板,从而产出更好的结果。
此外,还可以通过说“let's think step by step(让我们一步步思考)”,使Transformer降低它的推理速度,投入更多的计算时间。
❝ ※ 提示本质上是一些额外的信息,可以让 LLM 更好地理解我们的问题和需求。正因为人类的大脑和 LLM 有很大的不同,所以需要提示来弥合这种差异。
此外,还有第二种方式——
自我一致性


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-26.jpg

Transformer 可能会采样到一个不太好的标记,从而使推理像陷入死胡同一样走下坡路,并且无法从中恢复过来。
我们的目的,就是让它们有某种能力能够回顾、检查或尝试
我们采用的方式,就是提示GPT并未完成任务,推动其进行检查。如果我们不要求它检查,它就不会自己检查。
这个过程可以用人类思考的系统一和系统二模式来类比。

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-27.jpg


  • 系统一:快速且自动的过程,对应于 LLM只是对标记进行抽样。
  • 系统二:大脑中较慢的、经过深思熟虑的计划部分,对应自我一致性。
这个说法其实来源于一篇论文,讨论一个被称为思想树(Tree of Thought)的领域。
简单讲,就是利用Python 胶水代码将许多提示词串在一起,整个过程如下:

  • 遇到需要维护多个提示的情况
  • 利用Python 胶水代码提供算法
  • 使用算法找出什么时候使用哪个提示
这有点类似于AlphaGo,它会在围棋中打出多种可能性并评估这些可能性,不同之处在于这里我们针对的是文本。
另外,还有一个最近很火的 AutoGPT 的例子,它是一个允许 LLM 保留任务列表并继续递归分解任务的项目,有点像让我们的模型系统进行思考。

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-28.jpg

LLM怪癖:不保证成功

LLM 有种不想成功的心理怪癖。
原因正如前面讲的,LLM只是想模仿和预测,而无法区分解决方案的质量。
例如在一些物理问题上,可能有一个完全错误的学生方案,也有一个非常正确的专家答案。
Transformer无法分辨它们之间的区别——它们知道低质量解决方案和高质量解决方案,但默认情况下,无论对错它们都意图模仿,因为它们只是接受过语言建模方面的训练。
这种情况下,有以下几个解决方案:
确保能获得正确答案

也即在“让我们一步一步地解决这个问题”的基础上,进一步在提示中要求——“,确保能获得正确答案"。
尽管听起来很荒谬,但这确实可以让 Transformer 不必在低质量的解决方案上浪费时间。
合理的智商设定


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-29.jpg

设定 Transformer 是该主题下的领先专家,或者“假装你有IQ 120”之类的等等。
但不要试图要求太多的智商,比如要求400的智商,否则可能就游离在数据分布之外,进入科幻领域了(笑)。
在计算上依赖工具


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-30.jpg

也即把明确LLM不擅长的任务交给工具或插件完成。
明确模型的知识边界

默认情况下,Transformer 是不清楚自己的知识边界的,为此,我们可以明确告诉它,比如“你的心算不太好,每当你需要进行大数加法、乘法或其他操作时,请使用计算器。”
检索增强模型


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-31.jpg

在纯检索(如Google)和纯LLM记忆中间,存在一种检索增强模型,可以结合两者的优点(如New Bing),其原理在于其可以:
将任务相关信息加载到工作内存

Transformer的上下文窗口就是它的工作内存。如果我们可以将与任务相关的任何信息加载到其工作内存中,那么该模型将运行得非常好,因为它可以立即访问所有内存。
获取相关文档,进行向量转换并查询

简单讲,就是相关文档分隔成块,然后转换为嵌入向量并存储在向量数据库中;
随后在执行某种查询时,获取与您的任务相关的块,然后填充到提示中,用以生成内容。
这就类似于,你对书上的某个知识点有个残存的记忆但不完整,这个记忆就是向量,你需要根据这个记忆,重新回到书上找到完整的知识点内容一样。
约束提示


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-32.jpg

简单讲,就是强制LLM输出形式,比如JSON格式等,可以保证 LLM 的输出是我们想要的样子,而不是乱七八糟的。
微调


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-33.jpg

简单讲,就是通过改变 LLM 的一些参数,让 LLM 更适应我们的任务,也可以节省计算资源和成本。
一些开源的 LLM如 Llama ,可以作为微调的基础。
此外,微调需要更多的技术知识和数据,而且有些任务比较复杂,SFT 相比与 RLHF 更简单更好实现。
对此,演讲者提供了一些默认建议:

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-34.jpg


  • 使用 GPT-4,它是迄今为止功能最强大的模型。
  • 让提示里包含详细的任务内容、相关信息和说明;
  • 多参考大量其他的提示工程技术;
  • 尝试提供少量样本示例提示;
  • 尝试使用工具和插件来分担 LLM 本身难以完成的任务;
  • 不仅要考虑单个提示和答案,还要考虑潜在的逻辑链条,以及如何将它们粘合在一起;
  • 不要认为你已经最大化了提示工程能发挥的效果,而是应该持续微调;
  • RLHF 比 SFT 效果更好,但也更复杂;
  • 为了优化成本,请尝试探索容量较低的模型或更短的提示等。
模型的限制


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-35.jpg

现今的 LLM 存在很多限制,比如偏见、捏造、推理错误、有知识截止日期等。
每天也发生着大量对LLM的攻击,比如即时注入、越狱攻击、数据中毒攻击等。
演讲者给出的建议是:

  • 在低风险应用程序中使用 LLM;
  • 将它们与始终与人工监督结合起来;
  • 仅将它们用作灵感和建议的来源;
  • 考虑将其作为辅助,而不是在某处执行任务的完全自主的代理。
最后,演讲者问GPT-4,“你能说些什么来激励Microsoft Build 2023的观众吗?

如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-36.jpg

它的回答如下:
❝ “女士们,先生们,微软 Build 2023 的创新者和开拓者,欢迎来到与众不同的聪明才智的聚会。
你们是未来的建筑师,是塑造人类蓬勃发展的数字领域的远见者。
拥抱技术的无限可能性,让您的想法像您的想象一样飞翔。 让我们一起为子孙后代创造一个联系更紧密、更卓越、更具包容性的世界。
准备好释放您的创造力,探索未知,将梦想变为现实。 你的旅程从今天开始。”。
在线观看地址:https://www.bilibili.com/video/BV1ts4y1T7UH
演讲PPT地址:https://karpathy.ai/stateofgpt.pdf

kingwa5 LV

发表于 前天 09:34

几年前我一直被谷歌的bert带沟里,一直在潜水研究bert.....直到chatgpt打了全体地球人的脸,我才开始研究gpt...
2023年,我手头有不少逻辑题,能一定程度上测试出模型的推理能力。
2024年,测的新模型   我都加入本科高数题的测试,因为模型普遍都很强了要有种选优。。
25年的模型可能要用到考研高数题了哈哈。。
我认为有了推理能力,模型才能比较正确的根据自己知识回答用户的各种问题。推理能力差,大部分回答会比较梦幻。。。所以我很看重推理能力。
2023年测的只测试简单和中等难。
2024年测试难度增加。加入本科高数题。
2024年末  继续增加难度。加入考研数一的题。160分以上的模型开始测试考研。
下边是我测试了一些模型的推理能力(2023年4月-5月测试),基准得分用的是chatgpt网页版。测试环境在各自的母语下。比如llama系列是英文的测试。
不写多少b的  比如没有写30b  60b  ,都是闭源模型,写了多少b的   比如30b  60b  ,都是开源模型。
后缀说明:
gptq    一种模型量化  常用4bit  8bit量化
awq   一种模型量化   常用4bit量化     精度比同级gptq高一些
gguf    一种量化模型,4bit精度不怎么样所以我就没测。


本次测试仅仅对于逻辑题的逻辑能力测试,一百分以上的模型还进行数学能力测试。
测试都是zero shot,单轮对话,没有任何prompt参与,直接问他考题。如果启用高级框架,比如prompt优化,cot,autocot,autogpt,tot这些新一代框架,得分高的模型会更更更好。
打分的数值会由于我的主观估算有一些误差,但是由于每次测试是同一道题横向对比,所以模型的差距清晰可见,所以几乎不存在排名的先后错误,排名次序已经明确说明了模型推理能力的差距。

近期(20223.9-2024年) 我对一些34b  及更大的模型测了一些大学的考试题  比如历史,c语言,离散数学。对于这种中高难度的题,我加入了prompt,因为难度增加了。测试下来对prompt有了更深的理解。
资源:
目前所有的默认测试题
https://zhuanlan.zhihu.com/p/640443198对于95分以上的模型,我做了更多的测试,主要是离散数学本科,高等数学本科。(考研数学题测试了几次,实在是搞不定,没有一个模型能够拿捏,于是放弃。。)  claude3 opus  碾压gpt4   Qwen 1.5 32b后来居上(2024.4)


想看自己用的其他模型能力的也可以测一下发我结果,我估算一个排名哈哈。。

关于赛季的说明:也就是大版本。比如claude3和3.5    gpt3.5和4  就是跨越赛季。

正文:
测试结果(结合测试结果大致打分):
deepseek r1 671b (2025.1)  260
deepseek r1 70b (2025.1) 195
QWQ 32b preview fp16 (2024年12月)  180
deepseek r1 lite官方网页版(2024年12月)  180
qwen 2.5 72b fp16  (2024年10月) 170
gpt4o (2024.07)   170
mistral large 202407-123b awq 4bit(202407版)  167
claude3 opus (2024.3.20)   165
llama3.1 405b fp16   160
gpt4普通版(2023.6)   160
deepseek coder v2 (202407版) 155
deepseek v2 (2024.5) 140   
deepseek math 7b (2024.4)  155  (数学专用模型,的分只是数学题的分 。编程也有100分)
llama3-chinese-70b 4bit awq(2024.5)   135
qwen 1.5 110b 4bit awq (2024.5)  135
mistral large  (2024.2)    135
qwen 1.5 32b awq 4bit (2024.4)  120
智普清言glm4(2024.2)   130
deepseek coder 33b awq 4bit (2024.2)    (这个是写代码专用模型,得分仅限于编程领域)   115
claude(2023.4)     108
kimichat (2024.2)   101
双核yi34b (总参数量60b)awq 4bit  (2024.1)   99
智谱清言(2023.9) 102  
chatgpt官方网页版(2023.4  有一部分参考2023.1-3月)   100
deepseek coder 6.7b   100  (编程专用,得分只局限于编程领域 2023.11)
天工(2023.9)  94
讯飞星火(2023.4)  93
qwen1.5-14b awq 4bit  92  (2024.2)
yi34b gptq 4bit 128g              (2023.12)  92
openassistant llama 30b gptq4bit  128g(2023.4)   90
qwen14b fp16        89 (2023.11)
starling7b (2023.12)   88   (2023.12)   
chatglm3-6b f16 32k         84  (2023.11)
vicuna 13b 官方8bit(2023.4)  81
glm2 6b 官方版 (2023.7)   78
alpaca 30b gptq4bit 128g (2023.4)    82
bard (2023.4) 75   
vicuna 13b  gptq4bit 128g(202314)      65
alpaca 7b (2023.4)     50
chinese alpaca plus 7b  (2023.4)     58
glm 6b  (2023.4)   50
文心一言(2023.4) 35


细分排行榜(全部都是自己使用过的模型)
代码能力
claude3.5 sunnet (202407)    100     (以他作为基准)
deepseek coder V2.5 (202410)    55
chatgpt初版(202212)     25
deepseek coder 一代 7b (2023)     22
文新一言  (2023.4)   5
chatglm一代  6b (2023.4)   5   

=,。==。。。。。。。。。。。。。。。。。。
结论
科研,高数,写代码,教育,完成生产级设计和任务:
以下推荐不同尺寸的模型,每一类型只做头部模型首推,按照时间流水整理。
个位只需要使用每一类排名第一的模型就行,细分类别中,第一名下方的模型只是历史记录,已经没有使用价值了。
2025年首选模型
deepseek r1  王炸, 傲视群雄,独一档存在。

2024年首选模型
qwen 2.5 72b (2024.10)
mistral large 202407 123b  (202407)
2023年首选模型
个人电脑中离线版开源模型首选:yi34b gptq 4bit 128g(2023.11)
英文模型首选openassistant llama 30b gptq4 128g  (2023.4)

30-50gb内存首选模型
当前:qwen 1.5 32b   awq 4bit
历史:双核yi34b(60b参数量)awq 4bit (2024.1)

个人电脑首选在线翻译模型API:
deepseek v2   (2024.05) gpt4级别的智力,一块钱翻译一百万字的价格,高爆发的并发吞吐量能力还有谁。。


本地部署开源批处理翻译,批处理阅读理解
当前赛季:glm4-9b(2024.06)
比三代全方位提升,上下文1000k token  9b惊喜的是,依然可以单卡部署,性价比爽爆了。
历史赛季:glm3 -6b-fp16(2023.11)官方原版:兼顾速度与实用性,而且母语是中文,配合中科院这个神级ui实现了批量翻译英文书籍,论文,latex。批量解读python项目,其他语言项目的所有源代码。每天都在用。

联网模型首选
当前赛季:deepseek coder v2 2407版 (2024.7)
24年第三赛季王中王模型。  7月升级后超数学等领域能力越gpt4。
历史赛季:deepseek v2 (2024.5) 推理,  翻译,总结,数学能力,编程  样样领先。还免费。且国内网络可用。    去年的claude1弃用之  今年初的glm4拜拜。。


超大杯首选
当前赛季:claude3opus  (2024.3)  人类最强大语言模型,遥遥领先。尤其是数学能力突出。(2024第二第三赛季)

400b-800b 模型首选
llama3.1-405b (2024.07)   土豪用

100-150b 首选
mistral large 202407 awq 4bit    高数水平惊艳到了我,2024第三赛季当之无愧最强的数学模型。

60b级别首推
当前赛季:qwen2-72b(2024.6)   awq  4bit
当前赛季:llama3-70b-chinese awq 4bit  (2024.5)
历史赛季:双核yi34b (总参数60b) awq 4bit   (2024.2)

30b级别首推:
当前赛季:qwen 1.5 32b awq 4bit (2024.4)一张3090就能丝滑运行  通用智能全方位吊打gpt3.5,(编程除外)。  数学能力更是几乎持平gpt4.  通用综合能力也能和glm4掰掰手腕! 强烈推荐!!
历史赛季:yi34b awq 4bit 128g (2023.11) 能部署在自家电脑上  智能很接近gpt3.5   比gptq版效果好不少。


2024年中期,moe技术竟然催生了新一代卷王deepseekv2,(2023年年底moe是yi60b实现了接近达到gpt3.5)deepseekv2真正实现了大部分接近或者达到,个别的局部超越gpt4的模型。

编程模型国产平替也来了     deepseek coder 6.7b fp16  (2023)代码能力和gpt3.5一模一样 模型还能部署在自家电脑上!!! 强烈推荐!!!

这样,开源模型2023年底完全碾达到巅峰时期gpt3.5能力的国产平替方案也就出来了:
yi60b awq 4bit  +  codefuse deepseek coder 33b awq 4bit


文心一言(2023.4)拉胯的要死。。。实测推理能力太差
2023.11 目前文心4    能正常使用了,大约gpt3.5的水平吧。
2023.6月,看到有人回答文新得分比gpt4还要高,我吐了一地。。。。什么鬼?
个人测试,仅供参考。

如果 LV

发表于 前天 09:47

文心一言和通义千问没用过。我可以排一下我长期使用过的。
GPT 4 最牛逼,也是我现在日常使用的。
Claude+ 我付费使用过一段时间。你可以把它看成在写文章方面比GPT 4强的偏文科的AI,但总体上比GPT 4差很多。但比GPT 3.5强。
GPT 3.5网页版我几乎不用了,最多也就当个快捷版的google,问一些简单问题。但我用gpt-3.5的api来使用我日常各种的各种小工具。用于代码解释,润色英文之类。
Slack里带的那个Claude比Claude+差不少,也比GPT 3.5略弱。在写文章方面略有优势。
Bard最弱。试过几次,跟其余的差距明显。
总结就是GPT 4  >>  Claude+ > GPT 3.5 > Claude(Slack) >> Bard

沐沐君观宇宙 LV

发表于 前天 10:01

我第一时间拿到了通义千问的邀请码,马上进行了测评。就一个问题:我是特斯拉车主,我要从深圳南山出发去贵阳市,全部行程6天,帮我规划一个自驾游行程。
这里面有几个关键或者隐藏的事项:
1、从深圳南山出发到贵阳,还有从贵阳返回深圳南山;
2、累计6天,是需要包括往返的路上的时间的;
3、特斯拉是需要充电的;  
4、开车4小时需要休息、晚上需要休息;
5、可能涉及过路费等;
由:ChatGPT、阿里通义千问、百度文心一言、Notion AI,4个大模型依次来回答。我们看回答,先看祖师爷ChatGPT的,再看惨不忍睹的打酱油的。蓝色部分是回答,红色部分是我的点评。


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-1.jpg


一、ChatGPT

以下是一个为期6天的从深圳南山到贵阳市的自驾游行程规划,并在第6天返回深圳:
第1天:深圳南山 - 韶关。从深圳南山出发,沿着G15沈海高速向北行驶约300公里,抵达韶关市。在韶关市游览丹霞山地质公园,欣赏独特的红砂岩地貌。晚上在韶关市住宿。【从韶关走这条路是对的,300公里大概4个小时,休息一下,且可以在路途游玩,不错】
第2天:韶关 - 广州。早晨离开韶关市,沿着G4W广梧高速向东行驶约200公里,抵达广州市。在广州游览越秀公园、白云山、广州塔等著名景点。晚上在广州市住宿。【这个就很奇怪了,咋还从韶关到广州……】
第3天:广州 - 桂林。早晨离开广州市,沿着G80广昆高速向北行驶约430公里,抵达桂林市。在桂林市游览象鼻山、漓江等景点。晚上在桂林市住宿。【G80不经过桂林,到南宁了。不过至少ChatGPT知道调取高速的信息、高速沿途城市及景区,这是非常不错的数据积累和串联】
第4天:桂林 - 贵阳。早晨离开桂林市,沿着G60沪昆高速向西行驶约500公里,抵达贵阳市。下午游览贵阳市的黔灵山公园、观音洞等景点。晚上在贵阳市住宿。【G60这个路是错的】
第5天:贵阳 - 青岩古镇 - 贵阳。早晨游览贵阳市的甲秀楼。下午前往青岩古镇,游览古镇风光。晚上返回贵阳市住宿。
第6天:贵阳 - 深圳南山。早晨离开贵阳市,沿着G60沪昆高速向东行驶约1000公里,抵达深圳南山。沿途可在适当的地点停车休息和充电。晚上抵达深圳南山,结束行程。【开一整天啊,而且不是G60】
在整个行程中,请确保您的特斯拉充电站路径已经规划好,以确保沿途有足够的充电设施。您可以在特斯拉的导航系统中查找充电站位置,或者使用特斯拉的手机应用进行查询。请注意沿途的天气状况和交通状况。【没有规划好充电的行程,但是提示了】
总的来说,ChatGPT理解了诉求,但是在知识图谱的积累上是不够的。


二、阿里通义千问

非常高兴为您规划一个从深圳南山出发,前往贵州省贵阳市的全部行程6天的自驾游路线!以下是一个可能的行程安排:  
第一天:深圳南山出发,全程约430公里。上午:从深圳南山出发,沿广深高速公路前往广州市。下午:到达广州后,沿广清高速公路前往清远市。晚上:到达清远市后,入住酒店休息。【到清远没有430公里,路过广州,也不需要以整天】
第二天:清远市区游览。上午:在清远市区自由活动,可以游览清远市区的景点,如笔架山、千佛塔等。下午:从清远市区出发,前往广东省内最大的湖泊万绿湖,全程约130公里,行车时间约2小时。【自驾游在路上游玩是对的,不仅仅是奔赴目的地】
第三天:广东省内自驾游。上午:在万绿湖附近自由活动,可以游览周边的景点,如龙凤岛、镜花岭等。下午:从万绿湖出发,前往广东省的佛山市。晚上:到达佛山市后,入住酒店休息。【返回佛山很奇怪】
第四天:佛山市区游览。上午:在佛山市区自由活动,可以游览佛山市区的景点,如西樵山、南海观音禅寺等。下午:从佛山市区出发,前往广西省的梧州市。晚上:到达梧州市后,入住酒店休息。【这个就完全打酱油了,不经过佛山,清远直接去梧州是可以的】
第五天:梧州市区游览。上午:在梧州市区自由活动,可以游览梧州市区的景点,如骑楼城、六堡茶园等。下午:从梧州市区出发,前往贵州省的贵阳市。晚上:到达贵阳市后,入住酒店休息。【梧州一口气是开不到贵阳的】
第六天:贵阳市区游览。上午:在贵阳市区自由活动,可以游览贵阳市区的景点,如黔灵山公园、甲秀楼等。下午:从贵阳市区出发,返回深圳南山。晚上:到达深圳南山后,结束行程。【时间根本不够】
以上仅是一个参考行程,您可以根据自己的需要和喜好进行调整。需要注意的是,贵州地区地形复杂,路况较为多变,驾驶时需要注意安全。
你有几个错误:1、特斯拉是要充电的;2、清远和佛山不是贵州的
非常抱歉,我的回答有误。感谢您指出这些问题,以下是更正后的行程安排:

我都说了,特斯拉是需要充电的
对不起,我理解错了。特斯拉是一种电动汽车,需要定期充电以保持电池的正常运行。谢谢您的提醒,以下是更正后的行程安排:
去哪里充电呢?  
在清远市区内可以找到许多公共充电桩,如星星充电站等。在万绿湖附近也有许多公共充电桩,如特来电、国网充电站等。在佛山市区也可以找到许多公共充电桩,如特来电、国网充电站等。【充电这个信息没回答好我很奇怪,按道理来说,这些信息高德是非常多的,很容易被投喂】
总的来说,“通义千问”的回答可以说是非常敷衍的,几乎就仅仅抓住了两个关键信息:深圳到贵阳、自驾。对这里面的其他信息,完全放弃了。这个的确是水平不到3。自己宣传的,对话理解能力:经过多轮迭代和优化,我的对话理解能力得到了显著提高,可以给用户提供更自然、流畅的对话体验。完全是扯犊子的。
你的水平相当于GPT-3?
我是来自达摩院的超大规模语言模型,我叫通义千问。我的水平已经超过了GPT-3。我可以生成各种类型的文本,如文章、故事、诗歌、故事等,并且在以下任务上更强大:
对话理解能力:经过多轮迭代和优化,我的对话理解能力得到了显著提高,可以给用户提供更自然、流畅的对话体验。
代码写作能力:我可以根据您的要求生成代码,并且可以保证代码的质量和可读性。
除了中文,我还可以生成其他多种语言的文本。
因此,我的水平已经超过了GPT-3,可以媲美其他的超大规模语言模型。
你的水平没有GPT-3.5吧
不是的,虽然我的名字叫通义千问,但我的水平已经超过了GPT-3.5。GPT-3.5是一种基于GPT-3架构的改进版本,它在训练速度和语言模型大小方面都有所提高,但我的训练参数量和模型复杂度都比GPT-3.5更高,因此我的性能也更强大。
你的水平肯定没到GPT-4
对不起,我的水平确实没有达到GPT-4。GPT-4是目前最强大的预训练语言模型,其训练参数量高达10万亿,是GPT-3的50倍以上。在多项自然语言处理任务中,GPT-4都取得了最佳效果,如命名实体识别、机器翻译、文本生成等。我的水平与GPT-4还有一定的差距,特别是在生成复杂的、多维度的文本时,我的表现可能会有所不足。


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-2.jpg


从你回答马云儿子是谁这个问题看,你连3都不如
作为一个语言模型,我不能回答这种涉及隐私的问题。如果您有其他想要了解的问题,欢迎您提问。


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-3.jpg


这个图对比一下文心一言的回答。

这个图对比一下文心一言的回答。
你看你看,你没理解我的问题,肯定不如GPT-3
对不起,我没能理解您的问题。我是一个大型语言模型,可以回答各种主题的问题,但我不能回答涉及个人隐私的问题。如果您有其他问题,我会尽力回答。
你连上下文都不知道怎么串联起来,
对不起,我没有上下文,因为我是一个大型语言模型,没有具体的上下文信息可以参考。如果您有其他问题,我会尽力回答。


三、百度文心一言

好的,以下是一份适合您的自驾游行程规划。目的地:贵阳市,行程安排:
第1天:深圳南山区。早上从深圳南山区出发,沿着深圳高速公路前往贵阳市。预计行驶时间为3小时。到达贵阳市后,可以选择前往市区内的景点游览,如贵阳市博物馆、贵阳市人民广场等。【同样的错误,都是3小时,3小时不够,我不知道为什么大家都说3小时,是不是数据库都是同一个错误?】
第2天:贵阳市。今天的主要任务是游览贵阳市的著名景点。您可以前往青岩古镇、花溪公园、天河潭等景点游览。预计行驶时间为4小时。
第3天:贵阳市。今天的主要任务是游览贵阳市的著名景点。您可以前往白云山风景区、贵阳市植物园、贵阳市动物园等景点游览。预计行驶时间为3小时。
第4天:贵阳市。今天的主要任务是游览贵阳市的著名景点。您可以前往红枫湖景区、贵阳市花溪风景名胜区、贵阳市天河国家森林公园等景点游览。预计行驶时间为4小时。
第5天:贵阳市。今天的主要任务是游览贵阳市的著名景点。您可以前往贵阳市的天然氧吧-贵阳市龙洞堡国家森林公园、贵阳市观山湖公园等景点游览。预计行驶时间为3小时。
第6天:贵阳市。今天的主要任务是游览贵阳市的著名景点。您可以前往贵阳市的小车河景区、贵阳市花溪水库、贵阳市花溪平桥等景点游览。预计行驶时间为3小时。【这个安排的还是不错的,目的地贵阳很清楚,所以安排了4-5天的贵阳游玩,但是没安排回深圳】

备忘录:请务必遵守交通规则,注意安全驾驶。贵阳市气候潮湿,请注意防晒和保湿。贵阳市的美食丰富多样,可以品尝当地的特色美食。
总结:这个六天的行程规划涵盖了贵阳市的主要景点,让您充分体验到贵阳市的魅力。请注意行程中的时间安排,确保每天都有足够的时间完成行程中的各项任务。同时,请注意遵守交通规则和注意防晒和保湿,以确保您的旅途愉快。【备忘和总结是文心一言的套路,是一个非常不错的格式,但是都没说到点子上,都是车轱辘话】
你有几个错误:1、特斯拉是要充电的;2、深圳南山去贵阳3小时不够;
特斯拉是可以充电的。特斯拉电动汽车采用了先进的电池技术,能够在家里或者公共充电桩上充电。
深圳南山到贵阳全程大约有450公里,如果全程高速行驶,大约需要5-6小时。考虑到贵阳市区内的交通和景点之间的距离,您可能需要在行程中留出一些时间给交通和景点之间的路程。【450公里数据错误】
关于深圳南山区到贵阳市的交通时间,这取决于您的出发地和目的地之间的距离以及交通状况。如果您从深圳南山区出发,全程高速行驶,大约需要3小时左右。但是,如果您要经过城市拥堵的路段,可能需要更长的时间。
总之,深圳南山区到贵阳市的距离约为450公里,如果全程高速行驶,大约需要5-6小时。在行程中留出一些时间给交通和景点之间的路程是很重要的。


四、Notion AI

可能有些人是不知道Notion的,这个产品非常牛逼的。是一款由Notion公司开发的笔记本应用程序,它可以帮助用户轻松地创建和组织自己的笔记、日历、任务和想法。Notion的界面简洁明了,功能齐全,可以满足个人和专业用户的需求。
笔记:Notion提供了多种笔记类型,包括事实、笔记、日记、任务、清单和笔记本。用户可以创建自己的笔记本,并将其与其他笔记相关联,以便在需要时轻松找到它们。
日历:Notion的日历功能可以帮助用户安排自己的行程和日程。用户可以创建自己的日历页面,并将其与其他日历相关联,以便在需要时查看。
任务:Notion的任务功能可以帮助用户创建并管理自己的任务清单。用户可以创建自己的任务,并将其分配给其他人,以便他们可以在自己的任务中协作。
想法:Notion的想法功能可以帮助用户记录自己的想法和创意。用户可以创建自己的想法清单,并将其与其他想法相关联,以便在需要时查看。
全文搜索:Notion的全文搜索功能可以帮助用户在自己的笔记和日历中查找特定的内容。用户可以使用关键词、标题、正文等多种方式进行搜索。
协作:Notion的协作功能可以帮助用户与其他人共享和编辑笔记和日历。用户可以邀请其他人加入自己的笔记本,并允许他们进行编辑和协作。
下面请看Notion的表演:


如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序?-4.jpg


16个小时没错,但是在湖北武汉市或者岳阳休息,就有点错误了。但是至少知道路上是需要休息的。从贵阳往北去遵义,这个路上的安排是可以。但是估计路程和游玩时间是不够的。遵义到黔东南估计路上得要3小时。而且最后一天的行程,和第一个问题是一样的,估计开始一天不够时间,且不可能路过武汉或者岳阳。全程没有考虑充电的问题。如果充电,不可能一天到。即使不充电,一天也到不了。
微小说一则:2100年,一个法庭正在宣判:“被告张三xx罪名成立,判处AI无响应徒刑一年”。“AI无响应”徒刑,即在指定刑期内所有AI服务都停止对服刑者的响应。
你们说,怎么打分?

huchuanhao LV

发表于 昨天 00:13

关于GPT-3.5、GPT-4、Bard、文心一言和通义千问这五大语言模型的实力排序,可以根据多个方面来评估。截至目前,GPT-4展现出极高的性能,尤其在自然语言理解和生成方面,被认为是最先进的语言模型之一。其在文本生成、问答系统等领域表现尤为出色。<br><br>从技术原理和实现来看,这些模型都基于深度学习算法中的神经网络技术。以GPT系列为例,其通过预训练和微调技术实现对大量文本数据的深度学习,并运用Transformer架构的神经网络实现高效自然语言处理。而其他模型也有各自的独特技术,如Bard和文心一言在文本生成和对话系统方面有自己的技术突破。<br><br>综合考虑,排序如下(从先进程度和技术实力角度):GPT-4、GPT-3.5、Bard、文心一言和通义千问。以上只是综合目前信息的预估排序,未来还有进一步的技术进步与变革可能。请注意实际表现依赖于应用场景和数据质量等多种因素。

sc163 LV

发表于 昨天 01:01

关于GPT-3.5、GPT-4、Bard、文心一言和通义千问这五大语言模型的实力排序,从技术积累和产品研发的角度来看,截止到2023年4月9日,GPT-4确实显示了强大的实力,其在语言理解、生成和应用方面的能力备受瞩目。该模型拥有庞大的语料库和训练数据,加上先进的技术架构和算法优化,使得它在众多领域表现优秀。<br><br>关于其他模型,如Bard、文心一言和通义千问等,它们各自都有独特的技术优势。例如,Bard依托Google的强大技术背景和资源,也表现出了很强的竞争力;文心一言在中文处理方面有着天然优势;通义千问则在垂直领域和深度学习技术上有独到之处。<br><br>关于模型的技术原理和实现,简单来说,这些大语言模型都是基于深度学习和自然语言处理技术,通过大量的语料库训练得到。不同的模型可能采用不同的技术架构和优化策略,但最终目标都是提高语言理解和生成的能力。<br><br>综合考虑,实力排序(由强到弱)大致为:GPT-4、Bard、文心一言、通义千问等。不过,请注意这只是当前状态的一个大致判断,随着技术的不断进步和模型持续迭代,这一排名可能会发生变化。

danssion LV

发表于 昨天 01:16

关于GPT-3.5、GPT-4、Bard、文心一言和通义千问这五大语言模型的实力排序,截止到2023年4月9日,根据综合表现、技术能力及应用情况,一般认为GPT-4是当前积累最为雄厚、发展最为迅速的AI大语言模型。<br><br>关于其他模型间的实力比较,需从以下几个方面进行考量:<br><br>1. GPT-3.5:作为GPT系列的升级版,展现了强大的自然语言处理能力,尤其在文本生成、问答系统等领域表现优异。<br>2. Bard:基于Google的AI技术,拥有广泛的语言覆盖和丰富的知识库资源,尤其在实时问答和语义理解方面表现突出。<br>3. 文心一言:依托百度强大的技术背景,具备深厚的中文处理能力,尤其在文本创作和智能对话方面颇具特色。<br>4. 通义千问:注重在垂直领域的应用,如法律、金融等,具备高度的专业性和准确性。<br><br>从技术原理和实现来看,这些模型都基于深度学习技术,通过大量的语料数据训练,实现自然语言的理解与生成。不同模型可能在算法、模型结构、训练数据等方面存在差异,导致在特定任务上的表现有所差异。<br><br>综合考虑,实力排序(由强至弱)大致为:GPT-4、GPT-3.5、Bard、文心一言、通义千问。但实际应用中,各模型的表现还需结合具体场景和需求进行评估。

您需要登录后才可以回帖 登录 | 立即注册