高院士说的确实没错,比如昨天爆出来的大模型分不清9.11和9.9谁大,就足以说明大模型的智商目前处于“薛定谔”的水平,十分不稳定。
不过我觉得倒是也不用这么绝望,毕竟现在还处于大模型发展的初级阶段,大模型们一直在努力进步着。
比如,之前蝉联了两个月开源模型榜首的Qwen2模型,昨天终于出了技术报告。
技术报告神马的,我已经期待了很长时间,毕竟这是我们普通人了解一个大模型的训练数据、模型架构、方法改进的最直接方式。
仔细阅读Qwen2的技术报告可以发现,在大模型进步的路上,Qwen一直在努力。
根据报告来看,模型首先从架构上进行了改进。
目前的主流大模型们一般都以Transformer作为基本架构,使用Multi-head Attention机制,其中每个attention头都需要计算query、key、value这三个矩阵。query矩阵每次都需要重新计算,但key和value矩阵在推理时是不变的。
传统的multi-head attention中,每个头都有独立的key和value矩阵,由于这些矩阵需要缓存起来,所以会消耗大量内存。而且在推理时,需要对每个头分别计算attention,推理速度较慢。
Qwen2使用Grouped Query Attention (GQA)进行了优化。这种机制将多个query头组合在一起,共享同一组key和value矩阵。这样一来,需要缓存的key和value矩阵就大大减少了,节省了内存占用。同时,推理时可以对多个query一起计算attention,显著提高了计算效率。
此外,对于长文本的处理效果欠佳,一直是困扰大模型们的一个重要问题,因为它们的注意力机制(attention)很难覆盖太长的上下文。
为了解决这个问题,Qwen2引入了一种叫做“双块注意力”(Dual Chunk Attention, DCA)的技术。
DCA的工作原理是:它会把很长的输入序列切割成若干个“块”(chunk)。如果输入不太长,只需一个块就能处理,那么DCA就等同于普通的注意力机制。但如果输入很长,需要很多个块来处理时,DCA就会发挥作用。它不仅能捕捉每个块内部单词之间的关系,还能捕捉不同块之间单词的相对位置关系。就像语文老师教我们读一篇长文章时,不仅要理解每个自然段的内容,还要弄清楚各个自然段之间的逻辑关系。
但是,仅仅切块还不够。当输入非常长时,后面块中的单词就很难受到前面块的影响。为了解决这个问题,Qwen2使用了一种叫做“YARN”的技术,它会调整注意力机制关注不同位置的程度,使得后面的单词也能合理的考虑到前面的上下文。
在这些改进技术的加持下,Qwen2对于长文的理解有非常不错的表现,尤其是Qwen2-72B-Instruct的表现最佳,在整个128K token的上下文长度范围内,从文档的任何深度均能准确的检索事实(图中全绿色)。
除了优化模型架构外,Qwen2还大幅增加了预训练数据的数量和质量,尤其是编程和数学相关的语料,均进行了显著扩充。
也就是说,Qwen2在预训练阶段接触到了更多样化的编程语言、代码库、算法实现、数学概念、公式、解题步骤等,就像一个努力学习的学生一样,显著扩充的知识库,让Qwen2在编程和数学两个领域打下了非常扎实的基础。
取得这样的SOTA成绩,除了扩展语料库外,还得益于Qwen2的指令微调(Instruction Tuning)步骤。
在这个阶段,研究人员会精心设计一系列任务,让模型学习如何根据指令生成符合要求的输出。为了提升Qwen2的编程和数学能力,这些任务中可能会专门包含大量相关的指令,比如:
- 根据用户描述的需求,编写特定语言的代码片段;
- 分析给定的代码,解释其功能,并提出优化建议;
- 根据题目要求,提供解题思路,并给出详细的解题步骤;
- 解释数学概念,证明数学定理,总结数学公式的应用场景……
通过在指令微调阶段加入这些针对性的任务,Qwen2也就学会了如何将编程和数学知识与人类的实际需求结合起来。
它不再只是单纯的“背下来”编程语法和数学公式,而是真正理解了人类对编程助手和数学助手的期望:能够听懂需求,给出切中要害的解决方案,并以清晰易懂的方式呈现出来。
正是得益于这些优化和改进,在前一段时间的“大模型高考”中,Qwen2才能在新课标I卷的语数外三门考试中取得超越GPT-4o的第一名的好成绩:
除了专注于优化大预言模型外,Qwen还在多模态实现方面做出了很多努力。
基于语言模型,通过在输入端接入声音编码器或视觉编码器,Qwen-Audio和 Qwen-VL分别实现了语音-文本、图像-文本的多模态建模。这种统一的架构一方面能够最大限度的继承语言模型的知识和能力,另一方面也易于适配和扩展到更多模态。
随着Qwen大幅降低token价格并提供多款开源模型,中小企业、初创公司以及像我这样的个人研究者,使用api和构建agent变得更加容易。无需投入海量的资金和算力从头训练大模型,就可以基于Qwen2进行二次开发,或者直接将其应用于实际的产品和服务中。
Qwen在多模态方面的探索也十分有意义,未来语音助手、智能客服、视觉搜索等跨模态交互场景有望借助Qwen-Audio、Qwen-VL等模型实现全面升级。毕竟拥有一个聪明的“大脑”,这些智能客服才能提供更好的服务。
真的不必带着有色眼镜看国产大模型,多关注一下,多了解一些,就会发现这些不用翻墙的大模型,很香!
而且也不用过于苛责目前大模型已经犯下或正在犯下的错误,无论是国外还是国内的公司,都在为大模型的“进步”积极努力着,从基本架构到训练数据再到模态扩展,大模型们正在“一天一个脚印”的前进着,我认为我们应该有信心,大模型的未来是绝对可期的。 |
|