如何看待中国工程院院士高文提出的「今天的人工智能处于低水平智能，仅存中水平假象」的观点？

在2024世界人工智能大会（WAIC 2024）上，中国工程院院士高文提出，当前的人工智能技术尽管表面看起来相当先进，但实际上仍处于低水平智能阶段，其中所谓的“中水平智能”更多是一种表象。我们该如何理解高文院士的这一论断？它对于未来人工智能的研究和发展有何启示？

发表于 2025-4-7 14:30:27

我去网上找了一下高院士的这篇演讲，高院士的演讲题目是《新一代人工智能发展的安全问题》，开篇其实就明确了态度，他认为“从技术的角度看，人工智能必须足够好”，否则就是不安全的。那怎么才是“足够好”呢？我们一起来看一看。
怎样评价智能的水平

高院士将人工智能的能力划分为低、中、高三个不同的等级。低等级的智能是“死记硬背”，也就是主要通过记忆来学习。中级智能是“举一反三”，指的是利用有限的显式知识，通过类比推理来获取相关的隐含知识，也就是用已知推理未知。而最高级的智能，则是利用极少量的线索来构建全新的知识和理论体系，类似于牛顿的力学原理和爱因斯坦的相对论那样开创性的成就。
这种分类方法的核心是“知识”，当下的人工智能由于依赖深度神经网络的数据训练，它们的模型都是基于统计的模型，是基于大量数据的“死记硬背”，它们生成的内容不可解释，所以算不上真正的知识。这就好像是在说，AI能背出圆周率小数点后几万位，却不会算数。这两天知乎上有个关于AI分不清9.11和9.9哪个大的问题，也是类似的观点。
这当然是缺陷，而且对于AI安全来说是必须要克服的障碍，高院士指出这一点也是希望引起大家的重视。毕竟，诸如对抗样本攻击、算法后门攻击、模型窃取攻击等新型攻击技术也在快速涌现，我们确实需要关注。但我觉得，“因噎废食”大可不必，即便是单项的低水平智能也可以很有效，比如编程。而关于AI是否具备了中水平智能，我们还需要凑近些观察。
为什么低水平智能会有中水平的涌现？

高院士认为这是一种假象，相当于“熟读唐诗三百首，不会作诗也会吟”，属于熟能生巧的范畴。他提供了一个新的视角来解释智能的涌现，即利用多种语言的数据训练可能会引发一些对某些用户来说很陌生，但对其他语言的使用者而言却很平常的智能行为。或许是因为时间的关系，高院士并没有给出具体的例子，我试着解释一下这背后的原理：语言模型通过将单词映射为词向量进行处理，使得意义相近的词在向量空间内彼此接近，从而允许模型通过向量运算来推断词与词之间的联系。然而，基本的词向量方法并不能捕捉到单词的多种含义，例如“bill”既可以是账单，也可以是法案。因此，语言模型必须依赖上下文，用不同的向量表示同一个词的不同含义。这些向量分布在多层神经网络之中，每一层都在帮助明确词义并预测随后可能出现的词汇。

如何看待中国工程院院士高文提出的「今天的人工智能处于低水平智能，仅存中水平假象」的观点？-1.jpg

单词在向量空间的映射

是不是听起来就很复杂，想象一下，如果是多语言呢？例如，某些习语或俚语在一种语言中可能很常见，但在另一种语言中则可能完全不存在或有不同的表达方式，在多语言训练的过程中，模型的泛化能力可能会让它学习到跨语言的创新表达方式，这些表达方式可能在单一语言的训练中难以出现，它可能会给使用者带来惊喜，看起来像是“举一反三”，比如，西班牙俚语“Estar en las nubes”的字面意思是“在云中”，经过多语言训练的大模型可以从中文和英文里找到相似的词，例如“心不在焉”、“魂不守舍”，或者“to have one&#39;s head in the clouds”。但技术的本质并没有变化。
不过在实际应用中，这通常不是问题，因为我们的目标明确，还可以通过提示词工程、大模型微调以及LangChain这样的开发框架结合起来，减少“幻觉”，构建更可靠的AI Agent应用。如果你对相关的内容感兴趣，可以听听知乎知学堂的公开课，课程是孙志岗研发的，他在业内是大神一般的存在，他之前独立开发的AI大模型评测软件ChatALL.ai，几次登上Github的全球热榜第一，课程链接我放在下面了，大家直接听就行⬇️⬇️⬇️
我听了以后觉得内容很接地气，也很实用，基本上跟着做就能入门AI应用开发，更重要的是还提供免费的基础设施平台。赶紧加入吧！
AI技术的进步与潜力

1988年哲学家Jerry Fodor和认知科学家Zenon Pylyshyn提出了一个观点，他们认为人工神经网络不具备系统泛化的能力。所谓系统泛化（systematic generalization），指的是在学会新概念后能够将其应用于其他场景的能力，也就是“举一反三”。这种能力在人类中看似平常，但对于人工智能来说很难实现。
最近发表在《Nature》杂志上的一篇论文指出，神经网络在特定任务中表现出类似人的“举一反三”能力，并且这种能力甚至可能超过人类水平。Brenden Lake和Marco Baroni的这项研究进一步证明了AI在系统性泛化能力上的突破，即能够对未经过训练的知识进行应用和理解。这种基于元学习策略开发的组合性元学习（Meta-learning for Compositionality，MLC）模型可以通过调用已经学习的词组来理解新的单词和指令，并且优化了组合能力，能够灵活应对不断变化的任务需求。

如何看待中国工程院院士高文提出的「今天的人工智能处于低水平智能，仅存中水平假象」的观点？-2.jpg

MLC的训练过程示意图

越来越多的研究指向了一个光明的未来，至少在特定领域中，AI是有可能具备“举一反三”的能力的。而关于大模型的幻觉、可解释性这类“原罪”的研究，目前也已经有了一些方法，比如上面提到的“AI分不清9.11和9.9哪个大”的问题，其实就是由于自然语言的模糊性导致的，我们可以通过调整提示词、使用专业数学模型训练、搜索增强或知识对齐、调用工具API等方式解决。这并不是AI的局限，反而恰恰说明了AI和人脑的认知是相似的，有着巨大的提升空间。
对于AI学习来说，我们都会经历一个“去魅”的过程。刚开始觉得它无比强大，而随着学习的深入，我们逐渐了解到它背后的原理，兴奋和激动就会慢慢取代了担心，但更重要的是要在工作和生活中把AI用起来。

发表于 2025-4-7 14:40:00

好消息是人们的AI焦虑可以缓解一点。
坏消息是人们发现，取代自己其实并不需要什么强AI。

当你的工作一旦被规范化、组件化、流水化……被一系列管理方式解构以后，一旦你的工作变成了规范化的形势，则取代你并不需要AI，只需要一些计算指令就行。
这些并不需要什么“强AI”，最早期的专家系统就足够用了，甚至连专家系统都不需要……

早在几个月之前，我就说可能AI的发展出现了一些问题。
现在聊这个还不好说，毕竟预测这个事情的本质，就是吹牛逼，而预测准确的概率也和扔硬币差不多。
N年前，象棋领域被博弈算法征服以后，人们说围棋是人类最后的堡垒，没两年，围棋被征服了，GPT出来以后，AI的发展如火如荼。
那时候对AI预测的，也可以说是业内专家了，但是你不知道什么时候忽然出了一个什么思路，把AI又推动了一步。

这两年AI的发展速度太快了，但我们对AI的预判，通常都是错的。
技术上来说，现在的AI模型是基于大数据的，而不是基于逻辑关系的，但是算法上一直都在强化AI的逻辑能力。（业内人士应该理解，这方面论文这几年一直爆发性的增长）
其实早在上个世纪60年代，人们的AI技术其实就已经陷入了停滞，一直在统计学方向上打转，贝叶斯学派称霸了近半个世纪，一直到深度模型出来，又起飞了一次。
目前来看，如果当下的模型技术进步不大，很可能又停滞个几十年，也可能某人发了一篇论文，人们一测试发现效果不粗，然后AI又往前迈了一步。
虽然目前看不到“强AI”的可能性，但即使是目前基于大数据的AI技术，已经很恐怖了。

很多人的工作能力，以及其工作属性，并没有太高深的门槛，被取代只是时间问题。
至于是不是强AI，说实话，who care？
现在大家最关心的，还是自己的工作问题。
这方面来说，机器取代人的脚步一直没有停过。

发表于 2025-4-7 14:49:34

高老师敢说实话，牛逼。
但有个小问题，当前的很多文字工作和文创工作，可以说大部分都是低水平竞争。
低水平智能无法满足我们真正的创造性需求，但满足洗稿子、忽悠反智群氓、糊弄形式主义和极低水平短阅读，够了。
说白点，就中文公开语料库这点低水平玩意，真的打不过低水平智能AI。
所以还是会对当前的社会生产力和生产关系产生较大冲击。

发表于 2025-4-7 15:03:05

高院士说的确实没错，比如昨天爆出来的大模型分不清9.11和9.9谁大，就足以说明大模型的智商目前处于“薛定谔”的水平，十分不稳定。
不过我觉得倒是也不用这么绝望，毕竟现在还处于大模型发展的初级阶段，大模型们一直在努力进步着。
比如，之前蝉联了两个月开源模型榜首的Qwen2模型，昨天终于出了技术报告。
技术报告神马的，我已经期待了很长时间，毕竟这是我们普通人了解一个大模型的训练数据、模型架构、方法改进的最直接方式。
仔细阅读Qwen2的技术报告可以发现，在大模型进步的路上，Qwen一直在努力。
根据报告来看，模型首先从架构上进行了改进。
目前的主流大模型们一般都以Transformer作为基本架构，使用Multi-head Attention机制，其中每个attention头都需要计算query、key、value这三个矩阵。query矩阵每次都需要重新计算，但key和value矩阵在推理时是不变的。
传统的multi-head attention中，每个头都有独立的key和value矩阵，由于这些矩阵需要缓存起来，所以会消耗大量内存。而且在推理时，需要对每个头分别计算attention，推理速度较慢。
Qwen2使用Grouped Query Attention (GQA)进行了优化。这种机制将多个query头组合在一起，共享同一组key和value矩阵。这样一来，需要缓存的key和value矩阵就大大减少了，节省了内存占用。同时，推理时可以对多个query一起计算attention，显著提高了计算效率。
此外，对于长文本的处理效果欠佳，一直是困扰大模型们的一个重要问题，因为它们的注意力机制（attention）很难覆盖太长的上下文。
为了解决这个问题，Qwen2引入了一种叫做“双块注意力”（Dual Chunk Attention, DCA）的技术。
DCA的工作原理是：它会把很长的输入序列切割成若干个“块”（chunk）。如果输入不太长，只需一个块就能处理，那么DCA就等同于普通的注意力机制。但如果输入很长，需要很多个块来处理时，DCA就会发挥作用。它不仅能捕捉每个块内部单词之间的关系，还能捕捉不同块之间单词的相对位置关系。就像语文老师教我们读一篇长文章时，不仅要理解每个自然段的内容，还要弄清楚各个自然段之间的逻辑关系。
但是，仅仅切块还不够。当输入非常长时，后面块中的单词就很难受到前面块的影响。为了解决这个问题，Qwen2使用了一种叫做“YARN”的技术，它会调整注意力机制关注不同位置的程度，使得后面的单词也能合理的考虑到前面的上下文。
在这些改进技术的加持下，Qwen2对于长文的理解有非常不错的表现，尤其是Qwen2-72B-Instruct的表现最佳，在整个128K token的上下文长度范围内，从文档的任何深度均能准确的检索事实（图中全绿色）。

除了优化模型架构外，Qwen2还大幅增加了预训练数据的数量和质量，尤其是编程和数学相关的语料，均进行了显著扩充。
也就是说，Qwen2在预训练阶段接触到了更多样化的编程语言、代码库、算法实现、数学概念、公式、解题步骤等，就像一个努力学习的学生一样，显著扩充的知识库，让Qwen2在编程和数学两个领域打下了非常扎实的基础。

取得这样的SOTA成绩，除了扩展语料库外，还得益于Qwen2的指令微调（Instruction Tuning）步骤。
在这个阶段，研究人员会精心设计一系列任务，让模型学习如何根据指令生成符合要求的输出。为了提升Qwen2的编程和数学能力，这些任务中可能会专门包含大量相关的指令，比如：

根据用户描述的需求，编写特定语言的代码片段；
分析给定的代码，解释其功能，并提出优化建议；
根据题目要求，提供解题思路，并给出详细的解题步骤；
解释数学概念，证明数学定理，总结数学公式的应用场景……

通过在指令微调阶段加入这些针对性的任务，Qwen2也就学会了如何将编程和数学知识与人类的实际需求结合起来。
它不再只是单纯的“背下来”编程语法和数学公式，而是真正理解了人类对编程助手和数学助手的期望：能够听懂需求，给出切中要害的解决方案，并以清晰易懂的方式呈现出来。
正是得益于这些优化和改进，在前一段时间的“大模型高考”中，Qwen2才能在新课标I卷的语数外三门考试中取得超越GPT-4o的第一名的好成绩：

如何看待中国工程院院士高文提出的「今天的人工智能处于低水平智能，仅存中水平假象」的观点？-3.jpg

除了专注于优化大预言模型外，Qwen还在多模态实现方面做出了很多努力。
基于语言模型，通过在输入端接入声音编码器或视觉编码器，Qwen-Audio和 Qwen-VL分别实现了语音-文本、图像-文本的多模态建模。这种统一的架构一方面能够最大限度的继承语言模型的知识和能力，另一方面也易于适配和扩展到更多模态。
随着Qwen大幅降低token价格并提供多款开源模型，中小企业、初创公司以及像我这样的个人研究者，使用api和构建agent变得更加容易。无需投入海量的资金和算力从头训练大模型，就可以基于Qwen2进行二次开发，或者直接将其应用于实际的产品和服务中。
Qwen在多模态方面的探索也十分有意义，未来语音助手、智能客服、视觉搜索等跨模态交互场景有望借助Qwen-Audio、Qwen-VL等模型实现全面升级。毕竟拥有一个聪明的“大脑”，这些智能客服才能提供更好的服务。
真的不必带着有色眼镜看国产大模型，多关注一下，多了解一些，就会发现这些不用翻墙的大模型，很香！
而且也不用过于苛责目前大模型已经犯下或正在犯下的错误，无论是国外还是国内的公司，都在为大模型的“进步”积极努力着，从基本架构到训练数据再到模态扩展，大模型们正在“一天一个脚印”的前进着，我认为我们应该有信心，大模型的未来是绝对可期的。

发表于 2025-4-7 15:14:23

估计诸位听不懂。我也没听懂“中水平”和“高水平”是啥。但是我能听懂低水平是啥。
简单理解就是“照着答案编过程。”
想象一下，你在做数学题，碰到一道大题不会做，翻开答案，草，什么垃圾答案，只有答案没有过程，不看过程你根本不懂。
于是你突发奇想，你找了1000道类似的题目，这1000道题，有1000个答案（但没过程）。你就观察这1000道题和他们的答案，然后开始找规律，通过穷举的方式，完整地猜出来了这种题目的答案计算过程。
然后你自信满满地拿出来第1001道，一看，哎哟，我知道，把题目的A条件乘以10，再和B条件相减，所得结果再和C条件相除，就是最后结果！拿出答案一看，你果然是对的。
这就是现在的人工智能。复杂的如ChatGPT、文心一言、可灵AI，简单一点的如各种浅层模型，这就是他们最最原始的原理：照着答案编过程（答案就是各种数据）
但是你问自己，为什么是A条件乘以10？为什么要和B相减？为什么要和C相除？
不知道，不明白，不理解，但是我做出来了。
可解释性差就说的是这个意思。
<hr/>针对评论区的提问，再进行一些补充。
问：我现在在知乎看到很多AI回答，那岂不是之后用于训练AI的数据就来自AI而不是人类创作？
答：在工业领域，训练AI的数据，本来就不是完全来自现实。
训练AI需要大量的数据，这种数据规模比我说的1000组可能要大很多，视具体问题而定。所以工业领域中的数据，不少都来自仿真平台仿真。以电网为例，一般来说，国家电网出现故障的概率极低，故障数据极少，所以往往是靠PSCAD、MATLAB平台大量仿真出来故障数据，然后拿数据去训练AI。
当然这里仅限于工业领域。人文社科暂且不评价。
问：就算不知道过程是怎么样的，只要结果对了不就行了吗？可解释性有啥用？
答：因为不存在完美的数据，而且总有需要可解释性的领域。
简单来说，我上面说的“1000个问题带着1000个答案”本身就是个理想情况，更现实的是1000个问题900个正确答案，90个错误答案，10个没答案。你说我能从错误答案中总结出正确规律吗？不能。现实生活也是如此，很难很难存在绝对正确的、高质量的数据。
如果没有高质量的数据，那就只能通过人工微调的方式来让AI准确率提高。那么这里就归结到一个问题：我都不知道AI怎么得出来结论的，我怎么调整他？所以这里就涉及到了可解释性。
问：这能用在工业生产领域吗？
答：能啊，只要你问题不太复杂，就能。在很多领域已经开始用了。
毕竟在工业生产中，不是所有问题都是非常复杂的，有些比较简单，准确率也可以不需要太高。

如何看待中国工程院院士高文提出的「今天的人工智能处于低水平智能，仅存中水平假象」的观点？

本周热门