如何看待中国工程院院士高文提出的「今天的人工智能处于低水平智能,仅存中水平假象」的观点?

在2024世界人工智能大会(WAIC 2024)上,中国工程院院士高文提出,当前的人工智能技术尽管表面看起来相当先进,但实际上仍处于低水平智能阶段,其中所谓的“中水平智能”更多是一种表象。我们该如何理解高文院士的这一论断?它对于未来人工智能的研究和发展有何启示?
收藏者
0
被浏览
96

5 个回答

蓝小枫 LV

发表于 3 天前

我去网上找了一下高院士的这篇演讲,高院士的演讲题目是《新一代人工智能发展的安全问题》,开篇其实就明确了态度,他认为“从技术的角度看,人工智能必须足够好”,否则就是不安全的。那怎么才是“足够好”呢?我们一起来看一看。
怎样评价智能的水平

高院士将人工智能的能力划分为低、中、高三个不同的等级。低等级的智能是“死记硬背”,也就是主要通过记忆来学习。中级智能是“举一反三”,指的是利用有限的显式知识,通过类比推理来获取相关的隐含知识,也就是用已知推理未知。而最高级的智能,则是利用极少量的线索来构建全新的知识和理论体系,类似于牛顿的力学原理和爱因斯坦的相对论那样开创性的成就。
这种分类方法的核心是“知识”,当下的人工智能由于依赖深度神经网络的数据训练,它们的模型都是基于统计的模型,是基于大量数据的“死记硬背”,它们生成的内容不可解释,所以算不上真正的知识。这就好像是在说,AI能背出圆周率小数点后几万位,却不会算数。这两天知乎上有个关于AI分不清9.11和9.9哪个大的问题,也是类似的观点。
这当然是缺陷,而且对于AI安全来说是必须要克服的障碍,高院士指出这一点也是希望引起大家的重视。毕竟,诸如对抗样本攻击、算法后门攻击、模型窃取攻击等新型攻击技术也在快速涌现,我们确实需要关注。但我觉得,“因噎废食”大可不必,即便是单项的低水平智能也可以很有效,比如编程。而关于AI是否具备了中水平智能,我们还需要凑近些观察。
为什么低水平智能会有中水平的涌现?

高院士认为这是一种假象,相当于“熟读唐诗三百首,不会作诗也会吟”,属于熟能生巧的范畴。他提供了一个新的视角来解释智能的涌现,即利用多种语言的数据训练可能会引发一些对某些用户来说很陌生,但对其他语言的使用者而言却很平常的智能行为。或许是因为时间的关系,高院士并没有给出具体的例子,我试着解释一下这背后的原理:语言模型通过将单词映射为词向量进行处理,使得意义相近的词在向量空间内彼此接近,从而允许模型通过向量运算来推断词与词之间的联系。然而,基本的词向量方法并不能捕捉到单词的多种含义,例如“bill”既可以是账单,也可以是法案。因此,语言模型必须依赖上下文,用不同的向量表示同一个词的不同含义。这些向量分布在多层神经网络之中,每一层都在帮助明确词义并预测随后可能出现的词汇。

如何看待中国工程院院士高文提出的「今天的人工智能处于低水平智能,仅存中水平假象」的观点?-1.jpg


单词在向量空间的映射

是不是听起来就很复杂,想象一下,如果是多语言呢?例如,某些习语或俚语在一种语言中可能很常见,但在另一种语言中则可能完全不存在或有不同的表达方式,在多语言训练的过程中,模型的泛化能力可能会让它学习到跨语言的创新表达方式,这些表达方式可能在单一语言的训练中难以出现,它可能会给使用者带来惊喜,看起来像是“举一反三”,比如,西班牙俚语“Estar en las nubes”的字面意思是“在云中”,经过多语言训练的大模型可以从中文和英文里找到相似的词,例如“心不在焉”、“魂不守舍”,或者“to have one's head in the clouds”。但技术的本质并没有变化。
不过在实际应用中,这通常不是问题,因为我们的目标明确,还可以通过提示词工程、大模型微调以及LangChain这样的开发框架结合起来,减少“幻觉”,构建更可靠的AI Agent应用。如果你对相关的内容感兴趣,可以听听知乎知学堂的公开课,课程是孙志岗研发的,他在业内是大神一般的存在,他之前独立开发的AI大模型评测软件ChatALL.ai,几次登上Github的全球热榜第一,课程链接我放在下面了,大家直接听就行⬇️⬇️⬇️
我听了以后觉得内容很接地气,也很实用,基本上跟着做就能入门AI应用开发,更重要的是还提供免费的基础设施平台。赶紧加入吧!
AI技术的进步与潜力

1988年哲学家Jerry Fodor和认知科学家Zenon Pylyshyn提出了一个观点,他们认为人工神经网络不具备系统泛化的能力。所谓系统泛化(systematic generalization),指的是在学会新概念后能够将其应用于其他场景的能力,也就是“举一反三”。这种能力在人类中看似平常,但对于人工智能来说很难实现。
最近发表在《Nature》杂志上的一篇论文指出,神经网络在特定任务中表现出类似人的“举一反三”能力,并且这种能力甚至可能超过人类水平。Brenden Lake和Marco Baroni的这项研究进一步证明了AI在系统性泛化能力上的突破,即能够对未经过训练的知识进行应用和理解。这种基于元学习策略开发的组合性元学习(Meta-learning for Compositionality,MLC)模型可以通过调用已经学习的词组来理解新的单词和指令,并且优化了组合能力,能够灵活应对不断变化的任务需求。

如何看待中国工程院院士高文提出的「今天的人工智能处于低水平智能,仅存中水平假象」的观点?-2.jpg


MLC的训练过程示意图

越来越多的研究指向了一个光明的未来,至少在特定领域中,AI是有可能具备“举一反三”的能力的。而关于大模型的幻觉、可解释性这类“原罪”的研究,目前也已经有了一些方法,比如上面提到的“AI分不清9.11和9.9哪个大”的问题,其实就是由于自然语言的模糊性导致的,我们可以通过调整提示词、使用专业数学模型训练、搜索增强或知识对齐、调用工具API等方式解决。这并不是AI的局限,反而恰恰说明了AI和人脑的认知是相似的,有着巨大的提升空间。
对于AI学习来说,我们都会经历一个“去魅”的过程。刚开始觉得它无比强大,而随着学习的深入,我们逐渐了解到它背后的原理,兴奋和激动就会慢慢取代了担心,但更重要的是要在工作和生活中把AI用起来。

小鸭影艺 LV

发表于 3 天前

好消息是人们的AI焦虑可以缓解一点。
坏消息是人们发现,取代自己其实并不需要什么强AI。

当你的工作一旦被规范化、组件化、流水化……被一系列管理方式解构以后,一旦你的工作变成了规范化的形势,则取代你并不需要AI,只需要一些计算指令就行。
这些并不需要什么“强AI”,最早期的专家系统就足够用了,甚至连专家系统都不需要……

早在几个月之前,我就说可能AI的发展出现了一些问题。
现在聊这个还不好说,毕竟预测这个事情的本质,就是吹牛逼,而预测准确的概率也和扔硬币差不多。
N年前,象棋领域被博弈算法征服以后,人们说围棋是人类最后的堡垒,没两年,围棋被征服了,GPT出来以后,AI的发展如火如荼。
那时候对AI预测的,也可以说是业内专家了,但是你不知道什么时候忽然出了一个什么思路,把AI又推动了一步。

这两年AI的发展速度太快了,但我们对AI的预判,通常都是错的。
技术上来说,现在的AI模型是基于大数据的,而不是基于逻辑关系的,但是算法上一直都在强化AI的逻辑能力。(业内人士应该理解,这方面论文这几年一直爆发性的增长)
其实早在上个世纪60年代,人们的AI技术其实就已经陷入了停滞,一直在统计学方向上打转,贝叶斯学派称霸了近半个世纪,一直到深度模型出来,又起飞了一次。
目前来看,如果当下的模型技术进步不大,很可能又停滞个几十年,也可能某人发了一篇论文,人们一测试发现效果不粗,然后AI又往前迈了一步。
虽然目前看不到“强AI”的可能性,但即使是目前基于大数据的AI技术,已经很恐怖了。

很多人的工作能力,以及其工作属性,并没有太高深的门槛,被取代只是时间问题。
至于是不是强AI,说实话,who care?
现在大家最关心的,还是自己的工作问题。
这方面来说,机器取代人的脚步一直没有停过。

阿怪 LV

发表于 3 天前

高老师敢说实话,牛逼。
但有个小问题,当前的很多文字工作和文创工作,可以说大部分都是低水平竞争。
低水平智能无法满足我们真正的创造性需求,但满足洗稿子、忽悠反智群氓、糊弄形式主义和极低水平短阅读,够了。
说白点,就中文公开语料库这点低水平玩意,真的打不过低水平智能AI。
所以还是会对当前的社会生产力和生产关系产生较大冲击。

梦貘 LV

发表于 3 天前

高院士说的确实没错,比如昨天爆出来的大模型分不清9.11和9.9谁大,就足以说明大模型的智商目前处于“薛定谔”的水平,十分不稳定。
不过我觉得倒是也不用这么绝望,毕竟现在还处于大模型发展的初级阶段,大模型们一直在努力进步着。
比如,之前蝉联了两个月开源模型榜首的Qwen2模型,昨天终于出了技术报告。
技术报告神马的,我已经期待了很长时间,毕竟这是我们普通人了解一个大模型的训练数据、模型架构、方法改进的最直接方式。
仔细阅读Qwen2的技术报告可以发现,在大模型进步的路上,Qwen一直在努力。
根据报告来看,模型首先从架构上进行了改进
目前的主流大模型们一般都以Transformer作为基本架构,使用Multi-head Attention机制,其中每个attention头都需要计算query、key、value这三个矩阵。query矩阵每次都需要重新计算,但key和value矩阵在推理时是不变的。
传统的multi-head attention中,每个头都有独立的key和value矩阵,由于这些矩阵需要缓存起来,所以会消耗大量内存。而且在推理时,需要对每个头分别计算attention,推理速度较慢。
Qwen2使用Grouped Query Attention (GQA)进行了优化。这种机制将多个query头组合在一起,共享同一组key和value矩阵。这样一来,需要缓存的key和value矩阵就大大减少了,节省了内存占用。同时,推理时可以对多个query一起计算attention,显著提高了计算效率。
此外,对于长文本的处理效果欠佳,一直是困扰大模型们的一个重要问题,因为它们的注意力机制(attention)很难覆盖太长的上下文。
为了解决这个问题,Qwen2引入了一种叫做“双块注意力”(Dual Chunk Attention, DCA)的技术。
DCA的工作原理是:它会把很长的输入序列切割成若干个“块”(chunk)。如果输入不太长,只需一个块就能处理,那么DCA就等同于普通的注意力机制。但如果输入很长,需要很多个块来处理时,DCA就会发挥作用。它不仅能捕捉每个块内部单词之间的关系,还能捕捉不同块之间单词的相对位置关系。就像语文老师教我们读一篇长文章时,不仅要理解每个自然段的内容,还要弄清楚各个自然段之间的逻辑关系。
但是,仅仅切块还不够。当输入非常长时,后面块中的单词就很难受到前面块的影响。为了解决这个问题,Qwen2使用了一种叫做“YARN”的技术,它会调整注意力机制关注不同位置的程度,使得后面的单词也能合理的考虑到前面的上下文。
在这些改进技术的加持下,Qwen2对于长文的理解有非常不错的表现,尤其是Qwen2-72B-Instruct的表现最佳,在整个128K token的上下文长度范围内,从文档的任何深度均能准确的检索事实(图中全绿色)。

如何看待中国工程院院士高文提出的「今天的人工智能处于低水平智能,仅存中水平假象」的观点?-1.jpg

除了优化模型架构外,Qwen2还大幅增加了预训练数据的数量和质量,尤其是编程和数学相关的语料,均进行了显著扩充。
也就是说,Qwen2在预训练阶段接触到了更多样化的编程语言、代码库、算法实现、数学概念、公式、解题步骤等,就像一个努力学习的学生一样,显著扩充的知识库,让Qwen2在编程和数学两个领域打下了非常扎实的基础。

如何看待中国工程院院士高文提出的「今天的人工智能处于低水平智能,仅存中水平假象」的观点?-2.jpg

取得这样的SOTA成绩,除了扩展语料库外,还得益于Qwen2的指令微调(Instruction Tuning)步骤
在这个阶段,研究人员会精心设计一系列任务,让模型学习如何根据指令生成符合要求的输出。为了提升Qwen2的编程和数学能力,这些任务中可能会专门包含大量相关的指令,比如:

  • 根据用户描述的需求,编写特定语言的代码片段;
  • 分析给定的代码,解释其功能,并提出优化建议;
  • 根据题目要求,提供解题思路,并给出详细的解题步骤;
  • 解释数学概念,证明数学定理,总结数学公式的应用场景……
通过在指令微调阶段加入这些针对性的任务,Qwen2也就学会了如何将编程和数学知识与人类的实际需求结合起来。
它不再只是单纯的“背下来”编程语法和数学公式,而是真正理解了人类对编程助手和数学助手的期望:能够听懂需求,给出切中要害的解决方案,并以清晰易懂的方式呈现出来。
正是得益于这些优化和改进,在前一段时间的“大模型高考”中,Qwen2才能在新课标I卷的语数外三门考试中取得超越GPT-4o的第一名的好成绩:

如何看待中国工程院院士高文提出的「今天的人工智能处于低水平智能,仅存中水平假象」的观点?-3.jpg

除了专注于优化大预言模型外,Qwen还在多模态实现方面做出了很多努力。
基于语言模型,通过在输入端接入声音编码器或视觉编码器,Qwen-Audio和 Qwen-VL分别实现了语音-文本、图像-文本的多模态建模。这种统一的架构一方面能够最大限度的继承语言模型的知识和能力,另一方面也易于适配和扩展到更多模态。
随着Qwen大幅降低token价格并提供多款开源模型,中小企业、初创公司以及像我这样的个人研究者,使用api和构建agent变得更加容易。无需投入海量的资金和算力从头训练大模型,就可以基于Qwen2进行二次开发,或者直接将其应用于实际的产品和服务中。
Qwen在多模态方面的探索也十分有意义,未来语音助手、智能客服、视觉搜索等跨模态交互场景有望借助Qwen-Audio、Qwen-VL等模型实现全面升级。毕竟拥有一个聪明的“大脑”,这些智能客服才能提供更好的服务。
真的不必带着有色眼镜看国产大模型,多关注一下,多了解一些,就会发现这些不用翻墙的大模型,很香!
而且也不用过于苛责目前大模型已经犯下或正在犯下的错误,无论是国外还是国内的公司,都在为大模型的“进步”积极努力着,从基本架构到训练数据再到模态扩展,大模型们正在“一天一个脚印”的前进着,我认为我们应该有信心,大模型的未来是绝对可期的。

中年大叔 LV

发表于 3 天前

估计诸位听不懂。我也没听懂“中水平”和“高水平”是啥。但是我能听懂低水平是啥。
简单理解就是“照着答案编过程。”
想象一下,你在做数学题,碰到一道大题不会做,翻开答案,草,什么垃圾答案,只有答案没有过程,不看过程你根本不懂。
于是你突发奇想,你找了1000道类似的题目,这1000道题,有1000个答案(但没过程)。你就观察这1000道题和他们的答案,然后开始找规律,通过穷举的方式,完整地猜出来了这种题目的答案计算过程
然后你自信满满地拿出来第1001道,一看,哎哟,我知道,把题目的A条件乘以10,再和B条件相减,所得结果再和C条件相除,就是最后结果!拿出答案一看,你果然是对的。
这就是现在的人工智能。复杂的如ChatGPT、文心一言、可灵AI,简单一点的如各种浅层模型,这就是他们最最原始的原理:照着答案编过程(答案就是各种数据)
但是你问自己,为什么是A条件乘以10?为什么要和B相减?为什么要和C相除?
不知道,不明白,不理解,但是我做出来了。
可解释性差就说的是这个意思。
<hr/>针对评论区的提问,再进行一些补充。
问:我现在在知乎看到很多AI回答,那岂不是之后用于训练AI的数据就来自AI而不是人类创作?
答:在工业领域,训练AI的数据,本来就不是完全来自现实。
训练AI需要大量的数据,这种数据规模比我说的1000组可能要大很多,视具体问题而定。所以工业领域中的数据,不少都来自仿真平台仿真。以电网为例,一般来说,国家电网出现故障的概率极低,故障数据极少,所以往往是靠PSCAD、MATLAB平台大量仿真出来故障数据,然后拿数据去训练AI。
当然这里仅限于工业领域。人文社科暂且不评价。
问:就算不知道过程是怎么样的,只要结果对了不就行了吗?可解释性有啥用?
答:因为不存在完美的数据,而且总有需要可解释性的领域。
简单来说,我上面说的“1000个问题带着1000个答案”本身就是个理想情况,更现实的是1000个问题900个正确答案,90个错误答案,10个没答案。你说我能从错误答案中总结出正确规律吗?不能。现实生活也是如此,很难很难存在绝对正确的、高质量的数据。
如果没有高质量的数据,那就只能通过人工微调的方式来让AI准确率提高。那么这里就归结到一个问题:我都不知道AI怎么得出来结论的,我怎么调整他?所以这里就涉及到了可解释性。
问:这能用在工业生产领域吗?
答:能啊,只要你问题不太复杂,就能。在很多领域已经开始用了。
毕竟在工业生产中,不是所有问题都是非常复杂的,有些比较简单,准确率也可以不需要太高。

您需要登录后才可以回帖 登录 | 立即注册