如何看待自然语言处理未来的走向?

受邻居问题如何看待计算机视觉未来的走向? 的启发，一起探讨NLP的未来发展趋势。

发表于 2025-4-9 16:50:59

这里推荐两篇论文，是个人比较重视的 NLP 发展方向的 Proposal.

Experience Grounds Language

Yoshua Bengio 的文章，指出 NLP 现阶段是 multimodality 阶段，之后会往 embodiment 和 social 的方向走。换句话说，语言是人与人、人与自然在长期的交互过程中诞生的产物，是对主观世界、客观世界的表征。让 agent 有一个虚拟的或者现实的 body, 然后基于这个 body 去处理多模态的信息，方可完成人与自然的交互这一步，然后让 agent 之间去做 social，方可完成人与人交互这一步。两个都完成了，才能实现 grounded language modelling.
2. Social Neuro AI
基本一致的想法，这个 proposal 进一步把 NLP/AI 的发展分成了三个维度：

<hr/>下面是我自己的“哲学”思考，仅仅作为开脑洞的讨论，切勿当真！！！
其实说白了，现在的 AI 还是一种建模感知 (perception) 的发展状态, 个人认为感知的集中体现是 action. 有了 action 就有了 perception. 因为认识不够只能感受，就没有反过去做 inter- 的能力。
但是认知 (cognition) 不一样，它的集中体现应该是 interaction.
所以，与其说是 NLP 的问题，不如说是认知的问题；与其说是认知的问题，不如说是交互(interaction)的问题。
语言是在长期交互中产生的，反过来讲，交互也促成了很多语言之外的事物的诞生，比如蛋白质(化合物与化合物、化合物与生物之间的长期交互) 等等。
格局再大一点，如果说物质或者能量是自然界的 génératrice (生成元)，那么交互就是自然界的 loi (运算) (这里采用的是抽象代数中的表述方式，因为本人是用法语学的，不知道中文翻译的对不对)，最底层的生成元和最底层的运算一步一步的积累，形成了新的生成元和新的运算，形成了一系列 hierarchical/structural 的 spaces. 在以人为生成元的这个 space 中，形成了 language; 在以化合物为生成元的这个 space 中，形成了 protein...... 当然，我相信，自然界应该是一个更加复杂的代数结构而不是 space 这么简单(所以只是用 space 举个例子).
<hr/>回到地上，现阶段的 NLP 应该主要是以下几个发力方向：

解决一些实际的工业应用问题：这个还是好多好多的，但是范式或者基本模型不变的话，就是细粒度的场景扩展或者优化等而已。（长文本建模、可控生成、性能优化、小样本等我都归到了这个类别里面）
多模态：上文所述，解决 grounding 问题，比如 Facebook(Meta) AI 的新文章 Data2Vec 等。
Embodied AI ：参考 MindCraft: Theory of Mind Modeling for Situated Dialogue in Collaborative Tasks (EMNLP&#39;21 的 Outstanding)
LMaaS，也就是基于大模型的一些优化扩展，比如 Prompt，检索增强那些...
Reasoning ：解决推理相关的一些问题，逻辑推理，常识推理等等，比如 LSAT 等
其他序列任务：蛋白质、基因、代码等，甚至可以把不那么 intuitive 的任务也当成序列任务 (All in Sequence), 比如 Hinton 的新文章 Pix2Seq 等。

发表于 2025-4-9 17:01:07

现在NLP的走向与DL/AI的发展是强耦合，某种程度上可以说DL/AI的走向就是NLP的走向。但如果不管DL/AI未来走向如何，单纯从NLP本身的价值出发的话，往星辰大海了说，我觉得有两条浩瀚星途，一条是NLP的应用价值，一条是NLP的科学价值：

Language grounding. 很多人说过NLP不是一个单独的问题，目前大多数NLP研究的自然语言就是一些符号的统计，至于符号是哪种语言，是不是人类的自然语言，现实中代表了什么，模型不在乎。怎么把语言联系到现实生活里的物理意义上，使其真正作为一种实用工具而不是抽象的符号，应该是应用型NLP的终极目标，现在的多模态研究在朝这方面努力。
Language emergence. 除了应用价值，我觉得NLP的研究还可能回答另一个很有科学价值的问题，语言是怎么产生/涌现的？这里说的语言可以是更一般的，比如DNA的语言、蛋白质的语言、动物交流的信息素，当然也包括人类语言。问题在于，语言是如何在不同独立个体之间受通信和协作的需求而激发，从而使得这些独立个体自发地组织成为一种更高智慧的个体。目前有一些长得好看的研究人员在做这件事，比如在虚拟环境里建模几个agent，允许它们以一定的带宽通信，最终来完成某个任务。这个方向的研究是能发science/nature的。

发表于 2025-4-9 17:14:08

个人认为，NLP的一个重要任务是为计算机设计一套更适应它的思维的语言，并建立与人类自然语言的联系。
考虑以下三段话，箭头右侧是左侧的推理结果：

中国男子足球队正在和韩国队进行比赛 → 一群男性正在进行体育活动
百米成绩，张三15秒23，李四14秒56 → 张三比李四跑得慢
把3GB的文件读入Java字节数组 → JVM可能发生内存溢出

复制代码

这三段推理的复杂度是递增的：

第一段推理是对左侧句子的简单概括。
第二段推理涉及“慢”这个概念和时间、距离的关系。
第三段推理要求理解Java的机制：Java数组的索引类型是32位Int，因此字节数组最多储存约2GB数据。整个推理过程衍生出了更多的概念和关系。

目前NLP技术能解决第一类推理，可以在特定范围内解决第二类推理，但基本无法解决第三类推理。而从应用和产品的角度看，第三类推理才是质变，也是新一代产品落地的关键。
第三类推理的关键是知识体系。知识体系以什么形式搭建呢？我认为一套适应计算机思维的语言是不可缺少的。利用知识图谱，我们可以教给计算机大量实体以及它们之间的关系。但除实体外，人类的思维活动也离不开抽象概念。如数字、空间、时间、归纳、演绎等概念，它们可以与任何实体相联系，而又独立于任何实体。在这些基本概念的基础上，人类又建立了无数的衍生概念。如Java这一抽象概念就是成百上千个抽象概念以及它们的关系的总和。
人类通过自然语言，也就是字典、文档，来记录并管理所有概念。但目前我们还难以想象神经网络通过阅读Java文档精通编程的情形。人类能通过语言进行沟通，其基础是我们对某些基础概念的天生通感，如对数字的感知、对时空的感知、对一般和特殊的感知等。计算机天生并不具备这些能力，因此它无法像人类那样去理解自然语言。
通过海量的训练数据，神经网络可以自行发现人类语言中的规律，或许某些规律已经可以复杂到人类无法理解的地步。但由于基础概念的缺失，这并不意味着计算机读懂了我们的语言。通过end-to-end的方式教导知识，或许比扔给你一堆没有字典的希腊语教材，然后让你去参加希腊高考更困难。而如果我们能以某种方式赋予计算机和人类共通的基础概念，再在它们的基础上构建语言，并建立起和人类语言间的联系，那么机器终有一天将读懂人类通过自然语言记录的知识，并发展出自己的思想。

发表于 2025-4-9 17:23:53

短回答：ACL系列 + NeurIPS + AAAI Tutorial/Invited Talk
<hr/>长回答：很多人提到了多模态，说白了就是通过不同模态引入额外的信息，当然这句话看个人怎么理解了。既可以说某些模态下的信息不方便直接进行跨模态的表示（e.g. Commensense），也可以说是一种interactive approach（e.g. human-in-the-loop），某些信息需要从交互中学习，需要从现实世界学习。
Evaluation则是human-out-of-loop，不过这是永恒的话题。

至于昂贵的预训练模型，其实只占自然语言处理中的一小部分。
你看，一年多才140篇呢（狗头）：A Primer in BERTology: What we know about how BERT works
当然坑是挖得不小了，一波引发各种魔改加可解释。毕竟参数多，挑挑拣拣更容易找到可以解释的部分（逃，而且模型强劲使得解释有意思（逃

而且，向蒜粒看齐，向本质看齐，不是ELMO/BERT出来才有的，也不是自然语言处理才有的。

也许有的人会对于现状表示悲观，个人认为这没有必要。事实上，如果把模型看作数据，而把人看作模型的话，当千帆过尽，人对于自己和世界的认识都深刻了很多。当人们训练模型时，被训练的不是只有模型；当你凝望深渊时，深渊也在凝望你。从这个角度说，这个领域一直有生命力。

（长回答仅当胡言乱语）

发表于 2025-4-9 17:36:30

来聊聊自己的看法，从近两年的NLP发展来说，有两个明显的趋势：

真正可以商用的模型越来越大越来越深越来越贵
强人工智能寸步难行

第一点毋庸置疑，看看最近自媒体标题党的文章上不断刷新的数字就能明显感觉到。

第二点就是一个更加形而上更加宽泛也更加让人倍感无力的问题：强人工智能到底如何实现？有句话叫自然语言是人类智慧的最后一道防线，NLPer可能要比其他的人工智能研究者更能直观的感受到现在的所谓人工智能（其实我觉得叫统计智能更合适，但谁让AI这个词时髦呢）与人类智能的差距。现在的NLP模型在一些任务上体现出了超越人类的能力，但在另一些任务上连三岁小孩都不如。在字节参加夏令营的时候跟李航老师请教过这个问题，李航老师有句比喻很有意思：“如果说强人工智能是登月，那么我们现在做的水平就差不多相当于猴子爬上了树。虽然我们距离月亮还有十万八千里，但是深度学习已经是离月亮最近的一根树梢了”。通往人类智慧的路径大概率不是基于现在的深度学习框架，但它已经让我们离月球更近了一步，至于什么时候猴子能够发现苹果落下的奥秘，那就需要整个领域一起努力了。自然语言既然是人类智慧的最后一道防线，也理应是通往人类智慧最近的一条路吧。

如何看待自然语言处理未来的走向?

本周热门