其乐无穷 LV
发表于 2025-4-9 16:50:59
这里推荐两篇论文,是个人比较重视的 NLP 发展方向的 Proposal.
- Experience Grounds Language
Yoshua Bengio 的文章,指出 NLP 现阶段是 multimodality 阶段,之后会往 embodiment 和 social 的方向走。换句话说,语言是人与人、人与自然在长期的交互过程中诞生的产物,是对主观世界、客观世界的表征。让 agent 有一个虚拟的或者现实的 body, 然后基于这个 body 去处理多模态的信息,方可完成人与自然的交互这一步,然后让 agent 之间去做 social,方可完成人与人交互这一步。两个都完成了,才能实现 grounded language modelling.
2. Social Neuro AI
基本一致的想法,这个 proposal 进一步把 NLP/AI 的发展分成了三个维度:
<hr/>下面是我自己的“哲学”思考,仅仅作为开脑洞的讨论,切勿当真!!!
其实说白了,现在的 AI 还是一种建模感知 (perception) 的发展状态, 个人认为感知的集中体现是 action. 有了 action 就有了 perception. 因为认识不够只能感受,就没有反过去做 inter- 的能力。
但是认知 (cognition) 不一样,它的集中体现应该是 interaction.
所以,与其说是 NLP 的问题,不如说是认知的问题;与其说是认知的问题,不如说是交互(interaction)的问题。
语言是在长期交互中产生的,反过来讲,交互也促成了很多语言之外的事物的诞生,比如蛋白质(化合物与化合物、化合物与生物之间的长期交互) 等等。
格局再大一点,如果说物质或者能量是自然界的 génératrice (生成元), 那么交互就是自然界的 loi (运算) (这里采用的是抽象代数中的表述方式,因为本人是用法语学的,不知道中文翻译的对不对),最底层的生成元和最底层的运算一步一步的积累,形成了新的生成元和新的运算,形成了一系列 hierarchical/structural 的 spaces. 在以人为生成元的这个 space 中,形成了 language; 在以化合物为生成元的这个 space 中,形成了 protein...... 当然,我相信,自然界应该是一个更加复杂的代数结构而不是 space 这么简单(所以只是用 space 举个例子).
<hr/>回到地上,现阶段的 NLP 应该主要是以下几个发力方向:
- 解决一些实际的工业应用问题:这个还是好多好多的,但是范式或者基本模型不变的话,就是细粒度的场景扩展或者优化等而已。(长文本建模、可控生成、性能优化、小样本等我都归到了这个类别里面)
- 多模态:上文所述,解决 grounding 问题,比如 Facebook(Meta) AI 的新文章 Data2Vec 等。
- Embodied AI :参考 MindCraft: Theory of Mind Modeling for Situated Dialogue in Collaborative Tasks (EMNLP&#39;21 的 Outstanding)
- LMaaS,也就是基于大模型的一些优化扩展,比如 Prompt,检索增强那些...
- Reasoning :解决推理相关的一些问题,逻辑推理,常识推理等等,比如 LSAT 等
- 其他序列任务:蛋白质、基因、代码等,甚至可以把不那么 intuitive 的任务也当成序列任务 (All in Sequence), 比如 Hinton 的新文章 Pix2Seq 等。
|
|