为什么说NLP死了？

随着chatgpt等生成式AI的爆火，部分NLP的研究者表达了消极的态度，有什么具体的理由吗，我只是个学习语言学和人工智能的大一学生，有人可以解答一下吗（可怜）？
另外，中国目前不是还没有和chatgpt一样强大的人工智能吗，如果说NLP死了，那中国的类chatgpt怎么办？就不发展了？
真的很好奇…

发表于 2025-4-9 14:41:47

吴恩达2023年初有过一篇专访，给小数据模型站台的，意思非常直白，“很多领域的客户就这么点数据，我们需要的是在数据量很少的情况下，也能很好工作的模型”。
NLP过去不少“小模型”派，玩的就是这套东西，他们做的就两件事

1w条以内标记好的数据，这模型在对应领域能work。
在一个相对通用的领域，用一个基础模型(可能百万级数据)，再加上1w条以内标记好的细分领域的数据，这模型能work。

发表于 2025-4-9 14:54:56

说NLP死了，是人为制造一种冷酷的悲壮感而已，实际上不过是玩法变了。
大模型到底杀死了什么

传统的NLP，把技术方向分成了信息抽取、文本挖掘、机器翻译、语音合成、语音识别等一系列任务去研究，每个任务有专门的模型和框架，有德高望重的专家。各种网络结构、各种框架像万花筒，只要你有些自己的想法，不需要多少算力资源，就能搞出来不少东西。那个时代，是科研人员的春天。
再说商业化这边。当去解决某一个特定业务场景的问题时，每个模型的建设都需要算法开发、数据处理、模型训练与调优过程。很多时候往往还需要对多个模型进行优化和深度融合，这也意味着每个企业都需要设一个算法作坊，需要养着一大堆的算法工程师来做造轮子的工作。
这种模式，对于算法研究员和算法工程师来说，有身份、有地位、有意思。可从工业化生产的角度来看，这显然是不经济的。
实际上在2018年BERT诞生的时候，很多的任务就已经在一定程度上被统一，NLP已死就已经被喊过一遍了。大模型成了主流之后，一切变得更不一样了。

对科研工作来说，可研究的领域变尴尬了。首先大模型训练成本高得吓人，根本玩不起。普通研究人员，在卡的这一步就被拦住了，只能做一些边边角角的工作，很难搞出什么大动静。其次，大模型用大力飞砖的方式，暴力解决了问题，NLP的中间任务，包括中文分词、词性标注、NER、句法分析、指代消解等，不存在了。
再看工程开发这边。预训练大模型增强了人工智能的通用性、泛化性，基于大模型通过零样本或小样本精调，就可实现在多种任务上的较好效果。算法工程师在特征设计和算法优化方面的专业知识和技能甚至很难派上用场了，随时面临被边缘化的尴尬。
一个通用的轮子造好了，它又大又圆又抗造，靠纯手工造轮子的手艺吃饭的老师傅自然泪流满面。
从Bert到GPT，再到百花齐放的百模大战，预训练模型显然是大势所趋。大模型“预训练+精调”模式带来了新的标准化AI开发范式，实现AI模型在更统一、简单的方式下规模化生产。这种模式显然更加有助于促进AI的工业化生产进程。
如今的形势是，台子已经搭好，就差唱戏的登场了。所以，打扮打扮登台，拥抱大模型才是明智的选择。可以确定的是，这其中必然会衍生出更多岗位，但想胜任这些岗位，就必须更了解大模型。

好在，现在大模型训练成本都在迅速降低，也很容易入门。详细的原理以及训练方法我非常建议去听听知乎知学堂的AI大模型公开课。这个课正是为了适应当下AI大模型的发展而推出的。干货很多，尤其是课程里关于Transformer 的原理、使用Fine-Tuning进行模型微调的技术一定要仔细听。

入口我直接给大家找过来了，直接听就可以⬇️
我们看到，依托于既有的IaaS设施与PaaS平台架构，全新的MaaS（Model-as-a-Service）层正在产生，成为了新型AI基础设施。这些都极大降低了AI开发门槛，让更多企业或开发者可以低成本、高效率地获得AI能力，应用到自己的业务中。

因此，对于传统NLP的需求大大减少是必然的，大模型杀死的不是NLP，而是死守着固有的开发和研究方式不愿改变的算法工程师！
有哪些是杀不死的？

业务场景的复杂度不会变，问题都还在，这些是杀不死的，只不过解决问题的方法变了而已。而且随着AI能力的跳跃式增强，以及人工智能进入产业化发展阶段，AI在商业上的盘子一定是变大了，而不是缩小了。
想想那些永远在说车轱辘话的“人工智障”客服；想想费九牛二虎之力才能搭建起来的知识图谱；想想智能驾驶的广阔蓝海。。。我们但凡能想到的AI+场景，都值得用大模型的“聪明脑”替换一遍。

拥抱大模型

虽然能够参与大模型训练的机会凤毛麟角，但是围绕大模型，真的有太多的事情可以投身。
数据处理：LLM需要海量的数据来进行训练，而且数据质量还得高、多样性也得强。这就需要有数据收集、清洗和管理能力的人才。
模型调优：比如如何提高训练效率、如何降低推理成本、如何提高模型的泛化能力等。这些问题的解决需要不同的技术和方法，而这些技术和方法可能并不需要做训练那样耗费大量的资源和算力。
模型选型和部署：考虑到成本和安全，在实际应用中，选择私有化部署一套自己的百亿量级的大模型的情况还是非常多的，说到底，就是工程能力。
模型性能评估：们需要有一个科学的标准去判断大模型的优势和不足。
检索增强生成（RAG）：通过检索外部相关信息的方式来提升LLM的生成能力，减少“模型幻觉”。
还有模型可解释性、模型内容审核、合规问题。。。
同时我们看到，低成本训练方案不断推出，AI Agent的开发范式变得越来越轻量、丝滑。所以，真的没必要那么悲观，NLP领域仍然充满着机会和可能性，对于一些小型的研究机构和团队来说，仍然有足够的机会和空间去探索和创新。

发表于 2025-4-9 15:06:11

因为NLP的小镇做题家时代结束了，不光是NLP，整个AI领域都是如此。

2012-2022是黄金十年，各种数据集的出现，各种网络结构的提出，各种框架的开源。
老黄也挺给力，算力跟得上，关键是，需要的算力真不大，成本并不高。
一个实验室，一个学生一张卡，不够的话，几个学生串一串，几张卡一起跑，都能跑出足以发顶会的文章。
部分企业、科研机构也愿意博个名声好招揽人才，也给员工提供一些计算资源，搞点儿研究。
总之，有脑子和勤奋就行了。

现在呢？大模型已经给实验效果定了下限，你的方案要是干不过的话，根本没人看。
各大芯片厂商，也都在出端上推理方案，大模型的推理算力很快就可以满足，云端就更不用说了。
这就造成了大模型必然成为未来主流研究方向。
但是，大模型的训练成本极高，你在别人的基础上微调，小修小改，根本算不上什么成果，很难发出文章。
最终，这方面的研究受限于钱，很多很多的钱，让很多研究人员无缘参与了。
能出得起这个钱的科研机构和企业，注定是少数。

对此感到绝望的，多半是水平一般，被挤出的底层科研人员，也许本身也不适合搞研究。
相对比较牛的人，反而是开心的，因为他们可以争取到资源，做最火最顶尖的研究，并因此获得财富。

发表于 2025-4-9 15:17:47

我们实验室就是做nlp的，今年年初all in 大模型，光今年AAAI就中了4篇......大模型来了nlp能研究的东西更多了，也更有价值

发表于 2025-4-9 15:26:18

nlp本身没死，但nlp的研究现在确实有点麻烦。

因为chatgpt为首的transformer系模型，或者说LLM模型的成功说明了一件事：力大真的飞砖。

什么意思呢？比如以前某个ai方向效果不好，那第一反应当然是改进算法，改进模型，用更精妙的逻辑去处理，或者加点小trick。
但是现在呢，transformer系的模型以非常简单的逻辑达到了比你更好的效果，你疑惑为什么，然后就在论文里看到了那几千亿的参数、几十个TB的数据量和可以预想到的训练所需的大到恐怖的算力需求。
而这种东西，不是一个普通实验者能够掌握的。
如果这就是AI的未来的话，那就意味着小实验室能做的将非常有限。你再怎么费劲改进你的模型，效果总还是比不上它们——只因为你没有那么多训练数据和算力。更不要说这些模型可迁移性还特别强，人家哪怕不是专门做你的方向的，干你这个方向的活效果也比你设计的专门做这个方向的模型效果好。那你的研究还有什么意义呢？
你说你要改进transformer？好的，先不管你怎么做到的，总之你认为自己的新方法把参数需求从几千亿降到几十亿了，数据量也降到了500GB。一百倍诶，真厉害。现在请把权重炼出来以证明你的改进方式没有导致严重性能下降。然后你就傻眼了，因为手头的算力炼这个一百倍改良版的都炼不出。你一次都没炼成过，自己都不知道这方法到底行不行。
所以nlp本身仍会在大组织的推动下继续发展，但nlp研究也将变成只有它们才能做的事。普通研究者最多做点偏落地和应用的东西了。

（以上事情并不是一定会发生，只是说现在看来有这个趋势，然后有些人正是因为认同这个趋势而沮丧。至于我本人还是比较乐观的。原因和评论区的某位老哥说的差不多，技术和算力的发展总会带来新希望的。）

————————————————
4.14更新
微软开源了个新的“低成本训练方案”，据说能让大部分人都大部分人都训练的起自己的chatgpt。给出的预估开销是Azure云9小时，合300美刀。那确实只要有必要都训练的起了。
所以嘛，发展总还是会带来希望的。
————————————————
↑一年过去了，没掀起啥风浪。（摊手）现行模型还更大了。
等看看明年来能不能再打脸打回来吧。
<hr/>2025年初更新。
deepseek，牛。

为什么说NLP死了？

本周热门