大语言模型背景下，NLP从业者前景，要换个方向么？

除了少部分如推荐，知识图谱等功能，大部分如分类，实体识别，信息抽取等功能都能通过大模型出来，而且比以往每个功能搞一个模型效果好多了，这样的话会大模型很快普及后，nlp人才需求肯定缩水很多，所以是否得提前规划出路？另外，大模型能搞得公司肯定很少，不足以去卷这个了，年纪大了

发表于 2025-4-9 14:18:34

先说结论，提前规划肯定是必要的。大模型影响的不仅仅是NLP的从业人员，大家都在琢磨怎么应对，这是趋势。但我觉得如果题主已经在NLP领域有一定的积累，那其实现在的机会是远远大于风险的，而最大的风险就是停止不前。那么作为一名NLP工程师，该做哪些准备才能把握住机会呢？可能需要三步走：识别核心技能，构建新的技能树，以及提升产品意识。接下来让我为你一一拆解。
从NLP到大模型

NLP起步于20世纪50年代的专家系统，这个阶段的NLP主要基于规则和模式匹配，其应用范围相对有限。随着计算机性能的提高和语料库的积累，NLP开始进入基于统计的方法阶段，开始使用概率模型和统计学习方法，如隐马尔可夫模型（HMM）和条件随机场（CRF）被广泛应用于词性标注和命名实体识别等任务。

2011年，NLP开始迈向深度学习。2013年，Word2Vec模型的提出标志着词向量表示的一个重要里程碑。随后，BERT、GPT等预训练语言模型的出现，使得NLP领域进入了一个新的时代。这些模型通过在大规模无标注数据上进行预训练，学习到了丰富的语言表示，极大地推动了NLP任务的性能提升。随着模型规模的不断扩大，大模型（LLM）如GPT-3的出现，NLP领域进入了大模型时代。这些模型具有巨大的参数量，能够处理更加复杂的语言任务，并在多个任务上展现出泛化能力。

虽然不知道题主是在哪个阶段接触的NLP，但回顾它的历史也可以帮助梳理出这个领域的核心技能，那就是概率统计、深度学习以及预训练。题主要学习LLM，不需要重新种一棵树，而只需要在原有技能树的基础上做嫁接。
新的技能

当下想要用好大模型，也有三个技能是绕不过去的，那就是提示词工程、模型微调以及构建智能体（AI Agents）。
自从chatGPT面市之后，网上出现了大量的prompts示例，很多人声称只要照搬他们的prompts就可以实现出色的效果。这当然是不可能的，但是为什么不可能，知道的人就不多了。

提示词工程（Prompt Engineering）就是研究怎样设计和优化输入到模型中的提示（prompts），以引导模型生成期望的输出。这可能是LLM领域应用最广泛的技能，但它的内核其实就是概率统计，因为transformer架构本身就是基于概率的预测。想写出优秀的prompts, 就要根据大模型的特点，不断提高生成优秀答案的概率。让我们通过一个例子了解一下。
假设你是一位市场营销经理，负责为一家专门向家具零售商销售家具的公司设计网站内容。你的任务是创建一系列有效的提示，帮助公司的大模型生成针对目标客户群（家具零售商）的营销文案。首先你要明确定义任务，比如生成营销文案，避免使用模棱两可的语言。然后你需要凭借你的领域知识给出与任务相关性强的提示词。在这个案例里，由于目标客户群是零售商而不是普通消费者，所以你可以强调技术细节和材料的重要性。例如：“请根据以下家具的技术规格和材料特性，生成一份面向家具零售商的营销文案。”。
接下来，你需要给大模型“思考的时间”，通过分步骤的提示来指导它完成任务。你可以这样提示：“首先，分析这些家具的设计特点和技术优势；然后，考虑这些特性如何满足零售商的需求；最后，创作一段文案，突出这些优势，并提供与零售商解决方案相关的案例。”
最后，你需要通过实验和迭代，不断测试和改进提示，分析大模型的响应，逐步提高文案的质量。比如使用与目标客户群相匹配的语言风格，以及确保文案中没有任何可能导致误解或偏见的语言。
在实际应用中，我们还需要考虑如何平衡Prompt的多样性和模型的特定任务对齐，以及怎样提高Prompt的泛化能力等问题。这些关于提示词工程的内容在知乎知学堂最近推出的《AI大模型进阶之旅》公开课，讲解的就很清楚：
尽管提示词工程已经很全面了，但仍然无法避免大模型的幻觉问题，比如上述例子中生成的文案可能会由于缺乏引用数据而没有说服力。目前比较常用的解决方案是先从互联网上找到相关的数据引用，再用这些信息来构建有说服力的结果。就像微软的Copilot或者国内的Kimi那样。这就不得不提大模型应用的开发框架 -- LangChain。

LangChain框架致力于辅助开发者利用语言模型打造全面的应用程序。该框架配备了多样的工具集、构建块和接口，以优化大型语言模型（LLM）及聊天模型支持的应用程序的开发流程。LangChain的核心概念包括Components and Chains、Prompt Templates and Values、Example Selectors、Output Parsers、Indexes and Retrievers、Chat Message History以及Agents and Toolkits。
在LangChain中，组件（Component）是构建应用程序的模块化部件，而链（Chain）则是将一个或多个组件组合起来以完成特定任务的序列。
Prompt Template的功能是生成PromptValue，即传递给语言模型的最终数据，这有助于将用户输入及其它变化信息格式化为模型可理解的形式。Example Selectors在需要在提示中包含变化的示例时显得尤为关键，它们根据用户输入提供一系列候选示例供提示使用。Output Parsers的任务是将语言模型的反馈转换成更加实用的格式，简化了应用程序对结果的处理过程。
另外，LangChain还装备了处理各种索引和检索工具的功能，包括向量数据库和文本分割器等，以及Chat Message History类，它记录了过往的聊天互动，有助于保持对话的连贯性并增强模型对交流的理解。
在LangChain框架中，Agent作为决策的驱动力，它具备访问多种工具的能力，并能够基于用户的输入选择适当的工具来执行任务，例如检索网络信息。
当我们使用了提示词工程，并且在一定程度上消除了大模型的幻觉之后，想要在具体业务场景中发挥出大模型的优势，还需要关键的一步：微调。

大模型微调（Fine-tuning Large Models）是指对大型预训练模型进行额外训练的过程，以使它们更好地适应特定的任务或数据集。这种微调涉及到在特定任务的数据集上继续训练已经通过大规模通用数据集预训练过的深度学习模型，如GPT-3、BERT、T5等。它们拥有大量参数，经过微调的模型能够迅速掌握新任务，并在多种应用场景中表现出卓越的性能。
这一部分可以说是NLP工程师的强项，包括根据任务的需求选择一个合适的预训练模型，
以及准备一个与任务相关的数据集。这个数据集应该包含标注好的样本，以便模型能够学习任务特定的特征，然后根据任务的类型（如分类、回归、生成等），对预训练模型的输出层或头部进行适当的修改，以适应特定的输出格式。
为了使微调后的模型在新任务上表现更好，我们可能需要调整模型的参数，并且在独立的验证集上评估模型的性能，然后迭代优化。这包括调整超参数、增加正则化、使用不同的数据增强技术等内容。这里要注意大模型可能会过拟合到特定任务的数据集上，特别是在数据量较少的情况下。
提示词工程，应用开发框架，模型微调，掌握了这些技能就可以入门LLM了，但要想做好，还需要一点技术以外的敏感和洞察。
产品意识

虽然大模型普遍对计算资源的需求很高，但中小型公司也并非完全绝缘。举个例子，最近的小米汽车搭载的模型只有1.3B的参数，可以算得上袖珍了。为什么小米会选择在它最新的产品上搭载一个这么小的模型呢？原因只有一个，“够用就好”。据说这个模型不仅能实现文生图，更可融合车的位置、方向、视觉等信息，辅助语音交互，做到“只要用手能控车的功能，语音交互就能覆盖”。这是典型的场景思维，也是产品思维。
作为刚开始接触大模型的新手，虽然拥有强大的计算资源是一个优势，但最关键的是识别和发掘那些能够充分利用LLM潜力的应用场景。这意味着，我们应该专注于那些能够通过LLM的强大处理能力来解决实际问题、提升效率或创造新机会的领域。通过这种方式，我们可以开发出具有实际应用价值的解决方案，而不是仅仅追求技术的新颖或者短期的热门研究。

为了做出真正有价值的产品，我们需要深入一些细节，比如在大模型微调过程中，如何平衡新任务数据和预训练数据之间的权重？如何选择合适的学习率和训练周期？怎样避免过拟合问题？怎样使用LangChain+LLM构建本地知识库等内容。作为一名NLP开发者，我推荐听听知乎知学堂最近推出的《AI 大模型进阶之旅》公开课。由行业顶尖的大佬解读此次AI技术革新，带你入门LLM开发，涵盖从环境搭建到应用部署的完整开发流程。我听完觉得讲的还是很透彻的，现在免费，推荐你来听听：
<a data-draft-node="block" data-draft-type="edu-card" data-edu-card-id="1765812107336167424">

发表于 2025-4-9 14:27:49

在大模型时代，再搞模型是没前景了。NLP从业者需要更加关注Data-centric AI。
什么是Data-centric AI?

https://arxiv.org/abs/2301.04819

Data-centric AI是一种搭建AI系统的新理念，被吴恩达老师大力倡导。我们这里引用下他给出的定义

Data-centric AI is the discipline of systematically engineering the data used to build an AI system.
— Andrew Ng

传统的搭建AI模型的方法主要是去迭代模型，数据相对固定。比如，我们通常会聚焦于几个基准数据集，然后设计各式各样的模型去提高预测准确率。这种方式我们称作以模型为中心（model-centric）。然而，model-centric没有考虑到实际应用中数据可能出现的各种问题，例如不准确的标签，数据重复和异常数据等。准确率高的模型只能确保很好地「拟合」了数据，并不一定意味着实际应用中会有很好的表现。
与model-centric不同，Data-centric更侧重于提高数据的质量和数量。也就是说Data-centric AI关注的是数据本身，而模型相对固定。采用Data-centric AI的方法在实际场景中会有更大的潜力，因为数据很大程度上决定了模型能力的上限。
需要注意的是，「Data-centric」与「Data-driven」（数据驱动），是两个根本上不同的概念。后者仅强调使用数据去指导AI系统的搭建，这仍是聚焦于开发模型而不是去改变数据。
为什么Data-centric AI是未来？

https://arxiv.org/abs/2303.10158

以往大家研究的重点都在模型。但如今，经过了多年的研究，模型设计已经相对比较成熟，特别是在Transformer出现之后（目前我们似乎还看不到Transformer的上限）。从GPT-1到ChatGPT/GPT-4，所用的训练数据大体经历了以下变化：小数据（小是对于OpenAI而言，对普通研究者来说也不小了）->大一点的高质量数据->更大一点的更高质量数据->高质量人类（指能通过考试的标注者）标注的高质量数据。模型设计并没有很显著的变化（除了参数更多以顺应更多的数据），这正符合了Data-centric AI的理念。从ChatGPT/GPT-4的成功，我们可以发现，高质量的标注数据是至关重要的。OpenAI对数据和标签质量的重视程度令人发指。

https://arxiv.org/abs/2303.10158

从另一个角度来看，现在的ChatGPT/GPT-4模型已经足够强大，强大到我们只需要调整提示（推理数据）来达到各种目的，而模型则保持不变。例如，我们可以提供一段长文本，再加上特定的指令，比方说「summarize it」或者「TL;DR」，模型就能自动生成摘要。在这种新兴模式下，Data-centric AI变得更为重要，以后很多AI打工人可能再也不用训练模型了，只用做提示工程（prompt engineering）。
因此，在大模型时代，Data-centric AI的理念将越来越重要。
在这个AI发展日新月异的时代，我们需要不断学习。我们对Data-centric AI这个领域进行了总结，希望能帮助大家快速高效地了解这个领域：
Data-centric Artificial Intelligence: A SurveyData-centric AI: Perspectives and ChallengesAwesome Data-centric AI相关文章和回答：
一堆废纸：GNN中的Data-centric AI —— 图结构学习（GSL）以及基准库OpenGSL介绍一堆废纸：GPT模型成功的背后用到了哪些以数据为中心的人工智能（Data-centric AI）技术？进行data-centric的研究时，需要的算力大吗？大模型LLM领域，有哪些可以作为学术研究方向？

发表于 2025-4-9 14:39:57

先说结论：如果是业界，正是遍地黄金的时候。如果是学界，短期会受强烈冲击，许多PhD可能要延毕了，但长期来看未必是坏事
对于业界，之前NLP被诟病最多就是无法落地、需求不足，之前很多NLP工程师，说是NLP，其实都在做IR
说无法落地，可以举个例子。当初16年17年的时候，NLP也火过一波。当时最火的概念是智能助理，比如Siri、cortana、小冰。但最后大家发现智能助理根本不智能，应用场景也狭窄。毕竟你能用手机选选选就弄好的，为什么要交给一个话都说不流畅的智能助理。事实上，智能助理有用的场景可能就两个，一个开车，一个赖床，都是因为无法腾出手用手机罢了
而ChatGPT证明了大模型可以把流畅度推到一个非常靠谱的地步，这就给落地带来了希望
或许正是因为落地应用不多，之前模型也确实不靠谱，之前大部分互联网公司都把NLP当做一种花里胡哨的玩意，用来提升估值则可，实际应用就会加一堆手工feature。所以NLP工程师的需求也并不多
而且这一波宣传之后，大部分行业都感受到了ChatGPT能给他们工作带来的提升，需求猛增，相应工作、创业机会一定会更多
那有人可能会说：“可是只有Openai、百度这些公司有能力训练大模型，NLP哪怕在中等公司也没法训练”
这种人就属于还活在前BERT时代的。预训练+finetune早从19年就是一个普遍范式了，虽然说现在又有in-context learning，但数据本身是敏感的，那么怎么实现本地化部署的需求就一直存在
最典型的例子比如医疗数据，难道真的有公司能心大到把自己数据上传到Openai训练么？即使公司自己敢做，国家安全层面也会给你卡住，滴滴就是前车之鉴
再比如商业分析数据，这都是公司内部的数据，上传Openai不现实，直接用ChatGPT又不一定能符合公司本身的需求。而且2048容量的prompt也塞不进所有的公司数据，那么就必须在本地做finetune。光是这一种toB的需求，就足够养活一堆较平庸的NLP工程师了
更何况，谁说中等级别的公司就没法训出一个好的大模型（小公司确实不行）。GLM130B模型是可以在24张40G的A100上训的，这种成本中等级别的公司还是承担得起的。大概够在专业领域finetune出一个比GPT4（对，你没看错）更好的大模型
（感谢评论区 @mactavish 指出问题，24张40GA100的原话是原作者在github的issue里说的（continue pretrain and fine-tune · Issue #79 · THUDM/GLM-130B），确实和glm初始400张卡的需求差距挺大，由于我没有自己试过pretraining glm130b级别的模型，所以未经思考就记住了issue里这个说法。但模型参数利用效率是不断迭代的，暂且以作者原话说法为准）
一个典型的例子是中文故事生成任务（英文也是）上，其实ChatGPT做得并不好，哪怕GPT4也一样，细节描写极为模糊。亲测最好的反而是彩云小梦、glow这样的应用。原因很简单，glow是用晋江之类的数据专门训的模型
总之，对于业界，落地变得容易了，需求变成更多了，没理由机会反而更少
而对于学界，短期的冲击是一定的，但死的都是灌水的，长期看未必是坏事
可解释性、泛化性、评测标准、乃至怎么和ML理论联系起来，这些都是大家都知道重要，但难快速出成果的领域。为了毕业，以往大部分人自然不会啃硬骨头，而是排列组合水文章了事。就像当年BERT刚出来的时候，BERT this，BERT that，啥玩意套个BERT然后再改改就发了论文，号称在某个benchmark又提了多少多少点，展示了什么样的insight，但最后实测还不如RoBERTa
老实说，虽然许多博士得以顺利毕业，但反而阻碍了学界的发展
可有了ChatGPT，这些排列组合文章再怎么加trick换benchmark也搞不过ChatGPT了，那么大家的目光才会投到真正需要被解决的问题上来
当然，如果读博是为了功利考虑，那么这几年不建议读NLP的PhD，学界自己估计也在摸索，许多领域都得重新思考到底该研究什么。但如果真正爱好NLP，找个真正有洞见的导师，而非灌水科学家，说不定能开辟新的方向

另外，这种货色都有，知乎真是越来越药丸了。。

发表于 2025-4-9 14:48:50

先说结论，nlp人才需求大概率不变，也就是说收人还是会收，但是方向会大大转变。
我做生成式模型有一段时间，也想分享我这段时间的看法：
第一，传统NLP需求大大减少，传统的分类，识别，抽取这种，如果还只会用bert或者类似小模型（1亿参数以下）来做，会一些领域微调，模型上线裁剪啊，这种人大概率找不到工作！
第二，对有大模型部署经验的需求大大提高，超大模型（GPT3，ChatGPT等千亿参数量模型）这些效果确实好，但是实际训练，没几家能训练出，所以怎么去应用超大模型到自己业务中，可以选择去调用APi，可以选择大模型（百亿，十亿）。如何依照业务场景做选择是非常考验人的问题。
第三，对语料数据收集能力，prompt构造能力要求大大提高，其实我在测试文心和GPT3,4发现，与其说是zero-shot，倒不如说是prompt 监督输出！能写代码，能写日记，新闻都是之前微调指令集有，如果没见过，模型只能乱说。所以就和第二结合，怎么将大模型应用到自己业务上，这就需要与业务结合的prompt了！
第四，大模型训练的需求，超大模型的训练国内没几家大厂可以做，但是百亿量级的大模型，我觉得会有井喷的现象，我在测试中发现，百亿模型是可以真正能应用大业务中，而且效果不是很大折扣。如果训练效果好，是可以做成业务上通用模型的。

发表于 2025-4-9 14:58:54

作为一名在NLP领域洗数据、造数据的NLP清洁工，从去年开始迷茫到现在。以前我负责结合业务分文本数据、配合NLP算法工程师制定标注方案，去年ChatGPT出来我就感觉不太秒，原本很多工作已经不需要再做了，比如文本摘要、风格转换，以前那可真是费了姥姥劲去做标注方案、标注、标注分析了，现在不用了，大模型可以做得非常好了。
2月以来，开始转入做各大模型的评测工作，深入了解过如ChatGPT这样的大模型后，有点释然了：大模型其实就是NLP界的高级版Office，都会用office全家桶吧，我感觉以后NLP就跟office的word、excel、ppt之类的一样，除非老古董和文盲，基本都会用，但就使用而言有精通、熟练、用过之分。以prompt作为模型的接口，我们只需关注思维框架，让模型处理细节。在进行NLP标注时，我们需要对业务理解进行系统框架抽象，这是大模型自己无法直接完成的，但在我们给出合适的prompt指令下，大模型就能轻松完成很多工作。举个简单的例子，我想要在某些新闻或商品下控评，我只需要拆解出如何找到评价对象和保持情感态度一致的方法，就可以让大模型帮我完成剩下的工作了；再比如，我无聊剧慌了，但我知道一个剧本的是怎么产生的，所以我可以让大模型帮我写个剧本来自娱自乐。

随便找个新闻让模型生成评论，你可以把它换成外卖商品、淘宝评论，会玩后，我连按时间排序的评论都不信了

当我自己会用prompt生成剧本的时候，已经没耐心看知乎的那些小故事了

大模型对NLP算法工程师的影响可能比我这种工种要大一些，对于算法工程师的个人能力、硬件设施和团队水平的要求越来越高。只有那些财大气粗的大公司才能真正掌握这个游戏的规则。模型进化太快了，我上上周做了一个评测分析报告，还没发出去，结果chatgpt4.0出来了、国内百度、智谱模型也更新了，很多工作又重新来搞了一遍，而各大模型在短短数月、乃至数周之内的进化速度真的是让人震惊。这种情况下，如果没有在大厂占坑，小公司、小研究所要怎么搞？NLP算法工程师只能跟在大公司的后面喝点残羹剩饭，或者找准自己的定位，结合业务需求，做一些应用包装的工作。
大模型的出现并不会让NLP从业者失业，它抬高了一些门槛，也打开了一些新的门。在这个大模型的时代，大公司将专注于搭建庞大的技术框架，小公司则可以通过量产细致的应用来发挥自己的优势，个人从业者也可以通过掌握这些大模型，进行一些独立的小修小补工作，发挥自己的价值。大厂织布，小厂量产绣花，个人也能独立搞点小修小补。
如果题主还没有入行太深，建议多掌握点别的技能，如果已经这样了，那就硬着头皮往下走呗，这行还是有很多机会的。

备注：本人比较懒，这个回答由我提供大纲，Chatgpt4.0写完，我稍微修改了一下例子，衔接不当处，请忽视。

大语言模型背景下，NLP从业者前景，要换个方向么？

本周热门