大模型时代下，nlp初学者需要怎么入门？

发表于 2025-4-9 13:21:54

尽管我最早不是全部精力都集中在NLP的操作上，但是最近几年一直在做LLM相关的工作，所以我想，NLP未来的路我是很清楚的。未来任何一个方向都变成了LLM或者MMLM了。
所以综合一句话：
打好编程基础，理解以前的各种传统方法与CNN+RNN的大概原理，以后要集中在Transformer上。
编程基础比较好理解，也不难：
建议从Python语言入手，因为它拥有丰富的NLP库和框架，如NLTK、spaCy、Pytorch、Numpy、Pandas、Transformers等。所以掌握Python的基本语法和常用库是进入NLP领域的第一步。

同时你一定要熟悉Pytorch这个现在差不多是AI的开发基础库了。

Python是AI的开发语言。
Pytorch是AI的开发基础库。

再简单列个传统方法的基本概念。就是下面这些东西，你要清楚它们的大概原理还有功能，如果做对比实验啥的，能在网上找到现成的代码，然后把环境搭起来，跑个对比结果就好了。
词袋模型（Bag of Words, BoW）、TF-IDF（词频-逆文档频率）、N-Gram模型、词嵌入模型（Word Embeddings）、隐马尔可夫模型（Hidden Markov Model, HMM）、条件随机场（Conditional Random Fields, CRF）
当然了，如果你就特别喜欢把一个学科从头到尾都搞成“通透”，那我真的很佩服你，这个也都是过去的传统NLP必备的基础知识，我想它的核心是HMM，如果你真的搞懂它，其实还是对以后的工作大有裨益的。
再谈核心的未来工作：
CNN与RNN要懂，至少手写代码要没问题才成。同时我真的建议你，把RNN这个东西搞得再深一些：
递归神经网络（Recurrent Neural Networks, RNN）
这是最基础的序列模型了，在过去的NLP处理中，曾经也是SOTA的存在。你可能要读一点儿代码与论文，关于它怎么用在语言建模、文本生成和机器翻译等任务。
长短期记忆网络（Long Short-Term Memory, LSTM）
LSTM是RNN的改进版本，通过引入记忆单元解决梯度消失问题，能够更好地处理长距离依赖。它在机器翻译、文本生成等任务中，是刷新过RNN的。如果没有Transformer这个结构，可能现在大家还在努力想怎么改进RNN。

RNN适合处理短期依赖的序列数据，而LSTM则通过门控机制扩展了记忆能力，能够更好地捕捉长距离依赖。这句并不是空话。
但是当GPT3的1750亿参数公布后，所有干NLP的发现，自己已经被绑到一个不得不上的战车上了。以Transformer为基础结构的LLM，是干NLP的差不多唯一的方向。
我们现在唯一要做的就是掌握大模型的基本原理
如果是初学者，可以从BERT、GPT等预训练模型开始，学习它们的架构和工作原理。特别是以下几点值得关注：
•Transformer架构：理解自注意力机制（Self-attention）和多头注意力（Multi-head attention）是解读大模型的关键。
•预训练与微调：学习如何使用预训练模型，并在特定任务上进行微调（Fine-tuning），如文本分类、机器翻译等。
•阅读最新论文：如阅读关于BERT、GPT系列和最新大模型的论文，以理解模型的改进与应用。
•参加社区讨论：加入Hugging Face等技术社区，学习其他开发者的经验与实践，参与开源项目。
在这个基础上，你可能就要看看自己是不是能系统化的掌握Prompt、RAG、FineTune、Agent这一系列的工作。也许未来你就要在这几个大方向上雕花。
比如FineTune，至少就有下面这几种花儿了。

Adapter Tuning
Prompt Tuning
prefix tuning
p-tuning & P-tuning V2
LoRA & AdaLoRA & QLoRA

现在又出现了强化学习（RL）这个方向。也许未来AGI真的靠它来实现呢。所以至少RL与FineTune的结合你要研究一下才成。
当然了，如果你想找个快捷且系统的方法，我推荐你考虑一下知乎知学堂的《用AI大模型弯道超车》。这门课是个免费课程。整个课程的研发核心人员是前得到的副总裁，还是LangChain的贡献者。所以在这一两次的试听课里就能把Transformer这部分讲解得非常透彻。可能你只需要听一次，自己就有了系统的认知了。在AI时代，找到最适合自己、最便捷的方式是很重要的。
我听了所有的试听课，基本上对于Transformer的结构、FineTune什么的都有了不错的介绍。对于我的知识体系，也能做到一个补充性的作用。所以建议你听一下，又不要钱，你为什么不给个机会自己？
现在是不是觉得nlp这事入门不难了。无论是选择慢慢来的自学。还是相对速度与质量都有保障的系统化的学习。你都会发现，自己一定会学会nlp的。
而在现在的AI界。nlp或者说扩展了nlp能力的llm/mmlm已经是整个AI界最火热，也是最基础的功能了。而AI也是以一个指数级的曲线在向前。你如果不在这快速发展的AI中占个位置，可能学会了nlp也会发现屠龙之术无用武之地了。
所以呢，学习要趁早！入局也要趁早，要不然啊，AGI后的世界，人类就是下面这样了！

发表于 2025-4-9 13:35:46

人工智能领域的发展可以说是日新月异，我几年前写的如何用3个月零基础入门「机器学习」？，现在再看已经非常过时了。而大模型时代的到来进一步让原本的模式发生了更大的改变，核心原因在于，很多原本需要靠我们自己去学习的内容已经直接被大模型给干掉了。比如文本生成其实是NLP里面很重要的问题，就是根据指令或者上下文生成内容。因此我认为NLP初学者入门应该把注意力放在（1）掌握基础以不至于空中楼阁和（2）了解当前大模型的前沿能力，避免在过时的问题上浪费时间。
先说掌握基础的部分，入门的中文资源推荐包括基本的《统计学习方法》（可以跳着看看）与《动手学深度学习》，前者由李航撰写，涵盖了机器学习的基础算法，适合作为初学者的理论入门，而后者则深入介绍了基于深度学习的开发，对于真的学习NLP本身是个基础。此外，在线课程如最经典就是斯坦福大学的CS224N，B站上有完整的翻译版本。西湖大学的张岳教授，也做了一门自然语言处理的公开课。在英文资源方面，推荐经典教材Speech and Language Processing，由Daniel Jurafsky与James H. Martin编写，覆盖了从传统方法到深度学习的内容们虽然大部分人应该不会真的读完。结合斯坦福大学在Coursera上的“NLP专业课程”和Fast.ai的“Practical Deep Learning for Coders”，可以系统性地学习NLP理论与实践。

第二部分就是了解现在大模型的实力，以及哪些任务已经做的很好了，因为很多经典任务可能现在已经不再用得到了。其实现在各种大模型平台已经很多，比如纯英文下面家喻户晓的OpenAI的ChatGPT和Anthropic的Claude。但是对于中文用户来说，尤其是NLP初学者来说，更需要的是中文的、全面且效果好的平台。在这个语境下，就绕不过智谱AI BigModel开放平台（BigModel），是中文大模型上能力最强的之一。我最近刚从西班牙开KDD会议会来，在智谱AI的展台上也了解到他们最近免费了他们的大语言模型GLM-4-Flash，同时还支持免费的微调活动。对于初学者而言，能够免费的通过GLM-4-Flash来体验NLP任务上的进展，不失为经济划算且有效的方案。
https://xg.zhihu.com/plugin/3c7704111a80bd1114aae644fce27d8a?BIZ=ECOMMERCE

先说说智谱AI最新的GLM-4系列大语言模型。GLM-4系列模型基于 Transformer 架构，这是当前自然语言处理领域最为成功的模型架构之一。GLM-4系列能够更好地理解和处理各种语言和文本。智谱AI为这些模型提供了丰富的、多语言的训练数据，并采用了高效的训练技术，使模型在处理任务时既准确又快速。GLM-4系列支持超过30种语言的理解和生成。模型还具备良好的多模态处理能力，能够理解和生成涉及文本、图像等多种类型数据的任务。此外，模型还集成了高级功能，如 All Tools 功能，它使模型能够调用外部工具完成复杂的任务，如代码执行、数据检索等。而GLM-4-Flash 是 GLM-4 系列中的一个特殊版本，主打快速响应和高效率，适用于需要快速反馈的应用场景。免费的 GLM-4-Flash 允许开发者和研究者自由使用和修改模型，这不仅降低了使用先进 AI 技术的门槛，也为 AI 社区提供了一个强大的工具，很适合搞研究的。而关于GLM-4模型家族的对比：https://open.bigmodel.cn/dev/api#glm-4
那么围绕着NLP里面的很多经典问题，我也试用了不同的场景并进行测试。同时，我设计出这些场景的初衷也是基于我们打工人的日常需求。
https://xg.zhihu.com/plugin/3c259a295c7d35608518cfef5940866f?BIZ=ECOMMERCE1.首先是内容抽取和文本生成，简单来说就是大模型是否可以从我的输入中抽取重要信息，并基于此进行内容生成。我率先测试的是输入我的知乎回答信息，让它总结我的画像并给出建议。从日常需求出发，这个对于很多自媒体从业者其实也挺重要的，可以根据自己历史的内容进行优化并迭代。因此对于大部分日常使用来说，可以用于优化简历内容或者对于职业发展起到一些初步规划。

可以看出，它可以很准确的抓住关于我的几个重要关键词：人工智能学者、高等教育从业者，且主要受众是计算机和AI领域的学生、研究人员和从业者。而关于如何进一步打造个人影响力，它也给出了一些建议，虽然我应该是没有毅力做到的。从这个案例中可以看出，免费的flash版本依然可以做到不错的抽取和生成能力。

2.在专业领域进行内容提升（比如对于PPT内容进行优化），这个涉及到的NLP知识包括自然语言理解和提升。这里我提供的我24年初开设的一门深度学习课程中，关于图机器学习的课件的第一部分。从日常需求出发，可以考虑用这样的免费模型来提升自己的PPT优化，为打工人的生活助力。

可以看到大语言模型提供的建议里就包括给出给出图机器学习在现实场景下的应用。而这个建议是很对的，因为本身的课件里其实就是有这个部分的，只是因为复制比较麻烦就没放进去（见下图）。

3.另一个我觉得很重要的就是双语或者多语言的翻译和理解。其实刚才的PPT优化已经给出了不错的例子，但我再提供一个更加有挑战性的案例，就是直接把我们最近KDD 2024的学术论文通过API调用的方法，直接让GLM-4-Flash来翻译成中文。从日常需求出发，我们可以用GLM-4-Flash进行科研写作，打开新思路，以及最纯粹的论文翻译功能。

这里稍微先提一下就是调用大模型除了在网页端直接互动，也可以很简单的像我这样直接在Python中或者其他程序里通过API调用（我打码了我的秘钥），可以参考这里的文档。

不难看出，即使对于原本是英文的纯技术类学术论文，它也可以给出较为通俗易懂的翻译。因此我继续上了难度，让它给出更多的关于此研究的下一步方向。

可以看出，即使只是提供一个摘要的内容，它也能举一反三的想出多模态、强化学习等可能的研究方向。因此其实还是很适合在校学生和科研工作者作为辅助工具的。
4.建立专属于自己的大语言模型。我们上面的实例讲的都是直接调用大语言模型，但其实除了直接使用现有的大语言模型，我们还可以利用手头的数据对模型进行微调，创建一个更适合自己需求的版本。GLM-4-Flash支持通过用户友好的界面进行微调，允许用户根据自己的特定需求和数据集对模型进行个性化定制。从界面可以看出，用户可以选择模型的基本配置，如“上下文大小”，这决定了模型处理文本时考虑的上下文范围。此外，微调界面提供了如“LoRA配置”和“全参数微调”等高级选项，使用户能够根据目标任务选择最适合的微调策略。

在微调过程中，用户可以设置训练的“Epoch”数量和“Batch size”，以及通过“Learning rate multiplier”调整学习速率，这些都是影响模型学习效果和速度的关键因素。我们还可以选择上传自己的训练数据，并在界面上直接操作，如设定结束符，以优化模型的生成控制。此外，这个微调界面提供了一键上传功能，支持上传 JSON 格式的数据文件，最大不超过100MB。这种设计考虑了操作的便利性和实际应用的需求，使得用户可以轻松地将自定义数据应用于模型训练，从而生成更加精确和个性化的语言模型。
要入门自然语言处理（NLP），一个有效的方法是直接实践最新的技术。智谱AI的GLM-4-Flash模型免费开放给所有开发者，提供了一个极好的学习平台。这个模型不仅支持多种语言处理任务，还能处理复杂的多模态输入，使其成为理解和学习NLP的理想工具。
利用GLM-4-Flash，初学者可以快速体验到从文本生成到语义理解等NLP核心任务的实际操作。我觉得大家可以通过探索GLM-4-Flash在真实世界应用中的不同案例，来深化对NLP技术的理解，并促进个人技能的发展。这种实践导向的学习方法能够帮助你快速掌握NLP的基本概念和高级应用，从而在这一日新月异的技术领域中找到自己的位置。
https://xg.zhihu.com/plugin/3c7704111a80bd1114aae644fce27d8a?BIZ=ECOMMERCE

发表于 2025-4-9 13:44:17

推荐一个学习资源，台大李宏毅老师的nlp课程，感觉很不错

李宏毅NLP(自然语言处理)完整课程，强推！_哔哩哔哩_bilibili2. 推荐一个论文网站
An Overview of Language Models | Papers With Code3. 推荐一个代码网站，里面常见的模型，代码都有
huggingface/transformers: Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX. (github.com)4. 推荐一个权重网站，开源的模型都有，真香
HF-Mirror - Huggingface 镜像站

发表于 2025-4-9 13:58:36

不需要看任何的书，github，和不知名作者写的博客/文章/知乎专栏，二手信息纯属浪费时间。
Huggingface tutorial is all you need
Introduction - Hugging Face NLP Course从分词到预测，有你需要了解的一切基础内容，阅读十分流畅，附带代码讲解。这是效率最高的解法，其他的都没用。
入门以后闲得没事就去看苏剑林的博客，每天刷刷arxiv。
<hr/>最近又看到了一些易懂而且高效的资源，持续补充

Andrej Karpathy的GPT系列教程，墙裂推荐，重点在于代码和工程细节，又结合了关键的理论；建议看完huggingface的课程直接看这个
Zeyuan Zhu的Physics of Language Models系列论文，对大模型的各种关键部件和问题设置了非常棒的实验并且充分讨论

发表于 2025-4-9 14:08:35

入门姿势简单粗暴：打一些必要的基础就跑步进入Transformer。
大模型时代，传统的算法，像分词、词性标注，被替代得非常厉害，在入门阶段没必要花费太多精力在传统算法上面。
数学和编程基础

数学：高数、线数、概率统计。大学水平就可以，如果基础差，可以后续边学边补。
Python：语言推荐python，基本上绕不过去。不用学太深，掌握Python的基本语法、数据类型、控制结构（如循环和条件语句）、函数等就够了
推荐资源：b站小甲鱼
pytorch：深度学习的主流框架之一。推荐b站刘二大人《PyTorch深度学习实践》、我是土堆的《pytorch深度学习快速入门教程》
跑步进入Transformer

学习Transformer模型的基本架构和原理，包括自注意力机制、位置编码、多头注意力等等。
推荐资料：
吴恩达的deeplearning系列课程
斯坦福CS224-深度学习自然语言处理
李沐老师的《动手学深度学习》
都是经典，选自己能听得下去的听，完成作业，在这个过程中构建完整的知识体系版图。

复旦大学邱锡鹏教授：神经网络与深度学习

Hugging Face Transformers：使用Hugging Face Transformers库来加载、训练、评估模型以及完成下游NLP任务。
预训练大语言模型

最近几年，随着gpt4，llama等带起的百模大战持续火热，预训练大模型这块的研究、应用和发展都受到了广泛的关注。尤其到了现今企业纷纷开始卷应用落地的时候，用人市场现状就是一方面有缺口，另一方面真正有全面项目落地经验的人才太少了。
我们自己招人时的体感也是一样的，就是一个抢人的气氛。人才紧俏的结果就是入行容易、薪资有溢价。所以你懂的，这就是机会啊！
像预训练大模型整套知识体系，包括常见的预训练模型、模型结构、主要的预训练任务等等，必须要有所侧重地学明白，无论是科研还是就业，都是重中之重。PEFT（Parameter-Efficient Fine-tuning）要学，有机会动手训一个大语言模型可行性比较低，但微调是每个人都可以实践的。另外就是要会langchain进行下游任务的开发。
具体的训练方法，我这里就不多讲了，强烈推荐大家来听听这节「AI大模型公开课」，主要针对的就是想进阶AI方向的产品经理和程序员，讲解大模型相关的LangChain、Fine-tune技术，从理论实践到深度讲解，带你全程体验微调过程。一定要仔细听，有老师带着，会比自己踩坑高效很多。

而且现在课程免费，点开还能领的一定要先占个位置：
这节公开课不仅有理论知识，还会教你如何构建自己的大模型应用，挖掘大模型时代的产品机遇和商业模式。如果你懂点Python，那这节课对你来说学起来会很轻松！相信你学完这个课程，对大模型技术与商业应用的认知会上一个台阶。
项目实践

除了参加学校实验室的项目，做开源项目、参加实习都是获得项目实践机会的方法。还有就是参加竞赛。这些竞赛项目一般会提高提供基本的数据集以及要解决的问题，同时也会给出一些baseline代码作为参考，非常有助于入门学习。
1）Kaggle
Kaggle大名鼎鼎的竞赛社区，有很多有意思的数据集和任务，可以通过参加Kaggle机器学习比赛来下载相关数据集。
2）天池大赛
阿里云举办的竞赛，完全来自真实业务场景。每场赛事沉淀的课题和数据集，在天池保留和开放。

国内的竞赛还有很多，和鲸，华为云，datafountain等等。
大模型时代，考虑到成本和安全，在实际应用中，选择私有化部署一套自己的百亿量级的大模型的情况还是非常多的。因此项目实践中药着重锻炼的不但有编码能力，还有工程能力。
大量阅读经典论文，积累代码经验

阅读论文是获取知识和理解最新进展的重要途径。一个是细分领域的经典论文，包括baseline；另一个是前沿方案。针对论文中提到的陌生知识点，去有意识地学习；还可以通过关注论文的引用和参考文献来扩展阅读范围。总之积累的过程中还要持续消化，对于前沿方案，在可能性、局限性应用前景和潜在风险等方面要能有自己的思考，别人问时能说出来东西。
Papers with code

里面有基于深度学习各个方向的论文和代码，找到自己感兴趣的，去实现它。注意一定要读有开源代码的论文，尽量去进行实现。
Github上的Awsome系列

近年来某个领域数据集、网络结构、论文，一网打尽，快速高效。
基础倒回来补

传统算法的基础知识对于模型可解释性、模型调试等方面具有重大意义。因此在掌握了Transformer等现代模型后，可以倒回来补充学习这些传统算法的基础知识，已达到更全面地理解NLP技术的本质和应用的目的。
为面试做准备

除了理论知识基础、项目经验、实习经验，按照当前的内卷形式，留出时间来专门准备面试是非常有必要的。可以尽可能多地过一些leetcode，多看一些面经分享。
针对AIGC算法工程师方面，建议单做一份简历，真的香。
最后，你可能会用到的资料：
小甲鱼的0基础入门课程：
<a href="http://link.zhihu.com/?target=https%3A//www.bilibili.com/video/BV1c4411e77t/%3Fspm_id_from%3D333.337.search-card.all.click%26vd_source%3Dfd90668d534118f9f843e8f95095184f" class=" wrap external" target="_blank" rel="nofollow noreferrer">【Python教程】《零基础入门学习Python》最新版（完结撒花）
PyTorch课程：
刘二大人《PyTorch深度学习实践》
PyTorch深度学习快速入门教程（绝对通俗易懂！）【小土堆】
Papers with code
https://paperswithcode.com/
Hugging Face
https://huggingface.co/
非常宝藏的中文LLM大合集：
https://www.github-zh.com/projects/643916827-awesome-chinese-llm
面试相关：
GitHub - DA-southampton/NLP_ability: 总结梳理自然语言处理工程师(NLP)需要积累的各方面知识，包括面试题，各种基础知识，工程能力等等，提升核心竞争力
GitHub - songyingxin/NLPer-Interview: 该仓库主要记录 NLP 算法工程师相关的面试题
祝早日修成正果！

大模型时代下，nlp初学者需要怎么入门？

本周热门