张鹏 LV
发表于 2025-4-9 14:54:56
说NLP死了,是人为制造一种冷酷的悲壮感而已,实际上不过是玩法变了。
大模型到底杀死了什么
传统的NLP,把技术方向分成了信息抽取、文本挖掘、机器翻译、语音合成、语音识别等一系列任务去研究,每个任务有专门的模型和框架,有德高望重的专家。各种网络结构、各种框架像万花筒,只要你有些自己的想法,不需要多少算力资源,就能搞出来不少东西。那个时代,是科研人员的春天。
再说商业化这边。当去解决某一个特定业务场景的问题时,每个模型的建设都需要算法开发、数据处理、模型训练与调优过程。很多时候往往还需要对多个模型进行优化和深度融合,这也意味着每个企业都需要设一个算法作坊,需要养着一大堆的算法工程师来做造轮子的工作。
这种模式,对于算法研究员和算法工程师来说,有身份、有地位、有意思。可从工业化生产的角度来看,这显然是不经济的。
实际上在2018年BERT诞生的时候,很多的任务就已经在一定程度上被统一,NLP已死就已经被喊过一遍了。大模型成了主流之后,一切变得更不一样了。
对科研工作来说,可研究的领域变尴尬了。首先大模型训练成本高得吓人,根本玩不起。普通研究人员,在卡的这一步就被拦住了,只能做一些边边角角的工作,很难搞出什么大动静。其次,大模型用大力飞砖的方式,暴力解决了问题,NLP的中间任务,包括中文分词、词性标注、NER、句法分析、指代消解等,不存在了。
再看工程开发这边。预训练大模型增强了人工智能的通用性、泛化性,基于大模型通过零样本或小样本精调,就可实现在多种任务上的较好效果。算法工程师在特征设计和算法优化方面的专业知识和技能甚至很难派上用场了,随时面临被边缘化的尴尬。
一个通用的轮子造好了,它又大又圆又抗造,靠纯手工造轮子的手艺吃饭的老师傅自然泪流满面。
从Bert到GPT,再到百花齐放的百模大战,预训练模型显然是大势所趋。大模型“预训练+精调”模式带来了新的标准化AI开发范式,实现AI模型在更统一、简单的方式下规模化生产。这种模式显然更加有助于促进AI的工业化生产进程。
如今的形势是,台子已经搭好,就差唱戏的登场了。所以,打扮打扮登台,拥抱大模型才是明智的选择。可以确定的是,这其中必然会衍生出更多岗位,但想胜任这些岗位,就必须更了解大模型。
好在,现在大模型训练成本都在迅速降低,也很容易入门。详细的原理以及训练方法我非常建议去听听知乎知学堂的AI大模型公开课。这个课正是为了适应当下AI大模型的发展而推出的。干货很多,尤其是课程里关于Transformer 的原理、使用Fine-Tuning进行模型微调的技术一定要仔细听。
入口我直接给大家找过来了,直接听就可以⬇️
我们看到,依托于既有的IaaS设施与PaaS平台架构,全新的MaaS(Model-as-a-Service)层正在产生,成为了新型AI基础设施。这些都极大降低了AI开发门槛,让更多企业或开发者可以低成本、高效率地获得AI能力,应用到自己的业务中。
因此,对于传统NLP的需求大大减少是必然的,大模型杀死的不是NLP,而是死守着固有的开发和研究方式不愿改变的算法工程师!
有哪些是杀不死的?
业务场景的复杂度不会变,问题都还在,这些是杀不死的,只不过解决问题的方法变了而已。而且随着AI能力的跳跃式增强,以及人工智能进入产业化发展阶段,AI在商业上的盘子一定是变大了,而不是缩小了。
想想那些永远在说车轱辘话的“人工智障”客服;想想费九牛二虎之力才能搭建起来的知识图谱;想想智能驾驶的广阔蓝海。。。我们但凡能想到的AI+场景,都值得用大模型的“聪明脑”替换一遍。
拥抱大模型
虽然能够参与大模型训练的机会凤毛麟角,但是围绕大模型,真的有太多的事情可以投身。
数据处理:LLM需要海量的数据来进行训练,而且数据质量还得高、多样性也得强。这就需要有数据收集、清洗和管理能力的人才。
模型调优:比如如何提高训练效率、如何降低推理成本、如何提高模型的泛化能力等。这些问题的解决需要不同的技术和方法,而这些技术和方法可能并不需要做训练那样耗费大量的资源和算力。
模型选型和部署:考虑到成本和安全,在实际应用中,选择私有化部署一套自己的百亿量级的大模型的情况还是非常多的,说到底,就是工程能力。
模型性能评估:们需要有一个科学的标准去判断大模型的优势和不足。
检索增强生成(RAG):通过检索外部相关信息的方式来提升LLM的生成能力,减少“模型幻觉”。
还有模型可解释性、模型内容审核、合规问题。。。
同时我们看到,低成本训练方案不断推出,AI Agent的开发范式变得越来越轻量、丝滑。所以,真的没必要那么悲观,NLP领域仍然充满着机会和可能性,对于一些小型的研究机构和团队来说,仍然有足够的机会和空间去探索和创新。 |
|