nlp研究生不会自己写代码怎么办？

看论文不会复现，只会看别人的代码，自己不会写

发表于 2025-4-9 14:32:28

太正常了，不然发论文要你公开仓库干嘛
就是因为作者大多数时间都不会跟你讲他的实现细节，所以才必须要在发论文的同时附一个可复现的开源仓库，不然没人知道你怎么实现的，到时候就一人一个样，都不知道自己是不是对的，谁敢用你的成果
RoPE，够重量级了吧，论文够细致了吧，苏神还很贴心的教你用向量乘法代替矩阵乘法，LLama和PALM不还是弄出来了两版不一样的
MQA，你看论文你看懂了，你复现你就挠头，如果你不去看源码，我保证90%的人想不到这里直接简单粗暴的把KV直接复制
可学习位置编码，够简单粗暴吧，可是如果你不去看一眼源码，你就永远不知道，原来它是先初始化一块够大的矩阵，然后再针对输入数据裁剪出一块来用的
其实三角式位置编码也一样，你如果不去看一下你可能要想很久才能想到只去一部分这个操作
所以看开源代码，太正常了，不如说这才是一个学习者该做的

发表于 2025-4-9 14:43:54

大家不要只收藏了，给孩子点个赞吧
————————————————
首先我觉得所有从事人工智能研究的同学都要注意工程能力的培养，有时候我真的觉得深度学习越来越像实验学科，如果你的想法能快速被验证，那么你整体科研的节奏会快很多。
接下来是正文
自己本科刚开始做科研的时候也因为这个问题困扰了很久，后面在 @李渔老师的指导下，一步步提高了工程能力。下面简单分享下两个方法
第一步是复现经典算法，例如word2vec这些。其实网上的代码已经很多很多了，但是尽量不要参考完整的代码，遇到问题和报错可以去查。这一部分，主要是熟悉深度学习的框架和Python语言。具体可以复现的算法，我当时参考的是复旦nlp @邱锡鹏老师的nlp-beginner项目。这个也是复旦nlp团队的入门项目，有一定学习价值。
第二步是完整复现论文（至少一篇），在此之前，你最好已经完整阅读推敲了一些nlp论文的源代码，对一些常见的文件/函数组织形式有一些理解（比如我就喜欢把训练一个epoch写一个函数，然后不喜欢用class）然后，找一篇你想模仿的论文，从头把整篇论文复现出来，我当时为了逼自己不去参考网上的代码，找了一篇google的用tf写的论文，用torch实现了出来。这一步会非常痛苦，但是这样训练两次以后，你就会发现你的工程能力得到了质的提升。
以上是我自己在入门阶段，提升工程能力的做法。这样的训练，如果每天三个小时（我基本上是八点到十一点，一周三四天），大概会用两个月，但是我觉得磨刀不误砍柴工，后面会越走越快的。
以上，希望对你有所帮助。

发表于 2025-4-9 14:57:34

同学你把科研过程中写代码这件事想的太复杂了。99%的论文中提出的模型都是对前人工作的“微整形”，也就是

你只需要选择一份最合适的论文开源代码，在上面魔改就行了：

A、B、C 都没有官方开源代码，甚至没有第三方复现：老实说，现在 NLP 领域开源做的已经很不错了，如果遇到这种情况，很简单，不要想着复现代码，而是换idea，找有开源代码的D、E、F

A、B、C 只有其中一个开源了：运行下能不能复现实验结果，如果可以，好的，答案已经有了，如果不行，尝试改进+与作者沟通，失败的话，换idea，找有开源代码的D、E、F

A、B、C 有两个甚至都开源：运行下能不能复现实验结果，将无法复现的排除，剩下的看哪个和“我的模型”更接近就选哪个

发表于 2025-4-9 15:05:55

可以求助ChatGPT，NLP中多用Python语言，而ChatGPT在Python编程上变现尤其出色，只要问题提的好，ChatGPT给出的代码几乎可以不经修改直接运行。
也可以用ChatGPT帮你解读每一行代码，我试过，很不错的。
还有就是咬牙自学，不是太难，多实践，很快就能上手自己写了。

发表于 2025-4-9 15:18:26

挑一个最简单的框架
（我觉得llama 2就不错，generate才300行）
然后在上面魔改成一个只有你自己看得懂的屎山
发论文够了
<hr/>23.8.28更新：
我随手写的东西能有好几十个收藏，其实有点意料不到，多说一点吧

我只懂generate这一步，就先来说为什么其他框架这部分代码，相比于llama2更复杂
过去，大模型出来的之前，大家对于最优的生成方式没有共识
最大化模型可能性的方法，就有greedy, beam search, stochastic beam search, diverse beam search……
单就这diverse beam search我就能找出七八种，若是找不出来，我现想也能给你想够八种
抽样的方法，就有sampling，temperature sampling，top-k/top-p sampling，nucleus sampling，以及几种方法的排列组合
除此之外，过去模型小，还得打一堆补丁。比如length penalty，repetition penalty，等等……
那么过去的框架，比如hugging_face，以及我更熟悉的seq2seq是怎么办的呢？
当然是全写上，任君挑选
于是，generate简简单单就突破3000行
代码不好的同学如我，头发也就跟着垮垮掉

那llama 2为什么轻量化了呢？
在大模型时代，大家似乎在生成方式上达成了一个共识
那就是nucleus sampling，或者只有temperature
当然chatgpt的内部代码我看不到，我只是根据llama2的代码猜测的。说得肯定错的比对的多，希望大家指正。
背后的原因，我想有几条。

beam search的成本随着beam数量的增加而增加，在过去模型小的时候inference的成本可以忽略不计，现在跑一次很贵。sampling没有额外成本。
sampling的生成效果更像人话，符合人类说话的distribution。但是如果temperature 设为1，生成质量又太差了，所以还是调一下temperature，取个折中。
抽样方法每次出来结果都不一样，满足用户对多样性的要求。如果用argmax类的方法想实现这一点，就得用那些diverse beam search 12345678，性能不好，主要是对diversity的定义不明确也不自然

然后，随着模型质量的提升，也可能是抽样方法的先天优势，生成结果过短和重复的问题也解决了。过去打得补丁似乎也不需要了。
所以llama2的generate.py就剩300行了。
<hr/>如果你想要实现你的beam search/diverse beam search/nucleus sampling/tree model sampling/常温超导sampling/先天八卦 beam search，怎么办呢？
那就打开hugging_face的代码，一行行看懂了，抄进你的llama2的git里。再改。
抄代码这事，一天一百行不过分吧
你就也别unit test了，大概也不会，直接边写边整个test
写一点test一点，肉眼debug
再复杂的方法，两三天也抄完了
不说对算法更理解，单就是自己写的屎那也比别人的龙涎香要更容易看懂
然后该干什么干什么，跑实验做测试写文章，手工小作坊呗
科研嘛，不丢人

那你要问了，我花这功夫，写出来代码还不如hugging_face原装，为啥不直接用人家的呢？
别人的东西，用着爽，貌似改个东西只用加个几行
但是，debug起来可能要花2-3周，比自己写一遍多了好几倍的时间
3000多行啊，你想找到哪个地方出错了真不容易，还是自己的屎山香
那你又问，说如果我没遇到bug，就用人家的。遇到了再重写，不更好吗？
我的经验是，人都是有惰性的。给你现成的，你肯定下不定决心抛弃不用从头写。
不如开头就逼自己走歪门邪道

最后一个问题，如果这么屎的代码，附在论文后面，不会影响其他人吗？
其实大家也都各自有自己一坨屎山
你的代码也就是pull下来跑一跑最基本的demo
剩下的工作，还是会在自己的屎山上复现，不会在你之上改的
<hr/>9.12 我低估hugging face了。它的model.generate至少3w行，里面可以设置的参数比这篇文章点赞还多
<hr/>12.7 我都惊了，hf源码里竟然有错！！！
Assisted decoding用的方法比speculative decoding的accept rate要差三倍以上
幸好我真的点开了那3w行代码，不然就寄了
珍爱生命，远离hf
<hr/>2024.1.12
我发现llama2背后的技术很多的，越学越发现里面的奥妙
把这么一个git repo钻研透，远比陷在huggingface的代码库中要好

nlp研究生不会自己写代码怎么办？

本周热门