我在计算机读研，选择人工智能方向了，有自然语言处理nlp，还有计算机视觉cv，请问选择哪个更好？

我目标就是，好发论文就行，求有经验的各位哥哥姐姐们，给点经验，谢谢啦。

发表于 2025-4-9 13:07:13

两个方向目前都存在一定的瓶颈，但是瓶颈的体现之处又不完全一样。
cv 的瓶颈体现在它目前的成果框架已经相对较为成熟，该解决的问题基本都解决了，想要再找到新的研究问题会相对困难，大多数是在重复造轮子。
nlp 的瓶颈体现在我们明明知道有很多东西亟待解决，但就是没有一个合适的方法去研究这些问题。自从 Transformer 出现之后，这个领域就基本没有什么完全创新性的突破了，基本上都是围绕着自注意力机制来做文章。
还有一点是，cv 领域的归纳偏置主要是生物层面的感知，而 nlp 领域的归纳偏置主要是心理层面的认知，后者的研究难度明显大于前者，这也是 nlp 难以推进的一个重要原因。
就发论文难度来说的话，我觉得这两者难度相当，cv 的成果相对丰硕，研究思路更为开阔。而 nlp 的一些研究大多是 scratch the surface，很难在短期内做到研究方法论本身的突破，但是一些 simple but effective 的方法还是挺多的，发起文章来也不算很难。对于一个刚入门的人来说的话，可能还是选择 cv 会相对轻松一些。

发表于 2025-4-9 13:19:14

CV和NLP是目前计算机方向最大的两个领域，CV第一NLP第二，这两个方向发top文最多，当然水文也比较容易。
CV方向主要包括图像识别、目标检测、图像分割、图像检索、关节点识别、图像生成、视觉导航等。三维重建等SLAM技术也属于CV，比较古老了，但SLAM是无人驾驶中基于构图导航的基础。这里每一个方向又细分很多小方向，每个小方向都有很多未解决问题，所以发论文还是比较方便的。另外CV最近也取得了长足进步，解决了很多实际的问题，应用性很强。
NLP方向主要包括文本分类、信息提取、信息检索、自动问答、知识图谱、推荐系统等。同CV，也是每一个方向又细分很多小方向，也属于应用性很强的方向。NLP的应用更贴近生活，但你跟小冰、各种客服等机器人聊天就可以了解，距离通用型应用还有距离。发文章同CV，也属于比较容易的。
这两个方向的文章都高度一致，非常严格：要求公开数据集上跑，很多数据集都给分好组了；你如果使用别的数据集做了预训练，必须声明，否则属于作弊。
将来的几年，应该是打通CV和NLP的gap的几年。这里需要提一下zero-shot，他起初的思想是这样：CV领域要识别一般目标，需要有数据进行训练，如识别马就必须有马的图像。考虑这样一个场景，我们有马的图像，可以学习到这种形态的就是马；有老虎的图像，可以学习到这种外表是斑纹；我们有熊猫的图像，可以学习到这种颜色是黑白。我们没有斑马的图像，但告诉系统斑马是有黑白条纹的马，就可以找出它，这就是zero-shot，就是找从来没见过的一个东西（实际测试集如果有见过的也有没见过的，反而更难）。
如果打通了CV和NLP这个GAP，那么就可以利用CV的外观和NLP的语义，向人工智能迈进一大步。（这一步是可预见成立的，不是神棍那种哲学上的成立，目前这个方向已经火起来了。）
应用最强的，CV和NLP几乎每个方向都可以。

发表于 2025-4-9 13:31:25

好发论文首选自然语言处理，毕竟还有一大堆问题留着给你解决。
小方向比如说对话管理 Dialogue Management、文本生成 NLG、知识图谱KG、知识表示、多模态、无标签知识抽取、知识推理、强化学习和nlp的结合等等，往细节处耕耘又会出现一大堆的问题，问题多到数不过来。
CV 现在大产业的解决方案相对成熟，但在细分领域也还有些机会。

发表于 2025-4-9 13:41:26

我是做CV领域的，NLP了解过一点。是因为最近NLP那边的Transformer降维打击CV才了解了一些的，但是还是不够了解NLP领域，所以我只能说说CV这边。
正如大家所说的，CV的发展很快，日新月异，方法更新迭代的特别快，我觉得可能是因为图像在日常生活中的应用确实非常广，而且图像中包含的信息也非常丰富。总的来说，CV领域能做的方向非常多，个人感觉高分的论文是很难的，如果是发比较一般的期刊，肯下功夫的话，应该还是有不少机会的。
其实我感觉只要是深度学习方向，最近都卷的蛮严重，但是只要下功夫去钻研，发论文倒也不像想象中的那么难。这是我比较个人的看法，希望有所帮助。

发表于 2025-4-9 13:56:14

这两个差不多，简单说下情况，首先都卷的不得了，得发很多文章
CV：上手简单，缺乏可解释性，多炼丹，更玄学，发展已经很全面，难做出新东西，要挖掘新东西比较难，但是容易毕业，好水文章，nerf类似工作是一个还可以的方向
NLP：上手稍难相比较CV，稍具可解释性，目前非常火，属于最火的前沿，还在猛烈发展，没有进入冷却，但是随着transformer出现，也比较难做出新东西，多模态是一个还可以的方向，更容易水文章。
更好的是现在多模态和google pathways的发展，都是结合cv和nlp两个领域的东西，目前最好的，所以更合理的是研究双方融合的方向。

我在计算机读研，选择人工智能方向了，有自然语言处理nlp，还有计算机视觉cv，请问选择哪个更好？

本周热门