计算机视觉和自然语言处理，哪个更具有发展前景呢，还是各有千秋呢？

本题已收录至知乎圆桌：人工智能 · 机器感知，更多「人工智能」相关话题欢迎关注讨论

发表于 2025-4-9 18:30:19

泻药。看大部分回答是五年以前了，现在是2022.6，我们和圈内几个大牛侃了一会这两个的关系，在这里分享一下。
先说结论：两者的融合是必然的趋势。先看大数据，根据聚类统计：

单单在顶会CVPR上，2020～2022的结合文本的多模态CV任务比例就分别增长了2.2%和2.7%，交叉影响因子顺利突破0.8大关，成为近期热点。比起NeRF这些近两年的CV纯种黑马，多模态可以说是在每届会议上都慢慢增长，自从兴起到现在已经过了五六年，属于是闷声发大财的类型，今年像End-to-end Generative Pretraining for Multimodal Video Captioning，Expanding Large Pre-trained Unimodal Models with Multimodal Information Injection for Image-Text Multimodal Classification，Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning……因为NLP很大，多模态能做的太多了，稳定增长几乎是必然的趋势。
- 多模态惹眼吗？
- 不，非常低调。每年都只有目标检测的五分之一，甚至八分之一。
- 多模态有前景吗？
- 有，因为稳定增长了六七年了。
- 目标检测比多模态论文多了个去了，你怎么不说目标检测？
- 你去纵向看看目标检测的论文数，已经连续四五年下滑了，现在都在搞什么小样本、无监督、自监督，花里胡哨的……
- 这些分支难道不是一个学科必要的研究吗？
- 当超过半数都是花里胡哨，说明已经遇到瓶颈了。
CLIP网络自从2021.1由OpenAI提出，连续两年成为聚类66类中的一大热词，每年论文数量爆炸式增长，2022年影响因子为1.655。这可不是闹着玩的，刚提出就到T1梯队去了，两年热度暴增，这说明一个超新星网络可能已经出现。OpenAI在大规模文本特征这边是真的杀的小实验室片甲不留，现在把文本特征和图像一结合，用文本来学习“概念”应用到图像的结构化上，一个钢铁巨兽DALL-E 2又诞生了。DALL-E 2就是用CLIP培养出来的怪物。
- CLIP为什么会火起来？
- 去玩玩DALL-E就知道。
- 为什么之前没有人提出呢？
- 没钱。
- 他奶奶的，玩阴的是吧？！没钱就做不出来是吧？
- 大头们还没用力往大模型砸钱呢，好戏还在后头。走着瞧。
NLP的Prompt Learning等方法开始大量渗透到CV领域。Prompt随着GPT-3时代的来临，已经在NLP火了两三年了，现在开始大量渗透到CV界，凡是有用到Vision-Language的，必然要被Prompt洗一遍。就拿CVPR 2022的几篇paper打比方：

Type	Paper
CV+Text	Conditional Prompt Learning for Vision-Language Models
CV+Text	Align and Prompt: Video-and-Language Pre-training with Entity Prompts
CV+Text	ADAPT: Vision-Language Navigation with Modality-Aligned Action Prompts
CV+Text	Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model
纯CV	Visual Prompt Tuning

我不听！我还是爱我的目标检测和图像分类！我要做显著性目标检测！要做细粒度图像分类！
给你讲个故事，李飞飞已经开始做Visual Genome Dataset了。
这是个啥？
基于知识库的结构化图像表示。
李飞飞是那个斯坦福的提出ImageNet的李飞飞吗？
嗯。Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations。五年，引用量3K+了。

Vision/Video QA火了五六年，刚看势头小下去，Scene Graph Construction又起来了，Video Event Graph也开始爆火，这两个方向可以说是刚好接着VQA的。这三个任务本质都是把图像信息结构化，只不过VQA做的是问问题后看，相当于做试卷，而后面两个都是自驱动的，相当于自问自答。Human-Object Interaction这边也是同样的道理，今年有这些文章：

Paper

Category-Aware Transformer Network for Better Human-Object Interaction Detection

What to Look at and Where: Semantic and Spatial Refined Transformer for Detecting Human-Object Interactions

Coarse-to-Fine Disentangling Transformer for Human-Object Interaction Detection

还算行，不温不火吧。李飞飞的论文Modeling mutual context of object and human pose in human-object interaction activities应该是目前影响力最大的。
怎么又是李飞飞？她叛变去NLP了？
我看你，是完全不懂哦。跟着这种巨佬走肯定不会吃亏的，只是大部分人都苟且当下，根本不观察学术风向。
Grounded Situation Recognition呢？
这东西我估计也很有前景，不过目前还在娘胎里。
这个方向怎么样？

发表于 2025-4-9 18:39:50

我的观点是倾向于CV和NLP双修，一主一辅。
语言本身就是对物理世界的高度抽象，而之前CV领域还停留在对于图片的感知阶段，如果CV领域要想进一步对图片内容进行理解推理，就必然需要借助语言的高度抽象。近年来，CV和NLP都各自出现了可以进行大规模预训练的模型ResNet和BERT，这给多模态的下游任务提供了强有力的保障。

如前排大佬所说，DeViSE是第一个尝试视觉和语言跨模态检索的方法，将训练好的视觉模型和语言模型的embedding做相似度度量(也就是通过语言模型对图片进行语义化和结构化，将图片映射到词向量空间中，词向量是参考向量，跟词向量语义接近的图片会聚类到词向量周围，形成一簇一簇的图片向量)。相比于监督学习，跨模态检索的一大优势是可以预测没有见过的图片，也就是可以做Zero-Shot Learning。

而去年的CLIP其实就是DeViSE的改进(DeViSE语言模型的输入是&#34;{类别}&#34;，而CLIP的是&#34;A photo of a {类别}&#34;)，CLIP展现出了跨模态检索惊人的实力，计算机视觉跟自然语言处理联系越来越紧密，如何通过语言模型和视觉模型对语言和图像进行精确对齐，将是计算机视觉和自然语言处理进一步发展的重要方向。最近大火的prompt-tuning范式，可以为计算机视觉和自然语言处理的推理认知提供更多的启发(实际上DeViSE和CLIP都是prompt-tuning的特例)。
这里再讲一下soft label和word2vec的联系，soft label就是一个多维的词向量空间，纬度数等于类别数，word2vec就是希望通过one hot得到一个词向量空间，label smoothing就是人为构造的词向量空间，而知识蒸馏teacher的soft label是通过学习得到词向量空间，和word2vec的不同之处在于，知识蒸馏是图片到词向量空间，而word2vec是语言到词向量空间。从这个角度看，知识蒸馏就是跨模态检索的一种特例(图片到soft label的词向量空间映射)，这也能说明图片和语言精确对齐的必要性，潜力无限。
Prompt—从CLIP到CoOp，Visual-Language Model新范式下面介绍一下CV+NLP双修(CV为主，NLP为辅)的算法技术栈。

整个算法技术栈分成3层，数学和数据结构与算法是基础，机器学习和深度学习是建模方法，CV和NLP是具体应用。

上图是CV和NLP涉及到的一些经典方法和应用。
CV+NLP双修范围
数学：微积分、概率、矩阵
数据结构与算法：数据结构(数组、哈希表、队列、栈、链表、树、图)、经典算法(分治、动态规划、贪心、回溯、分支界限)
机器学习：LR、PCA、SVM、HMM、CRF
深度学习：基础算子、优化器、BP
CV：传统视觉、图像分类、目标检测、语义分割
NLP：语言模型(NLP为辅只需要了解语言模型即可)

入门资料
竞赛：kaggle、阿里天池
编程工具：Python、PyTorch、OpenCV
代码库：
图像分类：pytorch-image-models 基本上涵盖所有主流网络
目标检测: MMDetection、Detectron2 这两个都是优秀的代码库，值得学习借鉴
查阅各个领域的最新进展，可以查阅这个网站，会记录一些sota的paper和code链接：paper-with-code
数学：3Blue1Brown 假设有一定数学基础，3blue1brown增加感性认识用的
数据结构与算法：清华大学邓俊辉数据结构与算法、剑指offer、Leetcode
机器学习：李宏毅2021机器学习、统计学习方法、西瓜书
 计算机视觉：CS231n
自然语言处理：CS224n

进阶资料
经典算法：【麻省理工公开课】【算法设计与分析】了解经典算法思想的来龙去脉
机器学习：【机器学习】【白板推导系列】、PRML 硬核推导，修炼内功
计算机视觉：计算机视觉算法与应用 CV宝典，大而全，宏观视角看计算机视觉
欢迎关注<a href="http://link.zhihu.com/?target=https%3A//mp.weixin.qq.com/s%3F__biz%3DMzg4MjQ1NzI0NA%3D%3D%26mid%3D2247484676%26idx%3D1%26sn%3Db3e1d55fe9b0bba767ede2b5eaf65e05%26chksm%3Dcf572af7f820a3e1d287ce8e6d90e1a711a7a431fad577fbcbce82342af06f79a7d77e6cc6ae%26mpshare%3D1%26scene%3D1%26srcid%3D1016B6547fKNGgPPgruP5SoL%26sharer_sharetime%3D1602781937254%26sharer_shareid%3D82cee3a8f0a8ff7eecd2ceefe336efb7%26key%3Df574234d23a61558200582ee93330fd874a26c01c3135b6fa7da5a8ee9293860e990e5df26a6a12b60add19c1e435e9c5c5a790bbf259b995606c51cf98b120940101c054a829d9c6ed48bed205ce22c008e14d5982c7e5d894b3521a72a3df3d1bb721546cce756b41f51a0eedc0c3d251fd696250ed11ef302defd6ac32aa3%26ascene%3D1%26uin%3DMjg2NzcxMTYxMA%253D%253D%26devicetype%3DWindows%2B10%2Bx64%26version%3D62090070%26lang%3Dzh_CN%26exportkey%3DA3I5K5BT6jZRREZDCEHhodo%253D%26pass_ticket%3DGaUOlhvnIhLjiMbxtLcTZyWL7ksGkja0M6SXxgiJcurYxGHGyJOdo7KmfnjlcSR3%26wx_header%3D0" class=" wrap external" target="_blank" rel="nofollow noreferrer">Smarter，构建CV世界观，输出优质内容
欢迎加入Smarter交流群，添加微信「cjy094617」，备注「学校-方向」即可

发表于 2025-4-9 18:53:47

@周博磊学长总结得很好了。
我补充一下一个很早就开始的尝试 (Visual-semantic Embedding)

用句子作为图片的label（而不是用coarse class来做label）；
反之，用图片作为句子的label，更好地学习句子(caption)的语义信息。

1.最早的尝试在 2013 NIPS ，同时学图像和文本的特征
DeViSE: A Deep Visual-Semantic Embedding Model
Andrea Frome and Greg Corrado and Jonathon Shlens and Samy Bengio and Jeffrey Dean and Marc’Aurelio Ranzato and Tomas Mikolov
论文地址： https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/41473.pdf （需翻墙）

当时就有了fine-tune CNN （图像）和 skip-gram model（单词）的概念
虽然当时结果比较低，但是给出了很多图片+句子可能性的insight。
包括zero shot learning 对于没有学习过的图像的预测

后续方法有用了hard sampling 学习策略 + 更深网络的 VSE++ (arXiv 2017)
Improving Visual-Semantic Embeddings with Hard Negatives
升级ranking loss的SPE (CVPR2016)
https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Wang_Learning_Deep_Structure-Preserving_CVPR_2016_paper.pdf

P.s. 我想起大三的时候，我问过学长关于imagenet 能不能用word2vec来训练。比如狗就变成狗的300维word2vec来监督，车就变成车的 word2vec来监督，这样狗和猫就近了。然后学长就给我说了很早就有类似的工作了。可能就是DeViSE吧。不过还是不同，直接用word2vec监督很可能不太好吧。

2.结合RCNN做object level
Deep Fragment Embeddings for Bidirectional Image Sentence Mapping
Andrej Karpathy, Armand Joulin, Li Fei-Fei (NIPS2014)
论文地址：https://arxiv.org/abs/1406.5679
文本可以用树结构来分解
图像也可以用RCNN来解构成一个个物体来匹配

这也影响了后续的很多方法如今年ICCV2017
http://openaccess.thecvf.com/content_ICCV_2017/papers/Niu_Hierarchical_Multimodal_LSTM_ICCV_2017_paper.pdf
还有Flick30k Entities 数据集：
Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models

3. mRNN 等图像描述生成模型
有很多图像描述生成模型，但主要还是直接pretrained CNN 拿来用（4096维特征），不太学图像特征了。而主要focus在文本生成。
[1412.6632] Deep Captioning with Multimodal Recurrent Neural Networks (m-RNN)
Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Zhiheng Huang, Alan Yuille
红线画出的是图像特征输入。

还有Dense Caption
https://arxiv.org/pdf/1511.07571.pdf

5. m-CNN
用CNN来处理文本其实有很多paper。 CNN优点之一在于可以并行，不需要上一时刻的结果。

因为文本也有类似的hierarchy的信息。比如临近词可以变成词组。所以CNN也可以work比较好。
句子匹配 CNN：http://papers.nips.cc/paper/5550-convolutional-neural-network-architectures-for-matching-natural-language-sentences.pdf （NIPS2014）
charCNN：https://papers.nips.cc/paper/5782-character-level-convolutional-networks-for-text-classification.pdf （NIPS2015）
CNN翻译：[1705.03122] Convolutional Sequence to Sequence Learning (ICML2017)

进一步，Multimodal-CNN同时用CNN来学文本和图像特征，互相监督。
https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Ma_Multimodal_Convolutional_Neural_ICCV_2015_paper.pdf

6. 小硬广
近期的很多工作同时finetune文本和图像很少，而这往往是最重要的部分。
因为ImageNet 会忽略一些detail的信息（无论黑狗/白狗要求CNN学的都是狗）。如下图

我们组刚放出论文也是同时训练两个CNN，并提出了新的损失函数，比multimodal-CNN的结果高了10个点（同样基于VGG19来比较）。
https://arxiv.org/pdf/1711.05535.pdf （国内访问 http://cn.arxiv.org/pdf/1711.05535.pdf）
另外，我做了一个总结的表格，在Flickr30k 和 MSCOCO 两个数据集上。
包含了文本特征和图像特征的提取方法，方便更细致的比较。
大家也可以看到图像模型和文本方案的逐渐进步。

Flickr30k

MSCOCO

最后一些补充材料中的可视化结果。

感谢大家看完。

发表于 2025-4-9 19:08:15

谢邀
@郭同jetHACK
@甘小楚。其实很早就想理一理这两者的关系。
先说我的观点：计算机视觉将越来越融合自然语言处理。
因为我自己是计算机视觉研究背景，所以下面主要讨论一下自然语言处理在计算机视觉中的几个应用。
首先，自然语言给计算机视觉的图片数据带来了结构化和语义化。自然语言中一个“词”代表某个概念或者类，比如说“猫”和“动物”。通过语义关系，利用这些词可以很容易建立一个语义结构关系网。WordNet是目前最大的语义结构关系，其中的hypernym/hyponym代表了两个词之间的语义关系。在计算机视觉中，由像素组成的图片本身是个非常高维的数据，比如说800x600像素的图片，是个高达480000的向量。图片空间里最稀缺的是对这些高维数据的语义结构化。ImageNet (
ImageNet Tree View)的重要贡献是基于WordNet建立的图片语义结构。其中每个synset有成百上千张所属类别的图片，这样ImageNet就完成了对一千多万张图片的语义性的归类和描述。
所以，对图片数据的语义化和结构化，可以说是自然语言处理在计算机视觉里的一个首要应用。随后的各种基于机器学习的图片识别算法，都是为了预测图片的语义标定。Deep learning本身也是representation learning，说到底就是在图片高维空间里面建立更好的表征，使得这些表征对语义标定有更好的区分和映射。
图片的语义标定本身可以衍生出很多应用，这里我举两个比较有意思的任务：Entry-level recognition和Zero-shot learning。 Entry-level recognition(
From Large Scale Image Categorization to Entry-Level Categories)主要是分析wordnet上的synset到entry-level description的关系，比如说一张海豚的图，Wordnet里面给的是grampus griseus，而人们普遍会用dolphin去描述这张图，怎么给两者建立联系是entry-level recognition要解决的问题。
Zero-shot learning解决的问题是，如果某个类别没有任何训练图片数据，如何去识别这个类别。因为世界上的词语太多，对每个词语对应的概念都收集图片训练数据显然不现实。zero-shot learning的大致做法是，利用当前没有任何图片数据的标定与之前有图片数据的标定的语义相似度，来建立语义标定之间的关联。自然语言处理的word embedding也得到了应用。Zero-shot learning的一些代表作，比如说DeViSE(
http://papers.nips.cc/paper/5204-devise-a-deep-visual-semantic-embedding-model.pdf), semantic codes(
http://papers.nips.cc/paper/3650-zero-shot-learning-with-semantic-output-codes.pdf), domain-adaptation(
http://papers.nips.cc/paper/5027-zero-shot-learning-through-cross-modal-transfer.pdf)。Zero-shot learning的最新进展可以参见最近的一次ECCV‘16 Tutorial（
Zero-Shot Learning Tutorial | ECCV 2016）。
这两三年紧密结合自然语言处理的视觉任务也越来越多。2014年和2015年大热的基于CNN+RNN的看图说话（Image Captioning）：给任意一张图，系统可以输出语句来描述这幅图里的内容。Microsoft，Google，Stanford等大厂都有concurrent work，一些代表作如
Vinyals et al. from Google (CNN + LSTM) 和
Karpathy and Fei-Fei from Stanford (CNN + RNN)。New York TImes这篇科普文章还不错，（
https://www.nytimes.com/2014/11/18/science/researchers-announce-breakthrough-in-content-recognition-software.html?_r=0）。这里有篇挺有意思的来自Ross GIrshick和Larry Zitnick的论文
https://arxiv.org/pdf/1505.04467.pdf，里面用nearest neighbor retrieval的土办法取得了可以跟那些基于RNN/LSTM系统不相上下的结果。由此可以看出，目前的image captioning系统基本还是在做简单的retrieval和template matching。Image captioning大火之后这两年这个研究方向好像就没啥相关论文了，前阵子Microsoft Research做了篇Visual Storytelling的工作（
https://www.microsoft.com/en-us/research/wp-content/uploads/2016/06/visionToLanguage2015_DataRelease-1.pdf），并提供了个dataset（
Visual Storytelling Dataset）。
随后，2015年和2016年图片问答Visual Question Answering （VQA）又大热。VQA是看图说话的进阶应用：以前看图说话是给张图，系统输出语句描述，而VQA更强调互动，人们可以基于给定的图片输入问题，识别系统要给出问题的答案。目前最大的dataset是基于COCO的VQA dataset（
Visual Question Answering），最近出了v2.0版本。CVPR’16搞了个VQA challenge & Workshop（
Visual Question Answering），其页面里有挺多资料可供学习。我之前自己也做过一阵子VQA的工作，提出了一个非常简单的baseline。这里是一个可供测试的demo(
Demo for Visual Question Answering），代码和report也公布了，感兴趣的同学可以看看。当时这个baseline跟那些基于RNN的复杂模型比起来也毫不逊色，侧面证明了目前VQA系统到跟人一样真正理解和回答问题还有非常长的一段距离。Facebook AI Research前两个月公布了一个新的数据库（
https://arxiv.org/pdf/1612.06890.pdf），用于诊断visual reasoning系统。我自己挺喜欢这样的分析性质的论文，推荐阅读。
另外，Feifei-Li老师组新建立的Visual Genome Dataset （
VisualGenome），其实也是力求让计算机视觉更好地跟自然语言处理里的知识库和语义结构更进一步融合起来。
由此可见，计算机视觉和自然语言处理并不是隔阂的两个研究方向。两者的未来发展会借助各自的优势齐头并进，融合到General AI的框架之下。未来又会产生怎样的新研究问题，我充满期待。

发表于 2025-4-9 19:21:16

NLP由于特征较为高层，因此现有算法处理起来比较容易，发展比较成熟，像文档分类等任务，简单的特征可以达到非常高的准确率。但是在享受完基于统计的浅层语义果实以后，下一步的深层语义理解则困难重重。像机器翻译，对话系统等依赖深层语义理解的任务，目前的系统距离人类水平，尚有不小的差距。
CV由于特征较为底层，因此之前需要人工设计大量特征，效果也不尽如人意，所以发展没有NLP成熟。但是深度学习技术在特征提取上的具大优势，为CV的发展开启了一个崭新的时代。像图像分类等任务，已经达到接近甚至超过人类的水平，而之前想都不敢想的图像生成，视频生成等，也不断有激动人心的成果涌现。
NLP相当于已经达到90分，想提高到99分，困难很大，而CV之前也许只有60分，因此提高到90分非常容易，这也是目前CV迅速发展的原因。
不过由于深度学习技术的巨大潜力，NLP领域逐渐被深度学习席卷，大家希望能借助深度学习技术，向99分发起冲刺，因此NLP领域也非常有前景。
从发展上，两个领域目前都非常有前景，没有必要一定要分出个高下。从技术上，它们都逐渐被深度学习统治，像描述生成图片和图片生成描述这样的交叉任务也越来越多，有相当多互相借鉴的地方。从个人方向选择角度，我建议以个人兴趣作为第一出发点，无论选择哪个方向都挺好。而且有了深度学习技术的基础以后，想转另外一个方向，也不是很难。

计算机视觉和自然语言处理，哪个更具有发展前景呢，还是各有千秋呢？

本周热门