fdsgsg LV
发表于 2025-4-9 18:53:47
@周博磊 学长总结得很好了。
我补充一下 一个很早就开始的尝试 (Visual-semantic Embedding)
用句子作为图片的label(而不是用coarse class来做label);
反之,用图片作为句子的label,更好地学习句子(caption)的语义信息。
1.最早的尝试在 2013 NIPS ,同时学图像和文本的特征
DeViSE: A Deep Visual-Semantic Embedding Model
Andrea Frome and Greg Corrado and Jonathon Shlens and Samy Bengio and Jeffrey Dean and Marc’Aurelio Ranzato and Tomas Mikolov
论文地址: https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/41473.pdf (需翻墙)
当时就有了fine-tune CNN (图像)和 skip-gram model(单词)的概念
虽然当时结果比较低,但是给出了很多 图片+句子 可能性的insight。
包括zero shot learning 对于没有学习过的图像的预测
后续方法有 用了hard sampling 学习策略 + 更深网络的 VSE++ (arXiv 2017)
Improving Visual-Semantic Embeddings with Hard Negatives
升级ranking loss的SPE (CVPR2016)
https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Wang_Learning_Deep_Structure-Preserving_CVPR_2016_paper.pdf
P.s. 我想起 大三的时候,我问过学长关于imagenet 能不能用word2vec来训练。比如狗就变成狗的300维word2vec来监督,车就变成车的 word2vec来监督,这样狗和猫就近了。 然后学长就给我说了很早就有类似的工作了。可能就是DeViSE吧。不过还是不同,直接用word2vec监督很可能不太好吧。
2.结合RCNN做object level
Deep Fragment Embeddings for Bidirectional Image Sentence Mapping
Andrej Karpathy, Armand Joulin, Li Fei-Fei (NIPS2014)
论文地址:https://arxiv.org/abs/1406.5679
文本可以用树结构来分解
图像也可以用RCNN来解构成一个个物体来匹配
这也影响了后续的很多方法如 今年ICCV2017
http://openaccess.thecvf.com/content_ICCV_2017/papers/Niu_Hierarchical_Multimodal_LSTM_ICCV_2017_paper.pdf
还有Flick30k Entities 数据集:
Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models
3. mRNN 等 图像描述生成模型
有很多图像描述生成模型,但主要还是直接pretrained CNN 拿来用(4096维特征),不太学图像特征了。 而主要focus在文本生成。
[1412.6632] Deep Captioning with Multimodal Recurrent Neural Networks (m-RNN)
Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Zhiheng Huang, Alan Yuille
红线画出的是图像特征输入。
还有Dense Caption
https://arxiv.org/pdf/1511.07571.pdf
5. m-CNN
用CNN来处理文本其实有很多paper。 CNN优点之一在于可以并行,不需要上一时刻的结果。
因为文本也有类似的hierarchy的信息。比如临近词可以变成词组。所以CNN也可以work比较好。
句子匹配 CNN:http://papers.nips.cc/paper/5550-convolutional-neural-network-architectures-for-matching-natural-language-sentences.pdf (NIPS2014)
charCNN:https://papers.nips.cc/paper/5782-character-level-convolutional-networks-for-text-classification.pdf (NIPS2015)
CNN翻译:[1705.03122] Convolutional Sequence to Sequence Learning (ICML2017)
进一步,Multimodal-CNN同时用CNN来学文本和图像特征,互相监督。
https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Ma_Multimodal_Convolutional_Neural_ICCV_2015_paper.pdf
6. 小硬广
近期的很多工作同时finetune文本和图像很少,而这往往是最重要的部分。
因为ImageNet 会忽略一些detail的信息 (无论黑狗/白狗 要求CNN学的都是狗)。如下图
我们组刚放出论文也是同时训练两个CNN,并提出了新的损失函数,比multimodal-CNN的结果高了10个点(同样基于VGG19来比较)。
https://arxiv.org/pdf/1711.05535.pdf (国内访问 http://cn.arxiv.org/pdf/1711.05535.pdf)
另外,我做了一个总结的表格,在Flickr30k 和 MSCOCO 两个数据集上 。
包含了文本特征和图像特征的提取方法,方便更细致的比较。
大家也可以看到 图像模型 和 文本方案的逐渐进步。
最后一些补充材料中的可视化结果。
感谢大家看完。 |
|