2023年终盘点：图文大模型编年简史_安博电竞·(中国)登录入口

安博电竞网站真人官网下载.2023年终盘点：图文大模型编年简史

发布时间：2024-02-12 14:32:53 来源：安博电竞网址作者：安博电竞网址大全

主要特性

安博电竞网站真人官网下载

　　我采用建议，在文中统称，图文模型（或者视觉语言模型，Visual Language Model）模型。

　　12. 2023年10月，美国威斯康星大学，微软研究院和哥伦比亚大学研究人员三方合力推出LLaVA-1.5；

　　CLIP属于美国OpenAI团队。它在图文方向上进展颇大，凭借技术实力和无私开源，蜚声技术圈，一举奠定了领域基石。国内外很多研究团队都以CLIP为基础发展自己的技术创新点。

　　在没有CLIP的日子里，“图文检索任务”这个任务有点麻烦，需先加上标签。再把图片里的内容转化成文本标签（Tagging），才能检索。

　　CLIP真香，在图像识别的时候融入了语言模型这一额外信息，可以有效地捕捉图像和文本之间的联系。

　　除了GPT-4和Gemini这种浑身上下都是秘密的模型之外，目前已知的大部分的图文模型，很多都以CLIP作为基础。

　　“在图文模型背景下讨论CLIP和MAE，我们讨论的是两种截然不同的提取视觉特征的方式。CLIP提取的视觉特征是经过图文两模态对比学习训练而得到的，目前被大部分研究团队所采用；而MAE是掩码图像恢复训练，进而提取视觉特征的路线，当前采用者较少。”

　　如果使用CLIP的开源模型参数，可以将其现有参数作为初始化参数来训练自己的模型。这可以帮助模型在后续训练中收敛更快、更稳定。

　　比如，一张截图里面有很多的中文的字。若使用CLIP做题，就会不及格。因为CLIP所使用的数据都是英文，它只擅长理解图中的英文。

　　有两个主要的模型组件，一个负责图（Image encoder），一个负责文（Text encoder），一目了然。虽然CLIP有两个编码器，但它没有。

　　正确的图片和文字组合尽可能地“相似”，而错误的组合尽可能地“不相似”，这也就有了相似度得分。CLIP的训练目标是最大化正确配对的相似度得分，同时最小化错误配对的相似度得分。

　　对比学习是一种有效的多模态学习方法，它能够帮助模型学习不同模态数据之间的关系。Data2vec使用了CLIP提出的对比学习方法，是CLIP众多跟随者中的一位。

　　“CLIP最大的亮点就是它能够将不同模式、文本和图像的数据映射到共享向量空间。这种共享的多模态向量空间使文本到图像和图像到文本的任务变得更加容易。”

　　拿它不仅可以识别图像，还可以结合大语言模型，生成与图像相关的回答，甚至搜索与文字描述相符的图像。

　　写这篇的时候，突然间想起来2021年3月去杭州阿里巴巴达摩院找杨红霞，她推荐我仔细看看CLIP论文，并评价进展大，可惜那时没有引起足够重视。

　　“CLIP是一个不容低估的里程碑式的工作，能作为一个扎实好用的基础组件，翻开了多模态的新篇章。”

　　无法确定GPT-4V是否也使用了CLIP结构，我推测也许OpenAI有一个内部版的CLIP。

　　当BLIP上场，官网上的说法是世界上第一个开源多模态聊天机器人的多模态基础模型的可扩展预训练。

　　再回顾2022年4月，也就是3个月后，谷歌DeepMind团队推出的Flamingo凭借其出色表现使得一些人将其视为多模式领域的GPT-3时刻。

　　比如说，我们上网浏览互联网，网页中的文字和图片交替出现。无论是给文字配图，还是图有相关文字解释。

　　如此说来，交替数据是“天然”数据，网页排版原本就是这样。世界上有海量网页，这类数据要用好，自然而然会发展出专门用好交替数据的技术。

　　“这类数据来源于网页，按照网页阅读逻辑来排版。有了图文交错数据，我们可以将任意网页、海量书籍和PDF都当作训练预料。Flamingo对我们团队的启发是，由模型去自主学习数据中图片和文字关联的模式。”

　　图和文字可以强关联，也可以弱关联，文字和图片之间的距离甚至可以很远。比如，一篇文章的头图，可以是和文章结尾遥相呼应。学习过交替数据的模型，讲好比从头到尾的看完了网页。当Flamingo出现，意味着模型学习，从图文配对型的数据，推广到了图文交错型数据上。

　　“（训练模型的数据）最好就是人类日常使用的自然数据。比如，爬了一段文字，文末有个视频，视频的位置保持原有状态，不要人为调整。因为模型需要学习人类是如何安排图文顺序和位置关系。”

　　就在早期的时候，训练大语言模型只需要纯文本数据。彼时，那些处理不了的多种类型的数据，比如，网页里可能会有图片、视频、音乐，那些数据会被删除，也是一种浪费。

　　谷歌Flamingo开创了用这种图文交错的数据来训练模型的里程碑，它的图像处理部分从头开始训练。同样使用对比学习，但训练数据量比CLIP用的多5倍，还多了一种新类型的数据，视频和文本配对数据。

　　我们常见的大语言模型使用了下一个词预测（Next token prediction）技术，但Flamingo 进行了创新，它同时考虑了文字和图片，预测的依据不仅包括文本，还加上了视觉信息。

　　为了更好地结合文字和图像，Flamingo引入了一些更高级的技术：Perceiver Resample。尔后，后辈之中有人推出了一个同类型的组件Q-Former。

　　“在泛化性上，用精心筛选过的交错的图文对来进行模型训练，不如将图文对和网页图文交错数据混起来做训练的效果好。”

　　谷歌Flamingo使用图文交错的数据进行训练，可以帮助模型更好地理解图像和文本之间的关系，从而提高在少样本学习中的表现。

　　CLIP只能进行图像和文本检索和理解，而 Flamingo模型可以生成文本响应，多出来的能力是因为Flamingo在CLIP的基础上添加了一个语言模型。

　　虽然Flamingo并不开源，但喜欢它的人多，开源社区积极复现了Flamingo的开源版本，可见其受欢迎程度。

　　冻结难道不是一个魔能吗？英文论文里的“咒语”居然就是“Frozen”。放在中国武林大会上，那就是葵花点穴手了。

　　“VIT可以用一个已经训练好的，LLM也可以用一个已经训练好的，只去搭建并训练中间的过渡层就可以了。适配器这个想法非常好，它就像插座，想把一个视觉模型插在语言模型上。”

　　“基于视觉特征和语言特征的图文对齐模型是一种方法，Perceiver Resampler和Q-Former都是杰出代表。它们都采用了多注意力机制来融合图像和文本的特征。Perceiver Resampler使用了感知器（Perceiver）模型，能够有效地学习图像和文本的多尺度特征。Q-Former使用了动态注意力机制，能够根据图像和文本的不同语义关系，灵活地调整注意力权重。”

　　“BLIP-2它之所以成功，并不是它有Q-Former。Q-Former的作用被夸大了。个人认为带来最强增益的这个能力组件并不是Q-Former，而是跟LLM联动得很好，采用了一个很强的LLM作为它的一个基础；以及采用了一个比较合适的训练范式。我们团队发现Q-Former的网络结构是什么并不重要，甚至把Q-Former替换成一个很简单的网络结构，很多或者其他网络结构，都能有效（work）。而不需要设计一个复杂的损失函数，采用Next token prediction自回归的损失函数就行。”

　　有一些博士朋友告诉我，他们经常把BLIP-2这篇论文拿出来翻看，可见这篇论文在这一时期的重要性。

　　“它的数据里面是没有任何VQA数据。但是，它却能在训练完之后，有很好的零样本学习VQA能力。首先，它所有用的数据都是图文对，都是图文对类型的数据。训练完成后，对它用人类自然语言提问，它就能给你回答。这个能力是冻结的大语言模型所带来的。”

　　“重点在于，它成功地把视觉这个表征过渡到了大语言模型上面。大语言模型就把视觉表征当成了一个它可理解的东西，能够以自然语言去回答问题。”

　　Q-Former有三个损失函数，专业级小伙伴对这三个家伙的名字耳熟能详脱口而出，而谭老师我，就不在这里献丑了。

　　“一般来说，一个模型最终对应一个目标（函数）。作者的算法思想是在一个损失函数（来自CLIP）的基础上，加了两个损失函数。这样等于BLIP有三个损失函数。也可能是因为不清楚那种形式最好，所以用了多个目标函数。目标函数用于评估图文两个模型组件的输出是否对齐了。”

　　“难点在于，这三个损失函数联合起来一起训练，会导致程序设计上的难度加大。一会冻结这个，一会冻结那个。”

　　世事不难我辈何用，对齐是BLIP系列贯穿始终的一大特色。BLIP-2在2023年中这个时期，独出机杼，潇洒风流了一把。

　　2023年上半年，很多工作都在做同一件事，把算法大结构中的语言模型部分，换成大模型，性能普遍都会有提升。

　　我估计很有可能Salesforce公司内部是同步开展的两个项目，一个做图文理解，一个做图片生成。

　　Instruct-BLIP作为这个系列中的第三篇，将GPT系列里的指令微调这个训练方法，引入到图文模型中，模型有了指令理解能力，这样就可以用来做图文问答。

　　对于InstructBLIP来说，BLIP-2是现成的基础模型，指令微调也是大语言模型已有的方法。

　　假如想对图片中的一个主体（假设是橘猫）进行编辑的话，比如，更换风格属性（比如，水墨风格，油画质感等属性）。

　　我们的任务是更换图片中的某个主体（橘猫），就需要橘猫的多张图片，训练之后，才能保持住图片里的橘猫。

　　要我说，BLIP-Diffusion还是把图看懂了，知道怎么改图了，不是把图里的橘猫扣下这个玩法。

　　InstructBLIP没有把这两个合并，或者做更细腻得处理，而是生硬地把这两个组件给接起来了。等于有两个重复的组件用来做同一件事。

　　诚然，Stable Diffusion如何“完美接入”本就是一个挑战，Instruct BLIP给后人留下了改进的空间。

　　CLIP，BLIP，GLIP这种名字以字母P（“预训练”的英文Pretraining）结尾，一不小心押韵。

　　一方面，Kosmos-2，解锁了视觉定位能力，将视觉语言模型结合了定位任务，比如，你问图中的橘猫在哪？

　　此前，Stable Diffusion跟大语言模型的配合像是隔着一条马里亚纳海沟，呼唤一种“完全无缝”的方式连起来，这成了一个待解决的难点。

　　“适配过程比较简单，Stable Diffusion有一个文本编码器可以提取特征。而大语言模型也能提取特征，直接用这个大语言模型的输出去逼近Stable Diffusion的文本编码器，再把大语言模型的输出跟Stable Diffusion的输入的两种特征对齐，让它们两个尽量地接近，这样就连起来了。”

　　“目前没有完美”，易东博士笑笑，他停顿了一下，接着说道：“现阶段好像也只能这么干，而且效果挺好”。

　　“关键是论文里代价比较小。Stable Diffusion看作一个插件，可以不动，把前面的给它对上。这样，Kosmos的训练步骤更简单了。”

　　“算法结构简洁，我们拿BLIP做个比较，BLIP有三个损失函数，联合训练难度较高。Kosmos直接用一个生成模型实现文本和图像两类信息对齐。”

　　Kosmos的算法思想令模型结构简洁，直接在GPT的基础上，把负责多模态的“关键组件”加入进。

上一篇：工业自动化领域Profibus转Ethernet技下一篇：工业自动化领域Profibus转Ethernet技