突破性技术!开源多模态模型—MiniGPT-5

2023-11-03 09:56

免责声明 免责声明:内容来源于网络收集,不构成任何投资建议!

原始来源:AIGC 开放社区

突破性技术!开源多模态模型—MiniGPT-5

图片来源:无界AI生成

多模态生成一直是OpenAI、微软、百度等科技巨头的重要研究领域,但如何实现连贯的文本和相关图像是一个棘手的问题。

为了突破技术瓶颈,加州大学圣克鲁斯分院开发了MiniGPT-5模型并提出了全新技术概念“Generative Vokens ",成为文本特征空间和图像特征空间之间的“桥梁”,实现对普通训练数据的有效处理齐,同时生成高质量的文本和图像。

为了评估MiniGPT-5 的有效性,研究人员在多个数据集上进行了测试,包括CC3M、VIST 和MMDialog。结果表明,MiniGPT-5 在多个指标上均优于多重比较基线,并且能够生成连贯、高质量的文本和图像。

例如,在VIST数据集上,MiniGPT-5生成的图像比fine-tunedStable Diffusion 2具有更高的CLIP分数;在人类评估中,MiniGPT-5 产生了更好的语言连贯性(57.18%)和更高的图像质量(52.06%),并且多模态连贯性更强(57.62%)。

突破性技术!开源多模态模型—MiniGPT-5

在MMDialog数据集上,MiniGPT-5的MM相关性指数达到0.67,超过基准模型Divter的0.62。这充分证明了MiniGPT-5在不同数据模式下的强大适应性。

开源地址:https://github.com/eric-ai-lab/MiniGPT-5

论文地址:https://arxiv.org/abs/2310.02239

突破性技术!开源多模态模型—MiniGPT-5

MiniGPT-5模型有三大创新:1)使用多模态编码器提取文本和图像特征,代表了一种新的文本和图像对齐技术,比直接使用A方法更好用于从大型语言模型生成视觉标记。

2)提出了不需要完整图像描述的两阶段训练策略:第一阶段侧重于文本和图像的简单配对齐;第二阶段进行多模态细粒度特征学习。

3)训练中引入“无分类器引导”技术,可以有效提高多模态生成内容的质量。主要模块架构如下。

Generative Vokens

MiniGPT-5的核心创新是“Generative Vokens”的技术理念,实现了大型语言模型和图像生成模型的无缝连接。

具体来说,研究人员在模型词汇表中添加了8 个特殊的Voken 单词元素[IMG1]-[IMG8]。这些Voken 在模型训练期间用作图像的占位符。

在输入端,图像特征与Voken 的词向量连接起来形成序列输入。在输出端,模型预测这些Vokens的位置,并使用相应的隐藏状态h_voken来表示图像内容。

突破性技术!开源多模态模型—MiniGPT-5

然后,通过特征映射模块,使用稳定扩散文本编码器输出对齐将h_voken转换为图像条件特征^h_voken。

在稳定扩散中,^h_voken 用作条件输入来指导图像生成。整个流程实现了从图像到语言模型再到图像生成的连接。

这种通过Voken实现齐的方法比逆向计算更直接,比使用图像描述更通用。简单来说,Generative Vokens 就像一座“桥梁”,让不同模型域之间的信息传递更加顺畅。

双阶段训练策略

考虑到文本和图像特征空间存在一定的域差异,MiniGPT-5采用两阶段训练策略。

第一阶段是单模态对齐阶段:仅使用单个图文对的数据

,如CC3M。模型学习从图像标题生成对应的Voken。同时,加入辅助的图像标题损失,帮助Voken与图像内容对齐。

第二阶段是多模态学习阶段:使用包含连续多模态样本的数据,如VIST,进行微调。设置不同的训练任务,包括生成文本、生成图像和同时生成两者。增强了模型处理多模态信息的能力。

这种分阶段策略,可以缓解直接在有限数据上训练带来的问题。先进行粗粒度对齐,再微调细粒度特征,并提升了模型的表达能力和鲁棒性。


无分类器指导


为进一步提升生成文本和图像的连贯性,MiniGPT-5还采用了“无分类器指导”的技术。

其核心思想是,在图像扩散过程中,以一定概率用零特征替换条件Voken,实现无条件生成。

在推理时,将有条件和无条件的结果作为正负样本,模型可以更好地利用两者的对比关系,产生连贯的多模态输出。这种方法简单高效,不需要引入额外的分类器,通过数据对比自然指导模型学习。


文本到图像生成模型


MiniGPT-5使用了Stable Diffusion 2.1和多模态模型MiniGPT-4作为文本到图像生成模型。可以根据文本描述生成高质量、高分辨率的图片。

Stable Diffusion使用Diffusion模型和U-Net作为主要组件。Diffusion模型可以将图片表示成噪声数据,然后逐步进行去噪和重构。

U-Net则利用文本特征作为条件,指导去噪过程生成对应的图片。相比GAN,Diffusion模型更稳定,生成效果也更清晰逼真。

突破性技术!开源多模态模型—MiniGPT-5

为了准确地将生成标记与生成模型对齐,研究人员制定了一个用于维度匹配的紧凑映射模块,并结合了一些监督损失,包括文本空间损失和潜在扩散模型损失。

文本空间损失帮助模型学习标记的正确位置,而潜在扩散损失直接将标记与适当的视觉特征对齐。由于生成Vokens的特征直接由图像引导,因此,不需要图像的全面描述就能实现无描述学习。

研究人员表示,MiniGPT-5的最大贡献在于实现了文本生成和图像生成的有效集成。只需要普通的文本、图像进行预训练,就可以进行连贯的多模态生成,而无需复杂的图像描述。这为多模态任务提供了统一的高效解决方案。