最近,图像生成技术取得了显著的进展,尤其是在从文本描述生成图像以及将文本和图像结合生成新图像方面。然而,一个尚未充分探索的领域是从广义视觉语言输入生成图像,例如从描述涉及多个对象和人物的场景生成图像。微软研究、纽约大学和滑铁卢大学的研究人员引入了KOSMOS-G,这是一种利用多模型LLMs来解决这一问题的模型。
KOSMOS-G能够从文本描述和多幅图片的复杂组合中创建详细的图像,即使它以前没有见过这些示例。它是第一个能够在描述中包含各种对象或事物的图像中生成图像的模型。KOSMOS-G可以替代CLIP,这为使用ControlNet和LoRA等其他技术开辟了新的应用可能性。
KOSMOS-G采用了一种巧妙的方法来从文本和图像生成图像。它首先通过训练多模型LLM(能够同时理解文本和图像),然后与CLIP文本编码器进行对齐(擅长理解文本)。当我们为KOSMOS-G提供包含文本和分段图像的标题时,它经过训练来创建与描述匹配并遵循说明的图像。它通过使用预训练的图像解码器并利用从图像中学到的知识来在不同情境下生成准确的图像。
KOSMOS-G能够根据说明和输入数据生成图像。它经历了三个训练阶段。在第一阶段,该模型在多模型语料库上进行了预训练。在第二阶段,通过CLIP监督,训练了一个AlignerNet来将KOSMOS-G的输出空间与U-Net的输入空间对齐。在第三阶段,KOSMOS-G通过对精心策划的数据执行构成生成任务来进行微调。在阶段1,只训练MLLM。在阶段2,带有MLLM冻结的AlignerNet进行了训练。在阶段3,AlignerNet和MLLM都进行了联合训练。图像解码器在所有阶段都保持冻结状态。
KOSMOS-G在不同设置下的零样本图像生成非常出色。它可以生成有意义、漂亮且可以根据需要进行定制的图像。它可以改变上下文、添加特定风格、进行修改并添加图像的额外细节。KOSMOS-G是第一个能够在零样本设置中实现多实体VL2I的模型。
KOSMOS-G可以轻松取代图像生成系统中的CLIP,这为以前不可能的应用领域打开了令人兴奋的新可能性。通过构建在CLIP的基础上,KOSMOS-G有望推动从基于文本生成图像转向基于文本和视觉信息的组合生成图像,为许多创新应用创造机会。
KOSMOS-G是一种能够从文本和多个图像生成详细图像的模型。它采用了一种独特的训练策略,即“在指导之前对齐”。KOSMOS-G擅长制作单个对象的图像,并是首个能够在多个对象的情况下做到这一点的模型。它还可以替代CLIP,并与ControlNet和LoRA等其他技术一起使用于新的应用。简而言之,KOSMOS-G是将图像生成塑造成一种语言的初步步骤。
[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑,如存在版权问题请发送邮件至398879136@qq.com,我们会在3个工作日内处理。非原创标注的文章,观点仅代表作者本人,不代表本站立场。