最近,卡内基梅隆大学、Google研究以及乔治亚理工学院联合推出了一项名为MAGVIT-v2的视频标记工具,它成功地将图像和视频输入转化为大型语言模型(LLM)可识别的标记。
项目地址:https://magvit.cs.cmu.edu/
MAGVIT-v2的独特算法让开发者可以实现令人惊叹的应用。从全景视频到智能去除、图像转动动画,再到自动翻转等等。MAGVIT不仅为创作者提供无限灵感,还为视频编辑带来前所未有的便捷性。
通过MAGVIT-v2的应用,LLM在视觉生成任务中的表现已明显超越了传统的扩散模型。视频标记化是将视觉内容(如图像或视频)转化为大型语言模型能够理解和处理的标记的过程。MAGVIT-v2的问世,毫无疑问为大型语言模型在视觉任务方面提供了崭新的机遇。
在视觉生成任务方面,这一新型标记工具已经展现出极大的潜力,可以明显改善模型的表现。总的来看,MAGVIT-v2的发布,预示着视觉生成领域的一次重大突破。
[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑,如存在版权问题请发送邮件至398879136@qq.com,我们会在3个工作日内处理。非原创标注的文章,观点仅代表作者本人,不代表本站立场。