生成 AI 艺术已经成为新技术中最有趣和受欢迎的应用之一,例如 Stable Diffusion 和 Midjourney 等模型已经吸引了数百万用户的使用,此外,OpenAI 还在今年秋季将其 DALL-E3图像生成模型直接集成到其流行的 ChatGPT 服务中。通过简单地描述一幅图像,用户只需等待几秒钟或几分钟,就能在屏幕上看到由 AI 算法生成的图像。
然而,用户需要等待这几秒钟或几分钟对于我们快节奏、即时满足的现代社会来说并不理想。
因此,本周,网络上的 AI 艺术社区对一种新的机器学习技术 - LCM-LoRA 感到兴奋,它由中国清华大学的 IIIS 研究人员和 AI 代码共享平台 HuggingFace 共同开发,并在预评审开放获取研究网站 arXiv.org 上发布了一篇论文,该技术终于实现了实时生成 AI 艺术。
基本上,由于 LCM-LoRA 技术的出现,用户现在可以移动鼠标、绘制简单的画或应用几个形状,以及配上描述性的文本,AI 艺术创作应用程序(如 Krea.AI 和 Fal.AI)将自动即时地呈现不同的、新的生成艺术作品,甚至在用户在数字画布上移动形状或绘制简单线条时,能在几分之一秒内交换图像。
你可以在这里自己试试:Fal.AI(只要服务器不因使用量过大而崩溃)。
这项技术不仅适用于平面的2D 图像,还适用于3D 模型,这意味着艺术家理论上可以快速创建沉浸式环境,用于混合现实(AR/VR/XR)、电脑和视频游戏以及其他体验。理论上,它们也可以用于电影制作,大大加快和降低制作成本。
“一切都将发生变化”,一位初创公司创始人和前 Google AI 工程师在 LinkedIn 上评论了 LCM-LoRA,这是 AI 艺术社区中许多人的共识。
“全新的生成 AI 时代即将到来”,另一位 X 用户评论道。
宾夕法尼亚大学沃顿商学院教授伊桑・莫利克是生成 AI 领域最活跃和最有影响力的倡导者之一,他认为 “我们很快将看到许多新的用户体验”,这要归功于 LCM-LoRA 技术。
那么 LCM-LoRA 是什么,它是如何工作的呢?
早期的 LCM-LoRA 集成应用的演示无疑非常吸引人,并且对于我这样的 AI 艺术家来说,它似乎是生成 AI 在视觉艺术领域的一个重要时刻。
但是,LCM-LoRA 背后的技术进步是什么,它能否在不同的应用和用途中扩展,就像早期用户所暗示的那样呢?
根据清华大学 IIIS 研究人员和 HuggingFace 发表的一篇论文,LCM-LoRA 最终是一个 “通用的、无需训练的加速模块,可以直接插入各种经过 Stable Diffusion 精调的模型或 SD LoRAs 中”。
对于不了解机器学习领域的人来说,这可能有些晦涩,但用更通俗的语言解释,它本质上是一个算法,通过减少 “所需的采样步骤”,即 AI 模型必须经过的过程,将文本或源图像(无论是描述还是简笔画)转化为基于 Stable Diffusion 模型从数百万图像中学到的更高质量、更详细的图像。
这意味着 LCM-LoRA 使 Stable Diffusion 模型能够更快地工作,使用更少的计算资源,因此它们不需要占据用户计算机上的太多工作内存或运算周期。这就是它能够实时生成令人惊叹的结果的原因。
“通用” 意味着它可以被插入到各种依赖 Stable Diffusion 或其变种来生成图像的应用程序中。但它是否可以扩展到 Stable Diffusion 以外的模型,例如 OpenAI 的 DALL-E3或 Midjourney,尚待观察。
[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑,如存在版权问题请发送邮件至398879136@qq.com,我们会在3个工作日内处理。非原创标注的文章,观点仅代表作者本人,不代表本站立场。