Sora来袭,如何理解并超越它?

来源:36氪· 2024-03-05 08:40:05

2月15日,文生视频大模型Sora横空出世,谁也没有想到这一OpenAI新产品再次掀起多模态产业革命。

Sora能够根据文本指令或静态图像生成1分钟的视频。其中,视频生成包含精细复杂的场景、生动的角色表情以及复杂的镜头运动,同时也接受现有视频扩展或填补缺失的帧。

华福证券指出,无论在视频保真度、分辨率、文字理解等方面,Sora都做到了业内领先水平,此外当Sora训练的数据量足够大时,它也展现出了一种类似于涌现的能力,使视频生成模型具备了类似于物理世界通用模拟器的潜力。

大洋对岸的技术冲击波席卷全球,AIGC相关产业链均蠢蠢欲动。

近日,信息咨询公司六度智囊接到需求,多名客户希望对AIGC领域不同专家进行访谈,以对行业动向有更深入把握,侧面证实了AIGC行业的火热。六度智囊是一家商业信息检索平台,为客户提供优质且领先的研究决策支持和专家知识共享服务。目前已实现海外专家50K+,业务覆盖北美、亚洲、欧洲、东南亚等地区。

根据六度智囊促成的访谈来看,不少专家认为,Sora技术在虚拟现实、增强现实以及混合现实领域展现出了积极的影响,并且在多媒体处理方面也显示出了其潜力,考虑到其技术特性,Sora未来有可能被广泛应用于风险较高或需要高度创意的镜头制作中。

Sora牛在哪里?

实际上,文生视频的AIGC技术并不是一条新赛道了,Sora一鸣惊人背后有怎样的技术优势?

从文本生成模型 GPT、文生图模型 DALL·E,到文生视频模型 Sora,OpenAI或许已经打造出了一条自己的AGI通用技术路线。而不断拓宽及深入的多模态大模型应用,意味着OpenAI掌握了大模型最核心的竞争力,即“scaling law”,模型越大,数据越多,效果就越好。

在六度促成的一次访谈中,前任百度云解决方案工程师表示:

“在人工智能领域,图像和视频生成技术的最新进步主要体现在几个方面。首先,现在的技术可以将文本映射成潜在的表示形式,这意味着我们可以从简单的文字描述出发,生成相应的图像和视频。

其次,通过利用扩散模型和物理引擎,我们能够确保生成的图像不仅连续性强,而且符合物理规律。这样的技术可以对草图或影像进行反复的细节打补丁,从而提高分辨率和表现力。

此外,Sora这样的技术能够生成高清视频,并且在生成视频的过程中确保内容的连贯性和符合物理规律。随着AI生成视频清晰度的提升,我们已经看到了从2K向4K进化的快速发展。

Sora在视频处理和三维数据转换方面的特点主要体现在其对数据的精细处理上,它不是简单地将长视频切分为短视频,而是以最小单元粒度进行标注和处理。

这种处理方式与传统视频的训练方法和数据预处理存在很大的差异。在将视频数据转换为三维数据方面,通常需要借助NeRF或PiCkBirds等工具来完成。Sora的模型在增强现实(AR)、虚拟现实(VR)等场景中具有重要应用,能够赋能空间计算、三维重建和世界模拟。”

从OpenAI官网公布的Sora技术报告中可以发现,Sora采用的DiT架构的理论基础是一篇名为Scalable diffusion models with transformers的学术论文。该篇论文是2022年12月由伯克利大学研究人员、现Sora团队技术领导William (Bill) Peebles和纽约大学研究人员谢赛宁共同发表。

在Sora发布后,谢赛宁在X平台上写道,“当Bill和我参与DiT项目时,我们并未专注于创新,而是将重点放在了两个方面:简洁性(Simplicity)和可扩展性(Scalability)”。他表示,“可扩展性是论文的核心主题,优化的DiT架构的运行速度比UNet(传统文本到视频模型的技术路线)快得多。更重要的是,Sora证明了DiT缩放定律不仅适用于图像,现在也适用于视频——Sora复制了DiT中观察到的视觉缩放行为。”

总体而言,Sora的领先首先离不开数据量足够大的GPT模型,在此之上,Sora对数据的处理更为精细,以最小单元粒度进行标注和处理,独特文本标注视频数据集等技术与资源优势,这些或为Sora占据业内领先地位的原因。

AIGC生态进一步拓展

不少行业人士认为,Sora的出现可以改变一系列创意产业,从电影制作、广告到图形设计,从游戏开发到社交媒体、影响力营销甚至教育科技等领域都将受到影响。

二级市场的腥风血雨已经可以印证这一说法。Sora发布的次日,美国电脑软件公司Adobe股价暴跌超7%;美国图片库、图片素材、图片音乐和编辑工具供应商Shutterstock跌超5%;几周前发布了“文生视频”工具Lumiere的谷歌母公司股价下挫1.58%。三家公司一天内就合计蒸发近480亿美元的市值。

抛开简单讨论取代哪些行业的问题,可以确认的是,Sora及其技术让AIGC的应用场景得到大幅拓展,不局限于内容创意行业,自动驾驶等领域同样能够得到该技术的加持。

在六度促成的另一个访谈中,前任商汤产品总监表示,

“在探讨Sora模型的应用前景和潜在影响时,我们可以看到它在多个行业中都有着广泛的应用潜力。例如,在游戏产业中,Sora模型可以被用来生成精美的地图,这将极大地丰富游戏世界的细节和真实感。而在自动驾驶产业,Sora模型理解视频和视觉内容的能力可能会对自动驾驶技术的发展产生积极的推动作用。

内容创作领域的从业者也需要注意,随着人工智能技术的介入,内容的生产和编辑方式将会发生变化,这可能会导致对技能需求和工作流程的重新评估。Sora模型作为一个视觉模型,它依赖于GPT来加强对文本的理解,这一点与GPT1.5模型的专长是不同的。Sora模型还结合了transformer算法来增强视频内容的一致性,在某些方面表现得更为出色。

首先要明确的是,Sora模型不太可能完全取代人工视频剪辑。人类的创造力和审美理解在AI辅助创造过程中扮演着关键角色。在自动驾驶技术中,视觉系统是非常重的一部分,而Sora模型可能已经学了包含三维深度信息的数据。随着AI在模拟三维世界的精准度不断提升,自动驾驶的挑战也相应减小。”

落地仍需时间

如ChatGPT的诞生一样,从技术层面来看,OpenAI的一系列产品无疑从底层重构了人工智能底座,以大模型为基底的各项技术是人工智能新一轮革命的必然方向。

但论及商业化落地,是每轮人工智能革命难以回避的问题。

目前来看,以to C模式为主的OpenAI,仍是投入远大于收入的阶段,虽然技术惊人,但在消费者层面,远未到杀手级应用的程度。而这,同样是国内大模型热潮所处的状态。

在六度促成的另一个访谈中,前任商汤AI科学家表示,

“在谈到Sora模型在当前市场中的商业化前景和潜在挑战时,我认为新技术的商业化落地总是伴随着人们的期待和厚望。然而,Sora模型在短期内可能会面临一些商业化的差距。

尽管如此,Sora模型在电商、可控生成内容、游戏制作、娱乐产业以及室内装修等领域的应用潜力是巨大的,但这些应用的实现还需要一定的时间。因此,目前投入Sora模型的商业化可能还不太合理。不过,我们也应该看到,人工智能应用于实际生活的时代即将到来,这将为Sora模型未来的发展带来更多的机遇。”

与此同时,国内的大模型开发者甚至面临着更大的挑战。

前任百度云解决方案工程师表示:

“在国内开发与Sora类似的AI技术产品时,我们面临的技术挑战主要包括模型架构的建立、数据处理和训练方法的探索。此外,开发物理引擎也是一个重大挑战。

值得一提的是,短视频公司或者是生产专业视频内容的公司在训练AI模型方面拥有数据集积累的明显优势。同时,AI模型所需的计算力无论在模型训练还是推理方面都将显著增加。

展望未来,模型训练集群将需要大量的NVIDIA H100 GPU,而训练周期可能会在两到三个月之间。这些都是我们在开发过程中需要重点考虑和解决的问题。”

综合专家意见,可以得出以下结论:

Sora的文生视频技术业内领先,但模型特点仍在探索阶段。

商业化方面,Sora可落地场景广泛,除了内容创意行业,游戏、自动驾驶等都是潜在的应用场景,但是具体业务应用仍有待观察。

在开发能够生成长视频的类Sora模型时,要重点关注模型的记忆能力提升,包括上下文记忆能力、推理能力和长期记忆能力、对长序列的建模能力等。


您可能关注: Sora

[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑,如存在版权问题请发送邮件至398879136@qq.com,我们会在3个工作日内处理。非原创标注的文章,观点仅代表作者本人,不代表本站立场。