立即注册

文章发布

首页 > AI资讯 > 热点聚焦

今日推荐

GEO优化

抢占AI搜索流量入口

AI长篇写作

写小说、写论文等

AI生成思维导图

一键快速生成思维导图

轻创AI用户注册

免费获取体验账号

AI视频神仙打架下一个超级App要诞生了？

来源：互联网· 2023-12-14 13:23:18

继发布最新AI大模型“Genmini”仅一星期后，谷歌又公布了自己的最新AI研究成果。

12月12日，谷歌宣布，其与全球顶级计算机视觉专家、华裔AI教母李飞飞及其学生团队合作，推出了AI视频生成模型“W.A.L.T（全称为Window Attention Latent Transformer）”。

与前段时间刷屏全网、A股信雅达董事长女儿创业研发的PIKA 1.0类似，W.A.L.T也是一款AI视频生成模型。

此前在12月6日晚间，谷歌曾发布其最新一代的多模态AI大模型Gemini，并同步发布了演示视频。

但Gemini发布后不久，即被爆出其演示视频存在通过剪辑等手法、刻意美化模型效果的情形。正因如此，谷歌也一度陷入“造假”指控中。

仅仅6天过去，谷歌又通过发布W.A.L.T瞄准了AI视频生成，这也是如今AI应用落地最为火热的领域之一。

01 携手华裔AI女神，谷歌抢滩AI文生视频

与此前走红的Pika 1.0类似，W.A.L.T同样支持文生视频、图片生成视频、3D视频生成等功能。

而视频效果方面，根据演示视频及论文，W.A.L.T可以通过自然语言提示，生成3秒长的每秒8帧、分辨率为512x896的视频。

▲（图源/W.A.L.T）

产业人士“歸藏”公开评价称，W.A.L.T的效果“比Pika 1.0还要好得多，清晰度和动作都非常好”。

有趣的是，Pika的创始人、信雅达董事长的女儿郭文景，其实与李飞飞颇有渊源。

在退学创业之前，郭文景曾在斯坦福大学AI实验室（NLP&图形学方向）攻读博士学位，而李飞飞则是斯坦福大学首位红杉讲席教授，亦曾在斯坦福大学AI实验室中任职。

与后起之秀郭文景相比，李飞飞堪称全球计算机视觉领域的奠基人与技术泰斗，也是包括谷歌在内、全球科技大厂争夺的人才资源。

根据公开信息，1976年，李飞飞出生于北京，并在成都长大。1992年，16岁的李飞飞随父母远赴美国定居，并在三年后进入普林斯顿大学攻读物理学。

在之后的求学生涯之中，李飞飞一步步确立了对于AI的研究兴趣，并将研究重点转移至彼时十分冷门的计算机视觉领域。2007年，李飞飞在经费短缺的情况下，开始了自己的首个项目ImageNet（教机器识别图像的数据集）。

当时，AI图像识别模型仅能认出四种物体：汽车、飞机、豹子、人脸，因为以往研究者一般只会针对这四类物体进行模型训练。想让AI认识一种物体，需要人工先在图片中标记出目标物，再将大量这样的图片“喂”给AI进行训练。

而李飞飞的设想是，如果有一个足够大的、经过标注的数据集，就能训练出理论上“无所不知”的计算机视觉模型。

2009年，ImageNet正式发布，很快成为了几乎所有视觉模型的训练和测试素材库。李飞飞也由此“一战成名”，拥有了“华人AI教母”等头衔。至今，ImageNet仍是全球AI产学界最知名的大型视觉数据库之一。

无论是一周内连发两大模型，还是与李飞飞团队的合作，都说明谷歌在多模态AI模型研发方面正铆足了劲。

02 AI视频“神仙打架”，国内玩家怎么看？

在刚刚过去的一段时间内，AI视频生成赛道十分热闹。除了Pika 1.0、W.A.L.T，有不少AI视频生成工具密集涌现出来或进行了功能更新。

举例而言，11月初，美国生成式AI独角兽企业Runway对其自研视频生成模型Gen-2进行了功能更新，着力提升生成结果的保真度和一致性。

11月中旬，以社交产品起家的科技大厂Meta发布了Emu Video模型。

11月末，美国文生图片创企Stability AI推出了名为Stable Video Diffusion的视频生成模型，提供SVD和SVD-XT两个模型。

▲（图源/W.A.L.T）

而国内方面，字节跳动、阿里、百度等科技大厂均已跑步入场。

其中字节跳动于11月18日推出了文生视频模型PixelDance，提出了基于文本指导+首尾帧图片指导的视频生成方法，使得视频生成的动态性更强。

紧随其后，阿里上线了Animate Anyone模型。用户只需向该模型提供一个静态的角色图像和一些预设的动作（或姿势序列），就能得到该角色的动画视频。

根据此前的公开信息，百度文心大模型的类似功能则在内测中，不久后会以插件形式开放。

国内外玩家的积极下场，在某种程度上说明AI视频生成赛道将成为这一轮AI技术升级过程中的下一个受益方向。不少产业人士已经感知到了市场的风向，英伟达高级研究科学家、曾在OpenAI工作过的Jim Fan就在社交媒体上写道：“2022年是图像之年，2023是声波之年，2024（将是）视频之年！”

中信证券研报则指出：“参考文生图在广告领域的应用，文生视频同样有望推动生产力革命，降低生产成本、创作门槛，促使AIGC技术产业化进程加速。我们认为从能力的角度出发，文生视频有望率先在短视频和动漫两个领域落地。”

不过，技术革新的另一面，则是对现有业态的冲击。

在国内一家视频创作工具企业工作的Leo告诉「市界」：“今年早些时候我们一直认为AIGC主要还是作用在图文创作领域，但距离满足商业视频要求还要经过一两年的时间。”他补充道，这里提到的商业视频要求包括分镜脚本制作时保持对象的一致性、连续性等。

而现在看来，视频生成工具正以数倍于预期的速度进行迭代。在技术进步的倒逼下，现有的市场参与者们也不得不对自动化生成功能主动出击和布局。否则面临的，可能是被时代抛弃的结局。

您可能关注: AI视频

专业AI论文写作一键生成万字论文只需5分钟

文章来源: https://cy211.cn/aizixun/1631.html Chat AI人工智能机器人在线使用

[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑，如存在版权问题请发送邮件至398879136@qq.com，我们会在3个工作日内处理。非原创标注的文章，观点仅代表作者本人，不代表本站立场。

上一篇 OpenAI首席科学家入选《自然》年度十大人物 ChatGP

下一篇第一代AI PC，注定是高算力催熟的一代产品 AI是不是PC

AI创业之家

GEO优化

AI长篇写作

AI生成思维导图

轻创AI用户注册

AI视频神仙打架下一个超级App要诞生了？

01 携手华裔AI女神，谷歌抢滩AI文生视频

02 AI视频“神仙打架”，国内玩家怎么看？

AI智能对话

智能聊天对话，秒回答

AI模型创作

它无所不知，无所不能

GEO优化

抢占AI搜索榜首

服务热线

13826579603

AI创业之家

GEO优化

AI长篇写作

AI生成思维导图

轻创AI用户注册

AI视频神仙打架 下一个超级App要诞生了？

01 携手华裔AI女神，谷歌抢滩AI文生视频

02 AI视频“神仙打架”，国内玩家怎么看？

AI智能对话

智能聊天对话，秒回答

AI模型创作

它无所不知，无所不能

GEO优化

抢占AI搜索榜首

服务热线

13826579603

AI视频神仙打架下一个超级App要诞生了？