人工智能的未来在于一体化还是模块化?

来源:互联网· 2024-06-07 10:13:47

围绕着人工智能未来的发展,各大科技巨头采取了不同的路线:谷歌采用了一体化的做法,亚马逊似乎完全转向模块化,而微软则介乎两者之间。谁会胜出?时间将告诉我们答案。文章来自编译。

萨蒂亚·纳德拉 (Satya Nadella) 上周在回答有关谷歌和人工智能的问题时说了这么一段话:

我觉得垂直一体化的空间总是有的。我常常会回顾盖茨/格罗夫模式,或者苹果模式,或新的谷歌模式,也就是垂直整合模式。我认为各有各的策略。

罗纳德·科斯是最早探索一体化与模块化问题的经济学家之一,他在开创性的论文《企业的性质》中得出结论:

当我们考虑企业应多大时,边际原理就会顺利地发挥作用。这个问题始终是,在组织权威下增加额外交易要付出代价吗?在边际点上,在企业内部组织交易的成本或是等于在另一个企业中的组织成本,或是等于由价格机制组织这笔交易所包含的成本。

克莱顿·克里斯滕森教授将一体化与模块化的分析从经济学家可衡量的成本领域扩展到了更难说清楚的创新领域。摘自《创新者的解答》:

在图5-1的左侧,我们可以看到,当产品出现性能缺口(performance gap)时(也就是当产品的功能和可靠性达不到某个市场级别的用户需求时),企业必须投入最好的产品来进行竞争。在这个过程中,有专利性和共生式产品架构的企业往往能取得竞争优势,因为模块化产品架构的内定标准大大剥夺了工程师的设计自由,降低了产品性能的可优化性。

为了弥补新一代产品面临的性能缺口,巨大的竞争压力迫使工程师在组装系统时力求越有效越好,尽可能提升产品的性能。如果一家企业必须要用性能最好的产品来参与市场竞争,那么它就不能只是组装标准化的组件,因为从工程师的角度来看,标准化接口限制了设计的自由以及对前沿技术的应用。当市面上的产品并没有达到完全成熟完善的水平时,采用保守的技术,就意味着你将输给别人。

选择自主开发共生式产品架构,就意味着企业必须将整个生产过程全部整合起来,必须掌控产品系统当中每一个关键组件的设计和制造。例如,在大型计算机产业发展的早期,当产品的功能和可靠性尚未满足主流客户的需求时,大型计算机的独立分包商是没有生存空间的,因为机器的设计理念依赖于机器的使用方式和制造模式,反之亦然。在设计和生产环节之间,并不存在简洁的接口。同样的,你也无法作为独立供应商来为大型计算机生产操作系统、核心内存或逻辑电路,因为这些关键的子系统都已经被大型计算机生产厂商自行设计了。

我在 2013 年那篇《克莱顿·克里斯滕森错在哪里》那篇文章里也对此做出了贡献。我反对的不是摘录的这些,而是它的后续论点,也就是一体化的解决方案最终会做过头,并被模块化替代方案颠覆;正是基于这一点,克里斯滕森经常预测苹果会失去智能手机领域的领先地位,但在模块化成本超出了经济学家衡量标准的消费市场,我不认为会出现这种情况:

对于这种垂直一体化的分析,我持质疑的态度,因为只考虑了财务成本(这正是我在商学院所学到的东西)。但还有其他更难以量化的成本。模块化在产品设计和使用体验方面产生的成本既无法克服,也无法衡量。商业买家与研究它们的分析师会忽略掉这些,但消费者不会。一些消费者天生就知道并重视质量、外观和感觉以及对细节的关注,并愿意支付远远超过垂直一体化财务成本的溢价。

就智能手机甚至计算机而言,这个结论终归是对的:是,Windows 型模块化计算机前 30 年是占据了主导地位,但如今却是 Mac 在消费者当中占据了主导地位,微软做 Copilot+ PC 的思路暗地里已经承认了这一点。不过,智能手机与 PC 都是你手头的物理设备;一体化赢在起点(有时候甚至赢在终点)的假设对于人工智能是否成立呢?

人工智能的一体化与模块化

个人计算机的一体化与模块化:

20 世纪 90 年代的时候,苹果曾短暂尝试过模块化,以几乎破产结局。最终,苹果走上了一条相反的道路,将整个系统集成到处理器之中,这就是 iPhone 设定的路径:

这两幅图之间的相似之处应该令人震惊;马克·扎克伯格希望同样的模式在头戴式计算机重演,而 Meta 则是开放的替代方案。不过,就像纳德拉所说那样,在人工智能方面,谷歌是一体化玩家:

谷歌用自己的 TPU 处理器训练和运行 Gemini 系列模型,而这些处理器只能在谷歌的云基础设施上才能用。开发者可以通过谷歌的全托管 AI 开发平台 Vertex AI 访问 Gemini;而且, Vertex AI 与谷歌的内部开发环境有多相似呢?这么说吧,谷歌也是在这个平台上开发自己的面向消费者的人工智能应用的。从上到下一切都是谷歌的,有证据表明这种一体化正在取得成效:Gemini 1.5 业界领先的 200 万个令牌上下文窗口几乎肯定需要谷歌基础设施团队与模型开发团队的联合创新。

另一个极端是 AWS,它没有任何自己的模型;相反,它的焦点是 Bedrock 托管开发平台,这个平台允许使用任何模型。亚马逊的另一个焦点是开发自己的芯片,尽管其绝大多数的人工智能业务都是在 Nvidia GPU 上面运行。

鉴于与 OpenAI 及其模型的密切联系,微软处在中间位置。该公司去年增加了 Azure 模型即服务(Azure Models-as-a-Service),但其对外部客户和内部应用的主要关注点一直是建立在 OpenAI 的 GPT 系列模型之上;微软也推出了自己的推理芯片,但其绝大多数工作负载都在 Nvidia 上运行。

最后是 Meta,Meta的开发都是给自己用的;这意味着最重要的集成点是在应用与模型之间;这就是为什么 Llama 3 针对低推理成本进行了优化,哪怕要以更高的训练成本为代价。这也意味着 Meta 可以完全跳过托管服务层。

另一家值得关注的公司是 Databricks。Databricks 收购了MosaicML,后者可帮助客户利用自己的数据训练自己的大语言模型,这些数据当然是存储在 Databricks 上,而 Databricks 本身则位于超大规模计算服务器的顶层:

Databricks 值得强调一下,因为它的做法是将数据放在首位;数据和模型是整合点。

对科技巨头的分析

谷歌

从这个分析得出的第一个结论是,谷歌的战略确实很独特:正如纳德拉所说,他们是人工智能领域的苹果。更大的问题是这是否重要:如我上面提到那样,一体化已被证明是一种可持续的差异化,适用于 (1) 消费市场,其中买家就是用户,因此重视一体化带来的用户体验优势,以及 (2) 这些用户体验优势体现在设备上。

谷歌确实在为消费者市场打造产品,但这些产品不是设备,而是互联网服务。而且,你可能已经注意到,对历史的讨论其实并没有提到互联网。谷歌与 Meta 是互联网时代的两大赢家,它们都在商品硬件基础之上开发了自己的服务。诚然,这些服务的规模得益于两家公司在基础设施方面的深入工作,但即便如此,谷歌定制化更强的做法至少与 Meta 更开放的做法是可以相媲美的。值得注意的是,两家公司都在整合自己的模型与应用,OpenAI 与 ChatGPT 也是如此。

谷歌面临的第二个问题是,他们是否还擅长制造产品;苹果之所以如此出色,部分原因不仅在于该公司的一体化,还在于它长期保持着卓越的标准,哪怕继续推出除 iPhone 外的突破性新产品亦能保持,如 Apple Watch 和 AirPods。也可能是卖硬件(每年都必须完美无缺,才能证明消费者花费大量金钱是合理的)比成为用户免费访问的聚合者提供了更好的激励结构,可以保持卓越和执行力。

这篇分析还聚焦了谷歌“真正的登月计划”的潜力:将公司的 Pixel 手机作为垂直一体化的 iPhone 的竞争对手。摘自那篇文章:

从 Waymo 到 Google Fiber、Nest、Project Wing、Verily 以及 Project Loon等,谷歌的一系列“登月计划”大部分都是科学项目,这些项目大部分都是会分走谷歌搜索的利润的。Waymo 也许是其中最有趣的一个,但即便这个项目成功最终也只是一项汽车服务,与谷歌 “整合全球信息,供大众使用,使人人受益”的使命宣言相去甚远。

但是,如果使命宣言从头到尾都是登月计划的话,情况会怎样?如果“手气不错”不是简洁页面上的一个异想天开的按钮,而是与全世界所有信息互动的默认方式的话会怎样?如果人工智能助手如此优秀、如此自然,以至于任何能够无缝访问它的人都会不假思索地一直使用它的话会怎样?

不用说,这或许是唯一能真正让苹果感到害怕的事情。没错,Android 相对于 iOS 确实有其优势,但对大多数人来说,这些优势并不是特别重要,甚至对那些关心 Android 的人(比如我)来说,这些优势还不足以让他们放弃 iOS 整体上更出色的用户体验。推动平台市场份额发生重大转变的唯一因素是范式转变,虽然我怀疑 Pixie(传闻中的谷歌 Pixel 专用的人工智能助手)的 v1 版本是否足以推动 iPhone 用户转向 Android,但至少有一条路径可以做到这一点。

当然了,Pixel 首先需要在 Android 领域取得胜利,这意味着谷歌需要砸重金(开店、补贴运营商、提高产能等)打入市场。这个数目不小,因此谷歌没有真投钱让 Pixel 成为智能手机领域的重要玩家也就不足为奇了。

但其潜在回报却是天文数字:Pixie 无所不在意味着谷歌除了为企业和学校提供服务以外,还能通过卖硬件赚到真正的利润,云服务则利用谷歌的基础设施为企业提供相同的功能。此外,这样谷歌将可真正实现一体化:这家公司已经制造了手机与数据中心的芯片,开发了模型,并且利用全球最大的数据集来做到这一切。

谷歌最近的重组直指这个方向,尽管谷歌 I/O 大会没有任何迹象表明这种战略转变即将到来;他们聚焦的是新的人工智能驱动的搜索体验,不用说,这种体验的结果好坏参半。事实上,谷歌就曾因人工智能回答混乱而受到无情嘲笑,这一事实说明了为什么面向消费者的人工智能可能会对企业造成颠覆性影响:现有企业难以应对颠覆性技术的原因在于,这些技术至少在开始时还不足以赶上现有企业的核心产品。这究竟是会进一步推动智能手机战略的转变,还是会让公司变得更加沉默,时间将告诉我们。

企业侧则是另一个问题:虽然我对谷歌推销的企业业务印象深刻,因为它受益于与谷歌基础设施的整合,又不会颠覆公司既有产品的开销,但克服数据重力将是一项艰巨任务,也就是很多企业客户会发现,在存储数据的同一云端使用人工智能服务会更容易(当然了,谷歌也支持非 Gemini 模型以及 Nvidia GPU)。谷歌在企业端赢得胜利可能要靠抓住下一代人工智能优先(自然也是数据轻量)的初创公司,因为这些新公司可以自主根据基础设施和一体化做出决策。

AWS

亚马逊当然希望这个观点是正确的:这家公司的做法仿佛人工智能价值链的一切都可以模块化,到头来都会被商品化,这暗示它认为数据引力是最重要的。这在多大程度上是出于对战略格局的正确解读还是对事实(这个正好与亚马逊的优劣势完美契合,其中包括对商品化的工作负荷进行深度优化的基础设施)的偷懒解读就不好说了。

微软

微软处在中间位置,但并非完全出于自愿。去年 10 月,在公司的财报电话会议上,纳德拉详细谈到了公司如何围绕着 OpenAI 优化自己的基础设施:

我们确实用的是全栈的做法,不管是 ChatGPT 还是 Bing Chat,或者我们所有的 Copilot,大家用的是同一个模型。因此,从某种意义上说,我们确实把所使用、所训练、所进行大规模推理的模型用到尽了。这种优势会一直延伸到内部、第三方,而且随着时间的推移,你会看到这个技术栈优化一直延伸到硅片,因为开发者所处的抽象层级要比底层内核高得多。

因此,我认为我们的做法是让Copilot 及 Copilot 技术栈尽量可用。这并不意味着我们就没有人针对开源模型或专有模型进行训练了。我们也有很多的开源模型。我们进行了大量的微调,进行了大量 RLHF(基于人类反馈的强化学习)。所以有很多种使用方式。但问题是,我们有一个经过训练的大模型,一个用于推理的大模型,这种规模优势可以运用到所有第一方 SaaS 应用以及我们 Azure AI 服务的 API 上……

从云端学到的教训是——我们不是由不同业务组成的企业集团,而是微软产品组合成的技术栈,我认为这一点非常重要,因为考虑到支出情况,在这次人工智能转型中,任何企业不严格控制业务资本支出的都可能会陷入困境。

一个月后 OpenAI 就差点崩溃了,微软不得不面对这样一个现实,也就是将战略寄托在与无法控制的合作伙伴整合的基础上是极其危险的;这家公司大部分的说法和行动都聚焦在抽象模型上,尤其是通过该公司自己的托管人工智能开发平台,这种做法看起来更像亚马逊。我猜该公司其实做一体化的倾向性更大,也许现在仍然在这么做(包括收购自己的模型和模型开发团队),但它必须多面下注。

英伟达

我认为,所有这些对英伟达来说都是好消息。LLM 崛起有个潜在影响还没有得到充分讨论,那就是英伟达 CUDA 这道护城河已经减弱了;人工智能绝大多数的开发已不再使用 CUDA 库,而是在 LLM 之上进行。从理论上讲,这确实让替代性的 GPU 提供商(不管是 AMD 还是超大规模企业内部努力)削弱英伟达的主导地位和利润率的可能性增加了。

但英伟达并没有因为有了护城河就止步不前:这家公司正在逐步提高 GPU 的灵活性,并承诺下一代芯片的配置将是当前一代的两倍,包括重新强调了以太网联网的重要性。这种做法会最大限度地扩大英伟达的潜在市场,推动更多的收入,从而将把这些收入重新投入到一年一度的迭代周期当中,进而有望让这家芯片制造商领先于其他竞争对手。

我认为,至少在短期内,打破这种性能优势的唯一方法是实现真正的一体化整合,就像谷歌那样;换句话说,虽然谷歌的 TPU 仍将是一个强大的替代品,但我怀疑做内部芯片超大规模的努力在可预见的未来能成为主要威胁。如果没有全栈的一体化,这些努力基本上会沦为试图造出比英伟达更好的芯片,那只能祝你好运了!甚至 AMD 也发现,自己的 GPU 之所以能卖出去很大一部分是因为英伟达供应不过来的结果。

Meta

这也解释了 Meta 为什么要开源 Llama:该公司的焦点是产品,这些产品确实会受益于一体化,但广泛使用也会带来好处,特别是在软件优化与互补性方面。开源能得到这些好处,又不会影响到 Meta 的自身产品。

人工智能还是通用人工智能

到目前为止,有家我还没有提到(至少在人工智能方面)——那就是苹果。这家 iPhone 制造商跟亚马逊一样,似乎在押注人工智能会变成一种功能或一款应用;跟亚马逊一样,目前尚不清楚这在多大程度上是战略远见还是出于动机做出的推理。

但这确实触及到一个最大的问题:大语言已经令人难以置信,但要完全将现有的能力产品化还需要多年的努力;那更好的大语言模型能不能颠覆搜索乃至整个计算领域呢?如果答案是肯定的话,我认为谷歌的一体化方法会优势更大,原因如克里斯滕森所言:要实现接近通用人工智能(不管这是什么意思)的东西,都需要最大限度地提高效率和优化,而一体化正是为此而生的。

但我持怀疑态度:模型肯定会有所不同,但差异不会大到不能被看作商品的地步;最大的价值将来自于构建将模型视为处理器的平台,为永远不需要知道底层发生了什么的开发者带来性能上的改进。这意味着最大的好处将来自与水平方向的覆盖面——在 API 层、模型层以及 GPU 层——而不是垂直一体化;这取决于谷歌能不能证明我错了。


[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑,如存在版权问题请发送邮件至398879136@qq.com,我们会在3个工作日内处理。非原创标注的文章,观点仅代表作者本人,不代表本站立场。