中国的人工智能(AI)企业DeepSeek研发出了高性能、低成本的人工智能模型,正在动摇在美国企业主导下发展起来的最尖端AI研发格局。这是因为DeepSeek的AI模型以任何人都可以使用的“开源”形式提供,随着其渗透,有可能从根本上打破美国OpenAI和软银集团(SBG)等将启动的AI研发项目“星际之门(Stargate)计划”等美国的封闭研发体制。
对“低成本”的强调可能过于夸张
DeepSeek的最新AI模型“R1”最初被隆重地报道为是以“压倒性的低成本”研发的。部分媒体报道了560万美元这一极低的研发费用,但DeepSeek方面解释称,这是在R1之前于2024年12月发布的AI模型“V3”的训练费。
R1是以通过大量图形处理器(GPU)和大规模数据学习的V3为基础,通过在反复试错过程中加以学习的“强化学习”来提高逻辑推理能力的模型。由于强化学习不需要大量的计算资源,因此对R1研发费用规模的估算必须把V3考虑在内。半导体行业分析公司Semi Analysis指出,所谓V3花费的560万美元仅指GPU租用费,整体的研发费用有可能达到13亿美元。
以“开源”形式发布
R1的低成本容易被言过其实地强调,但其实可能更应该关注花费相应成本研发的最尖端AI模型以开源形式发布这一点。开源是指公开模型和软件的源代码,允许使用、复制、修改和再分发等。R1是在开源之中限制尤其宽松的“MIT许可证”下发布。
这与OpenAI、谷歌和Anthropic等美国主要AI企业采取的不公开模型源代码、限制使用的“专有(proprietary)”方式形成了鲜明对比。R1本身也可以下载,如果企业采取在自家公司或本国服务器上部署的方法,就可以降低数据泄露风险。
R1自1月20日发布以来,截至1月底在全球已被下载约84万次。吸收其他企业开源模型知识而研发的衍生模型也有6种被公开,每一种都被下载10万次以上。在美国苹果的“App Store”免费应用排行榜上,DeepSeek也一度超越ChatGPT等,位居榜首。
美国亚马逊旗下的亚马逊网络服务(AWS)开始了研发和使用R1的云服务。此前有报道称美国微软因怀疑DeepSeek存在数据违规利用而与OpenAI一起展开调查,但目前也开始在自己的云服务“Azure”上提供R1服务。
关注原创的研发方法
R1的性能与2024年12月正式发布的OpenAI“o1”相差无几,但很多专家关注其原创的研发方法。R1采用了一种名为“GRPO”的提高强化学习效率的新研发的算法。另外研发出仅利用强化学习来获得高度推理能力的模型“R1-Zero”,这一点也受到好评。
发布AI模型“o1”正式版的美国OpenAI的现场活动(2024年12月5日)
作为有助于实现AI自主完成工作的“AI Agent(智能体)”、能像人类一样完成广泛任务的未来的通用AI(AGI)以及更远未来的超级人工智能(ASI)的新型大语言模型(LLM),像R1这样的推理加强型AI模型正受到关注。
世界上最早的推理加强型AI模型是OpenAI在2024年9月发表的“o1-preview”。仅仅2个月后, DeepSeek和中国阿里巴巴集团等于11月相继发表了推理加强型模型。中国AI企业的技术实力和研究人才的充实程度从那时起就备受关注。
封闭的研发体制或将变得无力
在美国,从2024年下半年开始,对中国AI研发感到警戒的看法急速增强,到11月,美国国会的跨党派的美中经济与安全审查委员会(USCC)提议,AI研发应该以过去的有关原子弹研发的曼哈顿计划为范本推进。从安全保障的观点来看,特朗普执政的4年内总投资5000亿美元的星际之门计划很有可能采取类似曼哈顿计划的秘密研发体制。
然而,这种封闭的研发体制有可能因此次DeepSeek所展示的中国企业的技术实力和基于开源的创新而变得无力。随着AI模型在长期变为“大路货”,附加价值提高的并不是模型本身,而是AI应用领域,在AI模型研发方面落后于中美的日本或许也会迎来机会。日本需要在考虑AI的军民两方面冲击的同时制定研发战略。
本文来自微信公众号“日经中文网”,作者:吉川和辉
[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑,如存在版权问题请发送邮件至398879136@qq.com,我们会在3个工作日内处理。非原创标注的文章,观点仅代表作者本人,不代表本站立场。