随着人工智能飞速发展,大模型技术在全球应用越来越广泛,足以窥见以AI为核心的大模型带给千行万业的巨大革新。然而,AI大模型不是凭空产生、一跃而起的,针对大模型的训练是个复杂的系统工程,需要更高的计算能力和更多的数据传输能力,因此网络新基建在大模型产业发展中将会扮演关键角色。
在日前举办的华为全联接大会2023期间,华为发布了星河AI网络大模型,该模型汇聚了华为数据通信领域超200亿语料,凝炼了3万多名华为网络专家的智慧结晶。会上,华为数据通信产品线总裁王雷分享了华为对AI智能化时代的前沿洞察与独到理解,并详细解读了星河AI网络如何用高运力释放AI时代高算力,继而实现“以网强算”的。
过去几年,随着数字基础设施在政务服务、经济建设、民生保障、社会治理等方面的支持作用加大,人工智能算力需求迎来爆发式增长。近日,工信部等六部门联合印发了《算力基础设施高质量发展行动计划》,明确强调计算力、运载力、存储力一个都不能少,其中以网络传输为核心“运载力”对人工智能行业发展至关重要。王雷表示,虽然大模型能力非常强大,但建造一个大模型算力中心的成本十分高昂。曾经有客户初略计算过,一个万亿参数的模型需要基础投资十亿以上,还需要每年支出几千万的维护费用,这让“自建”几乎成为不可能完成的任务。
因此客户更关心另一个问题——“既然自建是不可能了,如何才能尽早的用上大模型”。
作为华为面向智能时代打造超高吞吐,长稳可靠、弹性高并发的新型网络基础设施,星河AI网络便有了优势。王雷表示,行业将走向算力出租和服务模式,大型算力服务中心将成为服务千行百业的算力中台。这也就意味着,算力服务将以公共服务的形态存在,并涵盖“算力产生、算力传递、算力接入”三个部分。
首先是算力服务的产生,AI算力中心规模越大,也就越容易出现常说的“智能涌现”,因此算力服务一定是中心化的,算力中心一定是集群式的。其次是算力服务的传递,算力训练需要新数据的不断交互才能更加智能,但企业和个人距离算力中心会很遥远,需要数据跨越成百上千公里的传递来进行训练,并回传结果持续更迭。最后是算力服务的接入,应保证无论是大城市还是县镇乡、企业还是个人,都不应受限于接入链路的限制。
王雷介绍,针对以上三大挑战,华为星河AI网络提供了整体解决方案和系列产品。
在算力产生方面,星河AI网络提供新一代星河智算交换机,具有400GE和800GE高密端口能力,仅2层交换网络可实现1万8000卡无收敛集群组网,可支持超万亿参数的大模型训练;同时网层数的减少避免了大量的光模块的互联,不仅降低了建网成本,也降低了网络功耗。
此外星河AI网络还支持独创的网络级负载均衡的方案NSLB,使得AI网络吞吐从50%提升到98%,AI训练效率提升20%,实现真正意义上的算力超频。再加上全栈可视运维黑科技实现大模型训练网络路径、流负载实时可视化,结合Packet Event数据面异常感知技术和DPFR故障无感自愈技术,实现亚毫秒级故障快速收敛。
在算力传递方面,星河AI网络具有高吞吐、高弹性、高并发优势。基于华为多路径智能调度、流感知均衡调优和自适应抗丢包技术,可实现 “T级数据小时达”,转发运力提升8倍。在算力接入方面,华为推出了星河网关路由器,采用Fillp技术来抗网络劣化,可以在1%的丢包率的情况下将带宽负载率从10%提升到80%,即便是网络质量不好的偏远地区,AI算力也能顺畅流动、如期到达。
“目前,人工智能在各个行业都在创造着不同的‘奇迹’”王雷表示。比如在医药行业,一款抗生素从研发到上市平均需要10亿美金以及10年以上周期,大部分时间都花费在目标药物筛选和检验过程中,医学界称之为“大海捞针”。而华为盘古药物分子大模型改变了过去40年没有新抗生素诞生的空白,通过学习17亿个分子化学结构,助力西安交大一附院刘冰教授的团队只用不到一个月时间,就找到了新型的抗生素“肉桂酰菌素”,下一步将进入临床验证阶段。
据悉,在华为全联接大会2023期间,华为还联合中国信息通信研究院、科大讯飞研究院正式发布了《星河AI网络白皮书》,其中阐述了星河AI网络在AI大规模参数计算场景下的广泛应用前景,并从AI业务的发展趋势、网络架构和关键技术创新三个方面展示星河AI网络在人工智能产业的技术领导力,为构建面向AI大模型的高性能训练网络提供参考。
“华为星河AI网络的发布,是华为积极投身各行业智能化变革的重要一步。未来,星河AI网络也将为全球用户提供更优质、更智能的AI网络服务。”王雷说。
[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑,如存在版权问题请发送邮件至398879136@qq.com,我们会在3个工作日内处理。非原创标注的文章,观点仅代表作者本人,不代表本站立场。