大模型战争:智能体成关键,刷榜风光不在

来源:微信公众号 数智前线· 2024-12-10 09:45:47

2025年被认为将是智能体(Agent)落地元年,客户更看重智能体的效果,生态各方为此已在摩拳擦掌。‍‍‍‍

智能体采购,正在成为市场热点。

“如果说2023年项目中标主要围绕智算中心、模型中台建设,那么从今年下半年起,众多客户的招标内容全都转向应用,且越来越细分。” 众数信科联合创始人汪中告诉数智前线,智能体开始走上台前

智能体已成为客户、大模型企业以及各类服务商关注的核心故事。甚至一家企业能把智能体做好,就能越过大厂,成功中标。

对于大模型企业而言,智能体技术及工具链的支撑能力已成为基本要求。若在这方面表现欠佳,大概率难以与其他模型竞争。单纯靠刷榜体现的优势,如今已很难得到客户认可。

不过,业界对于智能体的定义、涵盖的具体内容,尚未达成共识。有人认为OpenAI 推出的 GPTs 是智能体;也有人认为,只有能调用工具的才算是智能体。从形式上说,不管对话机器人还是各种形式的大模型应用,从广义上都属于智能体范畴。

但有一点是业界公认的,那就是智能体必须能切实解决业务问题,至少在降本增效方面要有 10 倍、20 倍的提升,才能获得客户认可。因为业界越发意识到,大模型模式更难实现商业闭环,单纯的烧钱模式基本难以为继。

而业界这种认知,不仅重构了软件架构,甚至在促使大模型生态企业重塑了商业模式。正如王坚博士所说,AI 不应被视为工具的革命,而应被当作革命的工具

01 “客户要求10倍~20倍效果”

“你说电商直播数字人好,那你就帮我卖东西。一单二三十元,我分你两元。”从事生成式AI虚拟人研发的中科深智CTO宋健告诉数智前线。在电商领域,今年客户在购买工具时变得格外谨慎,他们更倾向于按照效果付费,采用分润或CPS(按销售付费)模式。宋健预测,到明年,他们的直播电商数字人客户可能 100% 都会采用这种模式。

“国内外智能体存在很大差异。国外可能仍类似于传统 SaaS 模式,只是利用智能体重构了以往的软件架构。” 宋健表示,国内的情况则更为激进一些,在一些竞争激烈的行业,比如电商领域,不仅重构了软件架构,还重塑了商业模式

这是因为客户关注的是智能体能否切实解决问题。“无论是降低成本还是提高效率,综合起来至少要有 10 倍、20 倍的提升才行。” 宋健进一步解释道。

客户现在对大模型技术已经祛魅了。”众数信科汪中向数智前线坦言,这些客户从之前单纯的基础性采购,转变为以应用效果为导向,要求智能体在降本、提效或拓展新业务方面创造价值。

“客户不关心你是怎么实现的,只要看效果。”汪中说。目前行业内的采购模式通常是,技术厂商先迅速为客户进行一个 PoC(概念验证)场景验证,虽然语料范围可能较小,交互形式也较为单一,但要证明能够完成客户场景中的业务逻辑,并运用客户专属的业务知识。之后,客户才会启动采购流程。当然,他们也愿意为这些创新投入一定成本。

众数信科最近做的一个PoC是气象部门的紧急预警方案助手。厦门每年都会遭受台风侵袭,气象部门预测后,需要向港务局、城管等多个部门发送应急通知。这些应急报告原来需要4个专家花费3个小时才能完成。PoC的演示效果显示,借助助手,只需1位专家1小时就能完成,效率大约提升了12倍。

在另一个案例中,原本无法实现的事情,现在成为了可能。在高校学生培养计划中,存在大量评测维度。如果依靠现有的编程技术,针对上万乃至数万学生,只能进行一些通用评测,很难实现个性化定制。在这个案例中,针对课堂环节,多个智能体协同合作,实现了创新。例如,有的智能体负责转录授课语音,有的进行授课水平的分析对比;有的生成随堂小测试卷,有的现场批改试卷;还有的针对每个学生的薄弱点,进一步推荐学习材料…… 因此,在学生评价系统中,新增了多个评测维度。

“每一步背后都有智能体的支撑。” 汪中总结道,随着基础模型能力的发展,智能体的能力和形态更为丰富,已经初步具备协同的基础。汪中说,他们在实践中认识到,每个智能体都要扮演一个人类的社会角色,进行社会化分工并有产出,进而有可能形成群体智慧。智能体不再是单一的工具,未来也不仅仅是单个超级智能体的出现

为了达到这样的状态,智能体需要具备三个主要特征:能够进行交流和理解;依据反馈和结果进行反思和自我规划;与外部能力单元,如业务系统、其他智能体、工具级应用等进行互动和协同。

在智能体落地应用过程中,客户从购买产品向购买服务的转变趋势愈发显著。智能体与以往信息技术的不同之处在于,它需要持续优化和调整,而目前客户完全依靠自身力量实现这一点,还存在难度。汪中发现,以规模在200万元左右的项目为例,后续每年服务费的占比已从传统信息化项目的 10%~15% 提升到 25%~30%

而在竞争更为激烈的电商领域,变化更是翻天覆地。宋健注意到,电商直播数字人的迭代速度已经以天计。一旦从销售工具转变为提供服务,涉及的环节会变得极为繁杂。例如,需要密切关注平台的各种规则及其调整变化;之前那种研发、产品和业务相互分离的模式已经行不通了,现在必须协同作战,技术人员要深入一线,每天查看数据、分析运营情况,进行优化迭代;当优化措施不再奏效时,要果断更换产品、调整客户群体。“CPS 模式的优势就在于,各方更容易达成共识。”

02 生态全都动起来了

在智能体的落地巨变中,虽然大厂仍是当下的主要推动者,但人们认为,由于智能体更看重对客户需求的响应,未来行业智能体的产出来源主要将是两类玩家:

一类是有AI原生能力的服务商另一类则是行业传统信息化服务商。智能体的落地并非易事,核心技能有业务场景遴选、知识萃取、智能体训练和编排。如果不了解业务场景以及大模型的能力边界,那么在技术响应、经验和效率上就会非常低。这需要人工智能人士和业务人士的双向奔赴

而大厂在这一过程中,将扮演生态链普及角色。百度、阿里、字节、腾讯等大厂均推出了一站式智能体开发平台。他们走的是标准路线,目的是降低智能体落地门槛、应用广度和深度。比如,无论百度、智谱还是浪潮云,最近发布的新品,都在关注用智能体接管手机等设备的能力,实现一些拟人化操作。

大家目前都在基于自身大模型,构建整体的智能体生态。”IDC中国高级分析师杨雯告诉数智前线,差异在于各家应用场景、数据积累不同,发力的优先场景和方向选择也有所不同。业界观察,这些企业在智能体支撑策略上差异也较大:

业界反馈,百度生态布局上覆盖较全,有基础模型,APP builder、Agent builder平台,也有对应的硬件如一体机,可直接在客户机房中部署。百度也支撑联合方案开发,定制化产品适配。业界分析,这与李彦宏号召业界不卷模型、卷应用有关。

一些人士建议,千帆平台可以加强除文心之外的商业化模型纳管,并支持更多常见互联网服务的插件开发。

在智能体方面,今年11月,百度推出工具流Agent。“Agent去年一出来特别火,但很快一盆冷水泼下来,大家发现很难用起来。我们的客户里,90%是RAG,10%是Agent。”千帆AppBuilder产品负责人朱广翔告诉数智前线。因为要完成一个企业级任务,可能需要几步甚至更多,如果每一步准确率是95%,多步骤下来,衰减将非常快。它没办法支撑长思考和推理。采用工作流方式,专家把流程描述好,Agent就会稳定很多,会更加落地。

阿里的通义千问模型能力在国内较强、反馈好,其开源模型在业界应用较多。阿里更多通过云端形态支撑应用,私有化支撑较少。这可能与阿里云的“AI驱动、公共云优先”战略有关。在智能体产品方面,阿里通义实验室新推出了自适应规划的多模态检索智能体OmniSearch,能模拟人类,将复杂问题逐步拆解进行智能检索规划。

字节目前在大力推广扣子私有化部署产品,即今年8月推出的HiAgent企业专属AI应用创新平台。与年初打响大模型价格战异曲同工,这次仍通过价格战,抢占市场。不过,它目前还不搭配模型,即字节豆包模型还没有私有化;不做应用,没有硬件,尝试基于HiAgent平台教会客户去搭建Agent应用。它的打法和支撑条件还有待体系化,这与其刚刚启动大模型私有化业务线不无关系。

腾讯在智能体上的布局,也和其在大模型落地上优先赋能自身产品矩阵的“全家桶”策略类似,更加关注与自身拥有庞大流量的自家产品的结合。比如今年9月,腾讯元器上线的新功能就支持公众号运营者自主打造专属智能体应用,在公众号内提供陪伴、互动、答疑、知识交流等智能化功能,目的是提升用户体验和公私域运营效率。

除了大厂,“AI六小虎”的智谱AI最近不断更新智能体技术。智谱的优势在于科研能力较强,一些开发者反馈,其模型的某些性能,超过了通义千问。但目前生态方面的支持还有待加强

在前不久召开的智谱Agent OpenDay上,智谱CEO张鹏表示,Agent可以看作是大模型通用操作系统的雏形,理论上,可以将其推广到手机端、PC端、车端等各类智能设备上,实现基于大模型的互联互通。

“将来的智能体,一定是跨系统操作的,这是0跟1的区别,而不是60分和70分的区别。”一位资深行业人士观察,跨系统、跨App的能力,目前已成为兵家必争之地。

中国电信在今年9月开始智能体平台的开发,近期展出了星辰智能体应用平台。中国电信相关人士告诉数智前线,目前针对政企的标杆项目正在打造之中。

虽然大厂动作不断,但业界期望他们支撑智能体的速度要更快。“目前的速度无法跟上广泛的客户需求。更多业务逻辑没有充分体现,也就是客户专属知识与大模型技术的结合问题,这也是业界在落地上非常关注的。这侧面说明,大模型企业向客户方向靠拢,尚需一个过程。

03 智能体,何时爆发?

智能体的大方向已成,但何时能够真正爆发?

多位行业人士均向数智前线表示,这很大程度取决于模型能力的发展及市场教育进程。

“我们有一个简单判断,GPT5什么时候能出来,会是一个很直观的对标时间点。”众数信科联合创始人汪中说。

智谱AutoGLM 技术负责人刘潇也告诉数智前线,去年智能体还只能满足用户10%-20%的预期,用户就不太愿意买账,今年达到了50%-60%,一些用户开始意识到这件事情有用,而当智能体能满足用户70%-80%的预期时,应用铺开的速度将非常快。他判断大模型能力达标大概还需半年

中科深智CTO宋健则表达了不一样的观点。他认为,Agent要真正爆发,必须真的渗透到行业里头,但To b链条的爆发,“明年应该还到不了特别大的规模”。

IDC中国高级分析师杨雯也告诉数智前线,于B端来说,若无法彻底解决大模型的幻觉问题,达到100%的精准度,大规模应用仍然难以实现。智能体爆发,预计可能要1至1.5年时间

“目前而言,智能体仍处于市场混战阶段,距离成为终极入口标准还有一定的路程。”杨雯说。

但不可否认的是,面向这一确定的方向,处在智能体爆发前夕的玩家们,无一例外,都在通过各种工程化的能力和一系列技术,弥补模型能力不足,提前抢占先机。

“我们测试过大量基础模型,它们的Function Call能力在10个工具里去选,还是比较准的,一旦超过10个,准确度就大幅衰减,但在实际的应用场景中,执行步骤大概率都超过了10个,为了更好的实现业务可控性,我们首创了基于状态机的智能体workflow(工作流),在保证智能体自规划、自治性能力不受影响的前提下,实现业务的精准可控。”汪中说。

智谱刘潇也透露,他们正通过更好的强化学习策略,让智能体能够执行更长的步骤操作。

业界目前也都在研究工作流。“正因为有了工作流,我们发现虽然只增加了一层,但是Agent的落地增长就非常快,能看到很快到两成。”百度朱广翔说,预测明后两年,Agent会逐渐超过RAG应用,因为RAG场景较少,只是问答;但Agent可以实现客服、营销、企业调度、一站式平台,天花板更高。

有行业人士认为,智能体的应用可以至少分为从低到高三个应用层级,目前市场上已经出现不少初级应用和中级应用,高级应用则还需进一步实现。

比如豆包、kimi、文小言等,被认为可以看作是最为初级的智能体。它们具备简单的语言交互和任务理解能力,听得懂人话,能够根据指令,去执行一些简单的操作。“目前绝大多数的智能体是单智能体的初级应用,包括很多GPTs,能够简单的做问答等任务执行。”IDC杨雯说。

中级应用还要更深一层,展现形式已经脱离单纯的Chatbot形态,不再仅仅是对话框模式,规划能力和复杂度也进一步提升,使用的工具不再是联网搜索、天气查询等简单插件,而是需要有对应场景内的专业插件和能力,能完成更复杂的场景任务

“比如智能客服,就是非常典型的一个Agent应用,比以前可能会有10倍甚至20倍的一个变化,现在我们接到的很多电话,其实都是新的Agent打出来的,你跟它聊半天,可能还以为它是个真人。”宋健说,而且,与传统客服相比,软件设计也变得更加简便。

“第三个级别,也是我们现在在努力去实现的。它除了更丰富的交互形态,能够完成复杂任务,还会额外再增加两个标签。”汪中告诉数智前线。

其一是能够了解场景背后的业务逻辑和知识脉络。“它可能不再那么通用,但它的专业性更强。而如果没有,它还会主动去寻求这些行业知识的支撑。”

其二,从插件和工具的使用能力上来说,它能够读懂现有的业务系统,将现有的业务系统作为其能力插件来源的一部分,而不再只能使用为它定制的插件。

汪中举例说,他们正在与船舶货运公司进行港务调度助手的研发试点,在他看来就是一种高级应用。

一艘船靠岸后,往往需要进行卸货、转运、洗舱、船员登记、物资补给等大量工作,原来这些工作主要靠人工去安排和调度,再登记进入车辆管理系统、补给管理系统等对应的若干个系统里,给到对应的执行单位执行。而现在,客户提出,希望用AI智能体来帮助现场员工,在繁杂的信息流和工作流中,由智能体进行初步的信息收集、分析、业务建议,成为现场员工的“数字同事”。

当然,更高级的应用,仍然有赖于模型能力和工程化能力的提升。

本文来自微信公众号“数智前线”(ID:szqx1991),作者:赵艳秋 周享玥


您可能关注: 大模型

[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑,如存在版权问题请发送邮件至398879136@qq.com,我们会在3个工作日内处理。非原创标注的文章,观点仅代表作者本人,不代表本站立场。