AI创业之家

首页

立即注册

免费试用

首页 > AI资讯 > 热点聚焦

今日推荐

热门搜索

全球和国产十大AI芯片算力排名，你知道几个？国内龙头人工智能芯片公司前30名单及介绍国产算力芯片排行榜前十名及股票全球十大人工智能上市公司排名 sora概念股有哪些？A股中AI视频概念的公司名单国内人工智能大模型公司排名果粉们开始大批退货vision pro 称不值3500美元国内AI人工智能软件排行榜前十名国内人工智能大模型排名前十的公司有哪些?中国A股芯片算力板块10家龙头股一览 iPhone16将配备8GBRAM iPhone标准版配置大升级国内人工智能做得最好的企业有哪些如何应对ChatGPT带来的机遇和挑战?大模型商业化落地成焦点，办公场景应用“尝鲜”罗永浩:东方甄选已给董宇辉天价

标准化CRM

AI原创论文写作

毕业论文、学术论文写作

大型CRM

AI长篇写作

写小说、写论文等

CRM定制开发

AI生成思维导图

一键快速生成思维导图

轻创AI用户注册

免费获取体验账号

ChatGPT也翻车？网购AI助手大比拼，谁才是真正的“剁手神器”？

来源：AIbase基地· 2024-11-20 17:21:32

机器学习早已渗透到各种线上服务中，网购便是其中最成功的领域之一。近年来，机器学习被应用于各种网购任务，例如用户查询、浏览记录、评论分析、产品属性提取等等。为了促进机器学习方法的发展，许多基准测试应运而生，旨在降低研究人员和工程师开发和评估针对真实网购任务的新颖解决方案的门槛。

然而，现有的模型和基准通常是为特定任务量身定制的，无法完全捕捉网购的复杂性。大型语言模型（LLM）凭借其多任务和少样本学习能力，有可能通过减少特定任务的工程工作量并为用户提供交互式对话来彻底改变在线购物体验。尽管潜力巨大，但大型语言模型在在线购物领域也面临着独特的挑战，例如特定领域的购物概念、隐性知识和异构的用户行为。

为应对这些挑战，亚马逊的研究人员提出了 Shopping MMLU，这是一个基于真实亚马逊数据的多任务在线购物基准测试。Shopping MMLU 包含57项任务，涵盖4大购物技能:概念理解、知识推理、用户行为对齐和多语言能力，因此可以全面评估大型语言模型作为通用购物助手的潜力。

这 Shopping MMLU 可不是一般的“考试”，它可是从真实的亚马逊购物数据中提取了57项任务，涵盖了概念理解、知识推理、用户行为对齐和多语言能力四大模块。简单来说，就是要考察 AI 助手是否能像真人导购一样，理解你的需求，帮你找到心仪的宝贝。

亚马逊的研究人员用 Shopping MMLU 测试了20多个现有的 AI 模型，结果发现:

那些大名鼎鼎的专有 AI 模型，比如 Claude-3Sonnet、ChatGPT，表现确实不俗，稳坐第一梯队。不过，开源的 AI 模型也迎头赶上，大有挑战“权威”的势头。

Shopping MMLU 的测试结果也揭示了一个有趣的现象:网购其实是一个多任务学习问题。也就是说，AI 助手需要同时掌握多种技能才能胜任这份工作。

更令人惊喜的是，那些在通用领域表现出色的 AI 模型，在网购领域也毫不逊色。这说明，AI 助手可以将通用知识迁移到特定领域，快速学习新技能。

当然，AI 助手也并非天生完美。研究人员发现，一些常用的 AI 训练方法，比如指令微调（IFT），在某些情况下可能会导致模型过度拟合，反而影响其性能。

此外，少样本学习也是 AI 助手面临的一大挑战。这意味着，AI 助手在面对新任务时，需要快速学习，而不能总是依赖大量的训练数据。

总之，亚马逊的 Shopping MMLU 基准测试为 AI 助手的发展指明了方向。未来，我们期待看到更加智能、更加人性化的网购 AI 助手，让我们的购物体验更加便捷、更加愉悦。

研究人员还发现了一些值得关注的细节:

Shopping MMLU 比现有的其他网购 AI 数据集更加复杂和具有挑战性。

特定领域的指令微调效果并不总是很好，而且只在已经掌握大量通用知识的强大模型上才有效。

目前，即使是最先进的 AI 模型，在某些网购任务上的表现也还不如专门针对这些任务设计的算法。

这项研究的结果表明，构建一个完美的网购 AI 助手还有很长的路要走。未来的研究方向包括:开发更加有效的 AI 训练方法，构建更加多样化的网购 AI 数据集，以及将 AI 模型与特定任务算法相结合，打造更加强大的混合型 AI 系统。

最后，研究人员也坦诚地指出了这项研究的一些局限性:

Shopping MMLU 中的数据主要来自亚马逊，可能无法完全代表其他电商平台的用户行为。

尽管研究人员已经尽力避免，但 Shopping MMLU 中的数据可能仍然存在一些错误。

总而言之，亚马逊的这项研究为我们打开了通往未来智能购物时代的大门。相信在不久的将来，网购 AI 助手将成为我们生活中不可或缺的一部分。

您可能关注: ChatGPT

专业AI论文写作一键生成万字论文只需5分钟

文章来源: https://cy211.cn/aizixun/4534.html Chat AI人工智能机器人在线使用

[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑，如存在版权问题请发送邮件至398879136@qq.com，我们会在3个工作日内处理。非原创标注的文章，观点仅代表作者本人，不代表本站立场。

上一篇 OpenAI年度离职高管大盘点

下一篇 AI代理潮来袭：从简单任务处理到自主决策，未来两年或迎来重大

相关推荐

王兴兴：让机器人干活才是终极目标，格斗舞蹈只是手段

王兴兴：让机器人干活才是终极目标，格斗舞蹈只是手段

　在第七届北京智源大会上，宇树科技CEO王兴兴公开表示，公司始终坚持的终极目标是让机器人“干活”——无论是在家庭场景还是工业应用中。跳舞、格斗只是实现这一目标过程 ...

DeepSeek公开致谢腾讯技术团队助力DeepSeek通信框架提速100%

DeepSeek公开致谢腾讯技术团队助力DeepSeek通信框架提速100%

　DeepSeek近日发文公开致谢腾讯技术团队，称其对DeepSeek开源通信框架DeepEP的优化是一项“huge speedup”级别的代码贡献。此次优化聚焦 ...

月之暗面 Kimi 长思考模型 API 正式发布

月之暗面 Kimi 长思考模型 API 正式发布

　月之暗面科技有限公司宣布正式发布其最新的长思考模型API——kimi-thinking-preview。这一模型具备多模态推理能力和通用推理能力，擅长深度推理， ...

黄仁勋：未来中国 AI 芯片市场将突破 500 亿美元

黄仁勋：未来中国 AI 芯片市场将突破 500 亿美元

　在最近的一次采访中，英伟达首席执行官黄仁勋表示，中国的人工智能（AI）芯片市场在未来几年的规模预计将达到500亿美元。他强调，美国企业若无法进入这一快速发展的市 ...

ChatGPT三月下载量突破4600万，成全球最受欢迎非游戏应用

ChatGPT三月下载量突破4600万，成全球最受欢迎非游戏应用

　近日，市场研究机构 App Figures 发布了2025年3月全球非游戏类应用下载量的报告，令人惊讶的是，ChatGPT 以4600万次的下载量成功超越 In ...

上海AI实验室开源InternVL3系列多模态大型语言模型

上海AI实验室开源InternVL3系列多模态大型语言模型

　4月11日，OpenGVLab开源发布了InternVL3系列模型，这标志着多模态大型语言模型（MLLM）领域迎来了新的里程碑。InternVL3系列包含从1B ...

AI智能对话

智能聊天对话，AI秒回答
AI模型创作

它无所不知，无所不能
AI绘画

只需一句话，生成精美画作
轻创AI咨询热线

13826579603

行业解决方案 AI论文生成网站地图 AI创作网 AI资讯 AI智能对话系统 AI创业之家 AI论文写作 AI智能知识库

©2023专业AI智能生成工具支持私有化支持定制

地址：深圳市龙华区民治牛栏前大厦微信:398879136 网站备案号：粤ICP备08036815号-3Copyright © 2024 深圳市星远创业科技有限公司版权所有