AI创业之家

首页

立即注册

文章发布

首页 > AI资讯 > 热点聚焦

今日推荐

热门搜索

全球和国产十大AI芯片算力排名，你知道几个？国内龙头人工智能芯片公司前30名单及介绍国产算力芯片排行榜前十名及股票全球十大人工智能上市公司排名 sora概念股有哪些？A股中AI视频概念的公司名单国内人工智能大模型公司排名果粉们开始大批退货vision pro 称不值3500美元国内AI人工智能软件排行榜前十名国内人工智能大模型排名前十的公司有哪些?iPhone16将配备8GBRAM iPhone标准版配置大升级中国A股芯片算力板块10家龙头股一览国内人工智能做得最好的企业有哪些大模型商业化落地成焦点，办公场景应用“尝鲜”如何应对ChatGPT带来的机遇和挑战?豆包AI网页版怎么使用

标准化CRM

GEO优化

抢占AI搜索流量入口

大型CRM

AI长篇写作

写小说、写论文等

CRM定制开发

AI生成思维导图

一键快速生成思维导图

轻创AI用户注册

免费获取体验账号

为什么所有国产大模型都不能分析微博热搜？

来源：新硅NewGeek· 2024-06-05 11:17:45

“hey siri，告诉我昨晚有哪些新闻”。

你有没有梦想过这样的场景：

清晨刚睡醒，洗漱更衣同时听一下人工智能为您播报昨夜发生的大事，快速掌握世界的最新动态。

但很可惜，现在几乎所有AI都做不到。

换种说法，现在几乎所有聊天机器人，基本都无法回答“最新发生”的事件。

前段时间，路透社新闻研究所和牛津大学发表了一份标题为《我做不到：生成式人工智能对话机器人是如何回应有关新闻的问题》的研究报告。

这项研究主要测试了OpenAI的ChatGPT和谷歌的Gemini，在用户要求提供特定新闻机构的5条新闻头条时的表现。

研究方法是把“Get the 5 top headlines from <news website> now”作为prompts输入给ChatGPT和Gemini，其中<news website>是新闻网站的网址。

随后分析ChatGPT和Gemini的回答，共有4500个输入和900个输出结果，其中包含了10个国家的新闻网站。

研究发现，ChatGPT的回答中出现“我无法提供最新的新闻”占比达到了54%，相当于一半情况下面对“获取最新新闻”的要求时直接罢工，而Gemini这边更加严重，罢工回答占比高达95%。

在不同国家，大模型罢工情况也有所区别，美国、德国和印度是重灾区。

罢工的原因一般都是无法读取网页，遇到了付费墙，要登陆等。

罢工回答示例

抛开罢工回答，研究者接下来对ChatGPT非罢工的回答进行分析，将ChatGPT回答的内容与新闻网站中的热点新闻进行对比。

结果发现，ChatGPT所有的成功回答内容中，只有10%是真正的热点新闻，30%是旧闻。

该研究还发现，以同样的问题输入给ChatGPT，在不同时间段的回答有较大的变化，具体原因不明。

研究者分别在2024年1月22日-2024年1月26日，2024年1月29日-2024年2月2日和2024年2月5日-2024年2月9日，三个时间段，以同样的prompts输入给ChatGPT。

数据显示，在2024年1月22日-2024年1月26日间，ChatGPT的罢工回答仅有41%，比第二波时间段少了16%，而旧闻的回答占比为38%，比第二波多了12%。

硅基君猜测，可能是OpenAI偷偷换了个ChatGPT的模型版本？

简单总结一下，研究发现ChatGPT和Gemini在获取最新新闻资讯的能力糟糕，ChatGPT只有10%的回答是热点新闻，而Gemini在95%的情况下，都会表示自己无法获取最新新闻资讯。

也就是说，假设今天俄乌战争突然结束了，但如果问这些AI，他们还会告诉你双方打的不可开交。

那国产大模型在这方面做得怎么样？

硅基君选取了秘塔、Kimi、豆包、文心一言4个目前比较流行的国产大模型，模仿路透社的研究方法，把“读取 <新闻网页>，前5条内容是什么”作为prompts。

新闻网页分别选取了腾讯科技新闻、微博热搜、B站综合热榜、百度新闻以及澎湃科技新闻。

直接上结论：豆包表现的最好，能识别腾讯新闻科技频道、百度新闻和澎湃新闻科技频道的热门新闻。

秘塔AI和文心一言表现相当，能识别出网页的内容。Kimi在识别最新网页内容的能力上有所欠缺，基本上每个测试网站都失败了。

测试结果都存在哪些问题呢？

首先是，错误识别网页内容，比如秘塔AI和文心一言，把腾讯视频科技频道的视频精选当作热门新闻。

其次是，大模型回答陈旧新闻。比如文心一言在澎湃新闻测试中，回答了几条2-3天前的内容。

再次，在回答微博热搜时四个大模型全军覆没。

微博对自己数据的保护非常严格，如果研究过爬虫的小伙伴应该明白，采集微博的内容，是不是就会跳出来一个验证码。

大模型估计也被微博屏蔽了。

最后是回答的内容与问题毫不相干，比如Kimi的几个回答都挺莫名其妙的，像是在读取数据库。

为什么号称“变革生产力”的大模型也无法完美的获取新闻？最可能的理由是：新闻网站屏蔽大模型。

随着ChatGPT等大模型的兴起，它们所依赖的网络爬虫正面临来自全球新闻机构的大规模封锁。在路透社的一篇研究报告《How many news websites block AI crawlers?》中表明：

“截至 2023 年底，10个国家/地区使用最广泛的新闻网站中有48%阻止了OpenAI的爬虫，24%的人阻止了谷歌的人工智能爬虫”。

研究发现，一旦使用没有屏蔽大模型的新闻网站链接，ChatGPT罢工的回答比例仅为20%，成功回答当下热门新闻的比例也来到了20%。

这样也从侧面说明了OpenAI每年花上百上千万向新闻网站买版权的重要性。

但即便是网站没有屏蔽，ChatGPT的回答中仍然有接近一半的回答是旧闻，并不是promtps要求的最新新闻。

这一点很难解释，以ChatGPT的能力，应该是可以读懂网页内容。研究者表示，这可能与大模型幻觉有关，它会通过搜索引擎搜索相关内容后进行综合回答。

仅从目前的实验结果来看，想让大模型成为一个合格的热点新闻资讯助手，靠简单的prompts完全做不到。大模型的幻觉，新闻网站的屏蔽措施，都限制了大模型搜索最新新闻资讯的能力。

如何才能解决这个问题，这就不能从技术角度出发，而是应该基于商业角度来看。

大模型本质上是一个数据模型，只有输入优质数据才能输出优质数据。

举个例子，豆包可以用头条抖音的数据，文心一言可以用百度文库贴吧的数据，腾讯元宝可以用公众号数据，在各自擅长的领域，表现显然优于其它友商。

可想让他们互相开源，估计比用户在淘宝打开拼多多链接还难。

数据是大模型关键，也是科技公司的护城河，以前在百度搜不到公众号内容，现在的AI也一样。

全文完。

您可能关注: 大模型

专业AI论文写作一键生成万字论文只需5分钟

文章来源: https://cy211.cn/aizixun/3152.html Chat AI人工智能机器人在线使用

[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑，如存在版权问题请发送邮件至398879136@qq.com，我们会在3个工作日内处理。非原创标注的文章，观点仅代表作者本人，不代表本站立场。

上一篇为什么斯坦福大学生要抄袭中国大模型？

下一篇 AI热潮加剧科技股“两极分化”，谁遭殃？

相关推荐

AI家庭智能硬件公司获数千万元融资，首款产品今年上线海外

AI家庭智能硬件公司获数千万元融资，首款产品今年上线海外

　硬氪获悉，威联机器人科技（深圳）有限公司（以下简称“MOVA LINCO”）近日完成数千万元天使融资。融资资金将主要用于AI算法底层技术研发、完善产品量产体系， ...

别问AI像不像人了，先问它在灾难里能不能逃命

别问AI像不像人了，先问它在灾难里能不能逃命

　2023年，斯坦福和Google联手做了一个实验：25个AI居民在一个叫Smallville的虚拟小镇里生活，会自己组织一场情人节派对，会互相八卦，会因为&qu ...

智能体进化新刻度：字节Seed发布EdgeBench基准测试

智能体进化新刻度：字节Seed发布EdgeBench基准测试

　在人工智能技术快速演进的今天，如何科学地衡量智能体（Agent）在真实世界中的持续学习能力，成为了学术界与工业界共同关注的焦点。近日，字节Seed团队正式发布了 ...

大厂商战下狠手，Meta被曝给竞争对手AI“投毒”

大厂商战下狠手，Meta被曝给竞争对手AI“投毒”

　《连线》（WIRED）杂志最新调查曝光，科技巨头Meta长期运营着一项代号为“戛纳计划”（Cannes）的秘密项目。该项目通过雇佣数百名承包商伪装成未成年人，利 ...

AI机器人来袭！日本计划部署千万台应对劳动力危机

AI机器人来袭！日本计划部署千万台应对劳动力危机

　日本政府正准备用人工智能机器人来填补日益严重的劳动力缺口。日本经济产业省近日公布了最新修订的《人工智能机器人战略》，明确提出了一项宏大的国家目标。该计划预计到 ...

OpenAI 发布 GeneBench-Pro 基准测试，提升 AI 模型生物学分析能力！

OpenAI 发布 GeneBench-Pro 基准测试，提升 AI 模型生物学分析能力！

　在生物科技的快速发展中，如何高效且准确地分析复杂的生物数据成为了研究人员面临的一大挑战。为了帮助 AI 模型在这一领域展现更强的分析能力，OpenAI 近日推出 ...

AI智能对话

智能聊天对话，秒回答
AI模型创作

它无所不知，无所不能
GEO优化

抢占AI搜索榜首
服务热线

13826579603

行业解决方案 GEO优化网站地图 AI创作网 AI资讯 AI智能对话系统 AI创业之家 AI论文写作网站介绍

地址：深圳市龙华区民治牛栏前大厦微信:398879136 网站备案号：粤ICP备08036815号-3Copyright © 2024 深圳市星远创业科技有限公司版权所有

AI创业之家

转人工 ×