AI创业之家

首页

立即注册

免费试用

首页 > AI资讯 > AI创业头条

今日推荐

热门搜索

Chat gpt人工智能网页版国内使用入口昆仑万维实测“天工”大模型：以AI改写搜索边界 2023中国AI大语言模型前10名抢抓大模型机遇助力AI产业高质量发展多模态大模型推动AI迈向“通感”时代巨人网络与阿里云达成“游戏+AI”全面合作美团入股智谱AI 纷享销客战略融资 AI圈割韭菜乱象频出：卖199元AI课赚了上千万华为正式发布盘古大模型3.0 探索用AI赋能千行百业 AI 作图内卷加剧：AI作图领域内卷现象深度解析谷歌CEO万字访谈：搜索未来、AI变革、合并DeepMind幕后故事当AI绘画开始抢动漫人饭碗 AI大模型继续遍地开花华为发布大模型时代AI存储新品 5G+AI，点亮银龄潮生活

标准化CRM

AI原创论文写作

毕业论文、学术论文写作

大型CRM

AI长篇写作

写小说、写论文等

CRM定制开发

AI生成思维导图

一键快速生成思维导图

轻创AI用户注册

免费获取体验账号

超越GPT-4V，苹果多模态大模型上新

来源：新智元· 2024-04-11 09:14:48

【导读】苹果开发的多模态模型Ferret-UI增强了对屏幕的理解和交互，在引用、基础和推理方面表现出了卓越的性能，这些增强功能的出现预示着巨大的进步。

一句话Siri就能帮忙打开美团外卖下订单的日子看来不远啦！

4月8日，苹果发布了其最新的多模态大语言模型（MLLM ）——Ferret-UI，能够更有效地理解和与屏幕信息进行交互，在所有基本UI任务上都超过了GPT-4V！

论文地址：https://arxiv.org/pdf/2404.05719.pdf

虽然苹果前段时间经历了泰坦项目的沉没，但看目前的形式，这是又要开卷的节奏呀~

不少人十分期待，这项技术如果在苹果的Siri上，Siri岂不是要变得聪明绝顶了！

众所周知，通用域多模态大型语言模型（MLLM ）在理解和有效交互的能力方面往往不足。

而Ferret-UI被称之为是一种新的MLLM，专为理解移动UI屏幕而量身定制，具备指向、定位和推理等多种能力。

Ferret-UI能够通过灵活的输入格式（点、框、涂鸦）和基础任务（例如：查找小部件、查找图标、查找文本、小部件列表）在移动用户界面屏幕上执行引用任务（例如：小部件分类、图标识别、OCR））。

Ferret-UI的一个关键特点是「任何分辨率」（anyres），该技术通过放大细节来解决UI屏幕中小型对象的识别问题，从而提高模型对UI元素的理解精度。

这些基本任务为模型提供了丰富的视觉和空间知识，使其能够在粗略和精细级别上区分 UI 类型，例如区分各种图标或文本元素。

具体来说，Ferret-UI 不仅能够在详细描述和感知对话中讨论视觉元素，还能在交互对话中提出目标导向的动作并通过函数推理来推断屏幕的整体功能。

网友直呼：泰裤辣！

虽然Ferret-UI-base紧密遵循Ferret的架构，但Ferret-UI-anyres融入了额外的细粒度图像功能。

特别是，预先训练的图像编码器和投影层可以为整个屏幕生成图像特征，对于基于原始图像长宽比获得的每个子图像，生成附加图像特征。

为了增强模型的推理能力，研究人员编译了用于高级任务的数据集，包括详细描述、感知/交互对话和函数推理。

在基础任务性能的比较上， Ferret-UI展现出了对UI屏幕的出色理解能力以及执行开放式指令的能力，表现可谓亮眼！

掌握应用程序屏幕并使AI像人类一样进行交互，苹果未来或许将改变MLLM的游戏规则！

论文细节

方法

Ferret-UI建立在Ferret的基础上。

Ferret是一种MLLM，擅长在形状和细节各异的自然图像中进行空间参照和定位。

它可以解释区域或对象并与之交互，无论这些区域或对象被指定为任何自由形状（点、方框等）。

它包含一个预先训练好的视觉编码器和一个纯解码器语言模型，并采用一种独特的混合表示技术，将指定区域转换为适合LLM处理的格式。

为了向Ferret灌输UI专业知识，他们对Ferret-UI进行了两个扩展：

1. UI参照和定位的定义与构建
2. 模型架构调整以更好地处理屏幕数据

与之前需要外部检测模块或屏幕视图文件的MLLM不同， Ferret-UI 是自给自足的。

它将原始屏幕像素作为模型输入，这种方法不仅促进了高级单屏交互，还为新应用程序铺平道路，例如：提高可访问性。

数据集

他们对iPhone和安卓设备的屏幕进行了研究。

对于安卓屏幕，研究人员使用RICO数据集的一个子集，具体来说，他们考虑了Spotlight中的任务，其数据是公开的，包括 screen2words、widgetcaptions 和 taperception。

对于iPhone屏幕，研究人员使用AMP数据集，它涵盖了广泛的应用程序。

在收集 Android 和 iPhone 屏幕后，他们使用预先训练好的基于像素的UI检测模型进一步从屏幕收集细粒度元素注释。

对于每个检测到的用户界面元素，输出结果都包括用户界面类型（按钮、文本、图标、图片等）、相应的边界框，以及由Apple Vision Framework识别的显示在其上的文本（如果有的话）。

任务制定

首先从现有的Spotlight任务中获取screen2words、widgetcaptions和taperception，并将它们格式化为会话QA 对。

对于每个训练示例，他们都会对相应任务的提示进行采样，并将其与原始源图像和真实答案配对。

基础任务数据生成

除了Spotlight任务之外，他们将referring任务定义为输入中带有边界框的任务，而基础任务则是输出中带有边界框的任务。

对于每个任务，他们还使用GPT-3.5 Turbo来扩展基本提示以引入任务问题的变体。

数据生成的详细信息如下图所示。

高级任务数据生成

为了将推理能力融入到该模型中，他们使用LLaVA方法，并用GPT-4收集另外4种格式的数据。

首先对检测输出中的边界框坐标进行标准化，然后将检测、提示和可选的一次性示例发送到GPT-4。

为了详细描述和功能推理，他们将生成的响应与预选的提示配对来训练Ferret-UI。

下图说明了高级任务的训练数据生成过程。

以上数据的生成主要为4个任务，分别是：详细描述、对话感知、对话交互和功能推理。

其中，他们扩展了详细描述和函数推理的基本提示，将它们与GPT-4响应配对，作为模型训练中的输入数据。

对于对话任务，他们为GPT-4提供了一个上下文示例，以更好地遵循其输出中的边界框格式。

实验结果

初级任务的性能细分如下表所示。

可以看到，与Spotlight相比，Ferret-UI在S2W和 WiC方面表现出了优越的性能，尽管Spotlight使用了80M网页截图和269M手机截图进行预训练。Ferret-UI性能虽然低于TaP，但仍然具有竞争力。

高级任务性能的结果如下表所示。

尽管Ferret-UI的训练数据集中缺少Android特定数据，但它在两个平台的高级任务上都表现出了值得称赞的性能。

这表明用户界面知识在不同操作系统之间具有显著的可转移性。

消融研究

研究发现，当仅使用高级任务数据，两个平台的性能均为64%。添加iPhone或Android基本任务后，iPhone上高级任务的性能持续提高5%。

同样，从iPhone添加基本任务可将Android在高级任务上的性能提高约4%，而合并Android基本任务可将这一性能提高9%。

包含iPhone和Android基本任务后，iPhone 和 Android 高级任务的性能分别进一步提高了3%和5%，超出了单组基本任务所带来的改进。

这些观察结果支持他们的假设，即：基本任务为模型提供了增强的视觉和空间理解，从而促进了高级任务。

为了探索不同数据配置对Spotlight Tasks性能的影响，他们特别研究了添加初级任务数据是否能提高模型性能，因为这些任务的目的是为了提高对屏幕的视觉和空间理解能力。

如下表所示，添加基本任务数据（无论是仅来自Android、iPhone还是两者的组合）都不会显著改变三个Spotlight任务的性能。

在分析Ferret-UI 的参照功能时，他们特别关注OCR和小部件分类预测，如下图所示。

OCR分析揭示了三个值得注意的观察结果：

1. 模型预测相邻文本而不是目标区域中的文本

2. 该模型表现出预测实际单词的倾向，而不仅仅是破译屏幕上显示的字符。

3. Ferret-UI展示了准确预测部分被截断的文本的能力，即使在OCR模型返回不正确文本的情况下也是如此。

您可能关注: 大模型苹果

专业AI论文写作一键生成万字论文只需5分钟

文章来源: https://www.cy211.cn/aizixun/2668.html Chat AI人工智能机器人在线使用

[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑，如存在版权问题请发送邮件至398879136@qq.com，我们会在3个工作日内处理。非原创标注的文章，观点仅代表作者本人，不代表本站立场。

上一篇谷歌将推全新AI视频工具Google Vids 集多种功能一

下一篇 AI公司面壁智能完成新一轮数亿元融资

相关推荐

中关村AI北纬社区启动“一人公司”创业加速营

中关村AI北纬社区启动“一人公司”创业加速营

　聚焦“一人公司”、构建全球顶级AI生态圈。日前，中关村AI北纬社区启动“Token Camp人工智能OPC加速营计划”，为早期AI创新力量搭建专业化、全周期的赋 ...

靠AI做一人公司 (OPC)，如何实现千万级营收？

靠AI做一人公司 (OPC)，如何实现千万级营收？

　OPC，即One Person Company（一人公司），早已不是新鲜的法律概念，却在AI技术浪潮中被赋予了全新生命力。Dan Koe是“一人公司”领域的标杆 ...

深圳兴起“一人公司”创业模式的原因

深圳兴起“一人公司”创业模式的原因

　深圳“一人公司”（OPC）兴起，核心是AI技术赋能+政策精准扶持+产业生态支撑+市场需求适配+创业文化驱动的多重合力，实现低成本、快决策、高灵活的轻创业范式。 ...

“AI+”时代个体创业观察解锁“一人公司”创业密码

“AI+”时代个体创业观察解锁“一人公司”创业密码

　　　近期，“一人公司（OPC）”成为热词。江苏、上海、广东等地陆续出台扶持政策，一些孵化器为一人公司推出支持套餐。《经济参考报》记者调研发现，一人公司再度兴起， ...

AI创业进入“倍速时代”：“AI写真相机”如何做到“创意即产品”？

AI创业进入“倍速时代”：“AI写真相机”如何做到“创意即产品”？

　上海，GATE M西岸梦中心，四台“AI写真相机”设备前，消费者排队打卡尝鲜：站定拍一张照，几秒钟后就能得到全套AI艺术照，或置身于巧克力瀑布，或骑着飞马而来， ...

00后AI创业，“第一天就瞄准出海”

00后AI创业，“第一天就瞄准出海”

　前些日子，宇树科技王兴兴在一次演讲中“遗憾”地说，自己最后悔的一件事情就是“大学时候没有做AI”。9月中旬的杭州，在AI出海社群EPIC Connector所主 ...

AI智能对话

智能聊天对话，AI秒回答
AI模型创作

它无所不知，无所不能
AI绘画

只需一句话，生成精美画作
轻创AI咨询热线

13826579603

行业解决方案 AI论文生成网站地图 AI创作网 AI资讯 AI智能对话系统 AI创业之家 AI论文写作网站介绍

©2023专业AI智能生成工具支持私有化支持定制

地址：深圳市龙华区民治牛栏前大厦微信:398879136 网站备案号：粤ICP备08036815号-3Copyright © 2024 深圳市星远创业科技有限公司版权所有