智谱 AI 开源了 CogAgent,它是一个视觉语言模型,拥有180亿参数规模。该模型在 GUI 理解和导航方面表现出色,在多个基准测试上取得了 SOTA 的通用性能。
它还支持高分辨率的视觉输入和对话问答,并且可以针对任意 GUI 截图进行问答。
模型可以通过上传截图来进行任务推理,并返回计划、下一个动作以及具体操作的坐标信息。
CogAgent 还支持 OCR 相关任务,通过预训练和微调,其能力得到了显著提升。
Github:
https://github.com/CogNLP/CogAGENT
cogagent-chat:
https://modelscope.cn/models/ZhipuAI/cogagent-chat/summary
cogagent-vqa:
https://www.modelscope.cn/models/ZhipuAI/cogagent-vqa/summary
[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑,如存在版权问题请发送邮件至398879136@qq.com,我们会在3个工作日内处理。非原创标注的文章,观点仅代表作者本人,不代表本站立场。