php中文网 | cnphp.com

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 269|回复: 0

清华大学开发出新视觉语言模型 可更准确理解 GUI

[复制链接]

3150

主题

3160

帖子

1万

积分

管理员

Rank: 9Rank: 9Rank: 9

UID
1
威望
0
积分
7976
贡献
0
注册时间
2021-4-14
最后登录
2024-11-24
在线时间
763 小时
QQ
发表于 2023-12-27 15:37:19 | 显示全部楼层 |阅读模式
清华大学智普AI的研究人员开发了一种新的视觉语言模型(VLM),名为 CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。

CogAgent 通过采用低分辨率和高分辨率图像编码器而脱颖而出。这种双编码器系统允许模型处理和理解复杂的 GUI 元素和文本内容,这是有效 GUI 交互的关键要求。

CogAgent 的架构具有独特的高分辨率跨模块,这是其性能的关键。该模块使模型能够有效处理高分辨率输入(1120x1120像素),这对于识别小型 GUI 元素和文本至关重要。
ba9be43bb88c50523702d0e040075099_6383928782441429794202791.jpg
CogAgent 在各种任务中优于现有的基于 LLM 的方法,特别是在 PC 和 Android 平台的 GUI 导航方面。该模型还在多个文本丰富和一般视觉问答基准上表现优异。

这项研究的结果表明,CogAgent 代表了 VLM 的重大飞跃,特别是在涉及 GUI 的环境中。其在可管理的计算框架内处理高分辨率图像的创新方法使其有别于现有方法。该模型在不同基准测试中优异的性能表明其在自动化涉及 GUI 操作和解释的复杂任务方面的潜力。

CogAgent 的潜在应用包括:

自动化 GUI 操作,例如点击按钮、输入文本和选择菜单。
提供 GUI 帮助和指导,例如解释功能和提供操作说明。
开发新的 GUI 设计和交互方式。
CogAgent 仍处于早期开发阶段,但其潜在影响是巨大的。该模型有可能彻底改变我们与计算机交互的方式。

地址:https://github.com/THUDM/CogVLM






上一篇:谷歌推出Chromebook Plus 瞄准AI PC市场
下一篇:B站宣布2023年度报告正式上线
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|php中文网 | cnphp.com ( 赣ICP备2021002321号-2 )

GMT+8, 2024-11-24 08:23 , Processed in 0.263321 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2020, Tencent Cloud.

申明:本站所有资源皆搜集自网络,相关版权归版权持有人所有,如有侵权,请电邮(fiorkn@foxmail.com)告之,本站会尽快删除。

快速回复 返回顶部 返回列表