智谱开源 GLM-PC 基座模型 CogAgent-9B，让 AI 智能体“看懂”屏幕-奇变软件园

本站 12 月 27 日消息，智谱技术团队公众号昨日（12 月 26 日）发布博文，宣布开源 GLM-PC 的基座模型 CogAgent-9B-20241220，基于 GLM-4V-9B 训练，专用于智能体（Agent）任务。

本站注：该模型仅需屏幕截图作为输入（无需 HTML 等文本表征），便能根据用户指定的任意任务，结合历史操作，预测下一步的 GUI 操作。

得益于屏幕截图和 GUI 操作的普适性，CogAgent 可广泛应用于各类基于 GUI 交互的场景，如个人电脑、手机、车机设备等。

相较于 2023 年 12 月开源的第一版 CogAgent 模型，CogAgent-9B-20241220 在 GUI 感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面均实现了显著提升，并支持中英文双语的屏幕截图和语言交互。

CogAgent 的输入仅包含三部分：用户的自然语言指令、已执行历史动作记录和 GUI 截图，无需任何文本形式表征的布局信息或附加元素标签（set of marks）信息。

其输出涵盖以下四个方面：

思考过程（Status & Plan）： CogAgent 显式输出理解 GUI 截图和决定下一步操作的思考过程，包括状态（Status）和计划（Plan）两部分，输出内容可通过参数控制。

下一步动作的自然语言描述（Action）：自然语言形式的动作描述将被加入历史操作记录，便于模型理解已执行的动作步骤。

下一步动作的结构化描述（Grounded Operation）： CogAgent 以类似函数调用的形式，结构化地描述下一步操作及其参数，便于端侧应用解析并执行模型输出。其动作空间包含 GUI 操作（基础动作，如左键单击、文本输入等）和拟人行为（高级动作，如应用启动、调用语言模型等）两类。

下一步动作的敏感性判断：动作分为“一般操作”和“敏感操作”两类，后者指可能带来难以挽回后果的动作，例如在“发送邮件”任务中点击“发送”按钮。

CogAgent-9B-20241220 在 Screenspot、OmniAct、CogAgentBench-basic-cn 和 OSWorld 等数据集上进行了测试，并与 GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick 等模型进行了比较。

结果显示，CogAgent 在多个数据集上取得了领先的结果，证明了其在 GUI Agent 领域强大的性能。

智谱开源 GLM-PC 基座模型 CogAgent-9B，让 AI 智能体“看懂”屏幕

1

羞羞漫画入口页面在线登录-羞羞漫画漫画网页免费入口

羞羞漫画入口页面在线登录-羞羞漫画漫画网页免费入口
2024/11/03

2

91免费版网站：为用户提供无需付费的优质资源与服务

91免费版网站：为用户提供无需付费的优质资源与服务
2024/11/15

3

羞羞的漫画首页免费登录进入-羞羞漫画登录页面免费漫画入口

羞羞的漫画首页免费登录进入-羞羞漫画登录页面免费漫画入口
2024/11/03

4

91网站入口：如何安全访问与选择合适的网络平台

91网站入口：如何安全访问与选择合适的网络平台
2024/11/16

5

羞羞漫画在线漫画入口-羞羞漫画在线漫画阅读

羞羞漫画在线漫画入口-羞羞漫画在线漫画阅读
2024/11/15

6

俄罗斯引擎入口无需登录，畅享高效搜索体验

俄罗斯引擎入口无需登录，畅享高效搜索体验
2024/11/09

7

俄罗斯搜索引擎不登录：如何解决登录问题并提升搜索体验

俄罗斯搜索引擎不登录：如何解决登录问题并提升搜索体验
2024/11/09

8

麻花豆传媒国产剧MV免费软件，轻松畅享麻花豆传媒创意精品

麻花豆传媒国产剧MV免费软件，轻松畅享麻花豆传媒创意精品
2024/10/17

9

AE怎么导出视频片段？详细步骤及技巧解析

AE怎么导出视频片段？详细步骤及技巧解析
2024/11/16

10

免费网站安全软件大全-为您的网络安全提供全方位保护

免费网站安全软件大全-为您的网络安全提供全方位保护
2024/10/27

羞羞漫画入口页面在线登录-羞羞漫画漫画网页免费入口

一起草会和17c模式如何提升团队协作效率？

久久97国产精华液真的好用吗？使用体验分析与真实反馈

9.1短视频极速版下载安装指南

古代NP与P的关系深度解析：解读文化与性别角色的演变

俄罗斯引擎入口无需登录，畅享高效搜索体验

91免费版网站：为用户提供无需付费的优质资源与服务

麻花星空无限传媒有限公司如何在新时代中引领传媒行业？

91网站入口：如何安全访问与选择合适的网络平台

怎样找到B站大全永不收费2023入口以及使用技巧？