如何评价GLM开源CogAgent-9,成为GLM-PC基座模型?
作者:卡卷网发布时间:2025-01-10 19:31浏览数量:80次评论数量:0次
11月29,智谱正式提出GLM-OS概念,并发布AutoGLM和GLM-PC两款Agent产品。近期GLM-PC的基座模型——CogAgent-9开源,供社区进一步开发。
CogAgent-9-20241220是基于GLM-4V-9训练而成的专用Agent任务模型。该模型仅需屏幕截图作为输入(无需HTML等文本表征),便能根据用户指定的任意任务,结合历史作,预测下一步的GUI作。得益于屏幕截图和GUI作的普适性,CogAgent可广泛应用于各类基于GUI交互的场景,如个人电脑、、车机设备等。
相较于2023年12月开源的第一版CogAgent模型,CogAgent-9-20241220在GUI感知、推理预测准确性、动作空间完性、任务普适性和泛化性等方面均实现了显著提升,并支持中英文双语的屏幕截图和语言交互。
<>论文:>
<>代码:>
<>模型:>
<>体验链接:>
<>技术文档:>
<>执行过程>
CogAgent以GUI截图为唯一环境输入,结合已完成的动作历史,计算当前GUI截图中最合适的动作。该动作通过CogAgent端侧应用(如GLM-PC和CogAgentDemoApp)注入GUI,GUI响应并更新图像内容;同时,该动作被添加至动作历史。CogAgent根据更新后的历史动作和截图,计算后续作。此过程循环往复,直至CogAgent判定指令执行完毕。
CogAgent的输入仅包含三部分:用户的自然语言指令、已执行历史动作记录和GUI截图,无需任何文本形式表征的布局信息或附加元素标签(setofmarks)信息。
其输出涵盖以下四个方面:
<>模型升级>
<>模型基座与结构升级:>CogAgent采用了更强大的视觉语言模型GLM-4V-9作为基座,显著提升了模型的图像理解性能。
<>视觉处理模块优化:>实现了更高效、一的视觉处理模块,支持1120*1120原生高分辨率图像输入。通过带参数的下采样方法,在几乎不损失模型能力的前提下,提高了模型效率。CogAgent在结构上支持任意例或大小的图像输入,但在训练和推理中,一将输入图像缩放到1120*1120。尽管输入图像尺寸固定,结果显示,即使在2K或更高分辨率的屏幕上,模型仍能保持准确的理解能力。为获得更佳表现,建议用户适当增加图标和文字的相对大小,确保缩放后截图中的内容清晰可辨。
<>数据集丰富与完:>广泛收集并整合了多种数据集,包括无数据和GUI指令微调数据集。无数据涵盖开源GUI布局数据集、自采集的应用和网页数据集;GUI指令微调数据集则包含更长链路、更多应用、跨应用的GUIagent任务数据集等。此外,利用CogAgent自我生成数据,进一步扩充和完了数据集。
<>预训练策略优化:>VLM和GUI预训练旨在提升模型对视觉输入和GUI界面的基础理解能力。研究团队首次提出了GUIGrounding预训练,利用屏幕截图和布局对,构建界面子区域与布局表征(如DOM元素)的对应关系,从而构造GUI的REG和REC任务:
<>后训练策略改进:>后训练在提升模型GUIagent分析、推理、预测能力方面至关重要。我们采用了更科学的后训练策略,分为两个难度递进的阶段:
<>模型推理及思维链优化:>将思维链分解为Status(当前屏幕状态)、Plan(全局计划)、Action(下一步自然语言描述)、Operation(下一步形式语言描述)。通过随机采样混合多种模式训练数据(如Action-Operation、Status-Action-Operation等),可根据交互情景、计算资源和准确率需求灵活调整和控制推理过程中的实际输出。
<>动作空间完:>明确了基础动作空间,并新增了LLM、QUOTE_TEXT、LAUNCH等高级动作,增强了模型的使用工具和交互能力。
<>评测结果>
CogAgent在以下四个数据集中了CogAgent-9-20241220和类似模型的性能。
02.最佳实践
<>模型推理>
代码下载
模型下载
CLI模型推理
推理结果:
显存占用:
搭建WeUI可直接clone魔搭社区创空间并运行:
<>模型微调>
我们使用ms-swift对cogagent-9-20241220进行微调。ms-swift是魔搭社区提供的大模型与多模态大模型训练和部署框架。ms-swift开源:
在这里,我们将展示可直接运行的demo,并给出自定义数据集的格式。
在开始微调之前,请确保您的环境已准备妥当。
你 发表评论:
欢迎