GUIAgents
251229 MAI-UI
阿里巴巴团队提出的MAI-UI^1是首个面向真实场景的全尺寸基础GUI代理系列(含2B/8B/32B/235B-A22B模型),通过三项创新突破行业瓶颈:
- 自进化数据管道
- 融合用户交互与MCP工具调用数据,支持ask_user(主动澄清模糊指令)和mcp_call(调用API压缩长操作序列)扩展动作。
- 采用迭代拒绝采样生成高质量轨迹,复用失败轨迹中的正确操作前缀。
- 原生设备-云协作系统
- 动态路由任务:本地代理监控执行偏差与隐私敏感数据,仅在必要时调用云端大模型。
- 效果:减少40%云调用,40.5%任务完全在设备端完成,隐私数据零上传(见图11)。
- 动态环境在线强化学习
- 支持50步长交互序列,通过容器化技术并行512个Android环境,训练效率提升50.1%。
- 奖励设计:任务完成奖励+重复操作惩罚,结合经验回放稳定学习过程。
- 增强的GRPO算法: enhanced GRPO with data curriculum, repetition penalty, and experience replay (数据课程、重复惩罚和经验回放)
⚙️ 二、技术架构:统一多能力代理框架
- 基础能力
- GUI定位:采用”指令即推理”范式(Instruction-as-Reasoning),从外观/功能/位置/意图四视角生成指令,提升复杂界面定位精度(如ScreenSpot-Pro达73.5%)。
- 动作空间:支持点击、滑动、文本输入等基础操作,扩展用户交互与MCP工具调用(见表1)。
- 设备-云协作机制
- 本地代理:双角色设计(GUI操作+轨迹监控),实时检测操作偏差并生成错误摘要。
- 统一轨迹内存:同步设备端与云端的历史指令、截图及模型输出,确保无缝切换(见图7)。
- 训练流程
四阶段训练:监督微调(SFT)→定位强化学习→导航在线RL→设备端模型蒸馏。
三、 关键能力验证
- MCP工具调用:在MobileWorld的MCP任务中达51.1%成功率(如图8a,通过高德API压缩路线比对操作)。
- 用户交互:在需澄清的任务中成功率37.5%(如图9,主动询问邮件收件人)。
- 设备端性能:2B模型+DCC系统达65.5%成功率,超越纯云模型(见图10)。
💡 四、应用价值与开源计划
- 现实意义:解决GUI代理的隐私风险(如图11)、长操作脆弱性(MCP工具压缩)、指令歧义(主动澄清)三大落地痛点。
- 开源计划:模型、代码与MobileWorld评测基准已发布于[GitHub链接],推动社区共建真实场景GUI代理生态。