
雷峰网(公家号:雷峰网)讯 2026 年 5 月 11 日,当地 AI 智能体框架 OpenClaw 正式上线了 macOS 专属桌面操控东西 Peekaboo,提供像素级截图、UI 元素辨认、以和完备的 GUI 主动化能力。简朴来讲,就是让 Agent “长出眼睛”,从此看患上见屏幕、点获得按钮,甚至自立操作电脑。 GUI 主动化或者可以视为 OpenClaw 于 Computer Use 上的末了一块能力短板。此前的 Agent 交互模式尚逗留于文本对于话层面,虽然已经经实现了高度自立的指令遵照及使命闭环能力,但图形操作界面仍旧是人类的专属。而 Peekaboo 的登场将 Agent 带进了下一个时代,只有可以或许“瞥见”,它们才算是成了真正可以或许全权接受桌面的自立履行体。 那末对于用户而言,这象征着甚么样的体验改造?Peekaboo 又是怎样让 AI 真正接受桌面?咱们第一时间上手举行了实测。 01 “Agent 的眼睛”听起来很像是某种平凡的附加功效,但这一描写远远低估了 Peekaboo 的真实职位地方,它更主要的意义于在完全打破了 Agent 只能被动应对的局限,将其拉入真正的桌面操作场景。 Peekaboo 搭载的像素级辨认能力,可以或许主动精准标注屏幕上的按钮、输入框、弹窗、软件窗口等所有界面元素,且无需人工标志或者提早适配。同时它可以完善模仿人类的操作逻辑,自立完成鼠标点击、文字输入、页面滚动、快捷键操控等全套键鼠举动。 更焦点的上风于在无依靠通用性,Peekaboo 不依靠软件官方 API、无需嵌入 SDK 适配,这象征着所有桌面软件、网页平台都能直接兼容适配。它于赛博世界留下的陈迹就像一个真实的人类用户那样,一切你能操作的对于象,它均可以接办。 这已经然提供了一种重构电脑操作底层逻辑的可能。而咱们起首好奇的是,Peekaboo 究竟是具有真正的落地能力,抑或者只是噱头式的 Agent 玩具?于真正的桌面情况下,咱们起首测试了其繁杂持续操作能力。 这是一项信息检索测试。咱们要求 Peekaboo 打开 Safari 阅读器,主动封闭网页弹窗滋扰,然后于顶部网址搜刮框查找「AI近期年夜事」,于下方一众搜出来的网站中,打开第一个网站,然后封闭网站。 整套流程全数由 OpenClaw 自立完成,使命内容虽然其实不繁杂,但现实操作笼罩了图标辨认、按钮点击、弹窗检测、搜刮框定位、内容输入等多项能力。 尤其是于统一个页面中履行输入内容、定位词条等使命时,从视频中可以看出,Peekaboo 自立完成为了规避弹窗滋扰、适配动态网页结构,这注解其可以或许不变地辨认繁杂的软件界面。更要害的是,于联贯完成多步调桌面操作时,Peekaboo 体现出的操作逻辑也很是贴合人类利用习气。 到此为止,可以说 Peekaboo 绝非仅仅撑持单点点击的演示型东西。固然,对于在 GUI 主动化而言这还有只是入门。落地能力更为焦点的磨练是于使命流延长至跨软件以致跨体系的水平时,Peekaboo 是否仍旧可以或许实现全流程自立的桌面操作。 第二项测试将信息检索延长至结果交付阶段,要求 Peekaboo 于 Safari 阅读器中搜刮baidu热搜榜,依次提取热搜榜、影戏榜、小说榜、电视剧榜前六名的数据,然后回到桌面新建 Excel 表格,将此前收罗到的四类榜单数据举行汇总。 成果显示,Peekaboo 自立操作电脑完成为了长链路的复合使命。此中触及到阅读器的部门于案例一中已经有所展示,更值患上存眷的是其于阅读器、办公软件、体系桌面、文件夹、体系设置等多个操作平台之间的跳转,整套流程并未呈现需要人工干涉干与的卡顿。 这象征着 OpenClaw 及 Peekaboo 的联合已经经具有了真正的办公主动化能力,而 OpenClaw 的定位也正于从 AI 东西的挪用者,转向下一代桌面情况操作底座。于 Agent 遍及以挪用第三方东西为焦点逻辑的配景下,Peekaboo 让 OpenClaw 成了间隔接受整个电脑近来的选手。 02 很长一段时间以来, AI 桌面主动化东西年夜多局限在极客群体,难以走进平凡用户一样平常的办公、糊口场景。而 Peekaboo 的差别的地方于在,它的部署跟竞品比起来其实太简朴了,既可以作为 MCP 办事运行,一行号令行无缝接入OpenClaw、Codex、Claude Code 或者 Cursor,小白也能够直接于 ClawHub 安装 Peekaboo Skill,零配置利用。 事实上,GUI 主动化并不是全新的测验考试,近似的产物此前也其实不鲜见,但偏偏是作为厥后者的 Peekaboo 踩上了新一代多模态技能的春风。UI 辨认曾经经是持久困扰这一赛道的瓶颈之一,突如其来的弹窗及页面内容变更,致使的 GUI 主动化翻车是家常便饭。而 Peekaboo 不绑订单一厂商,可以说是坐收多模态技能水长船高的盈余。 此外,曾经经的 GUI 主动化东西要看软件厂商脸色行事,体系权限被紧紧掌握于对于方手中,真正可以或许落地的场景很是有限,强行上马的终局往往是被奉上黑名单。终极有能力及毅利巴它们用起来的,往往也只剩下极客。 而对于在 OpenClaw 而言,这一样再也不是问题。传统方案是等厂商开放 API 接口,Peekaboo 直接操作屏幕,不仅绕开了哀求许可的环节,并且象征着纵然是那些多年未曾更新的小众软件,及从未对于外开放接口的内部东西,都被一视同仁地纳入了 Peekaboo 的能力规模。 多模态技能的迭代及对于关闭生态的冲破合流,某种水平上,Peekaboo 成了第一款平凡人也能用的桌面主动化东西。 将这类倾覆性的桌面操控能力交予公共之手的同时,Peekaboo 另外一个让人欣喜的地方是高度完美的安全性保障。隐私方面,Peekaboo 会对于操作界面举行像素级截图,但因为全程跑于当地,是以屏幕画面无需上传云端。此外可控性方面,Peekaboo 履行的每一一项使命都有完备的操作记载可供追溯,由手动触发启动,不撑持后台静默运行,且可以随时一键中止。 多重安全机制叠加下,虽没法实现绝对于的零危害,操作的自动权却始终由用户掌控,有用规避了 AI 后台擅自操作、隐私数据泄露等焦点危害。 03 于精彩的桌面操控能力以外,Peekaboo 仍旧体现出了诸多 GUI 主动化东西常见的问题。 起首是坐标偏移。差别的显示器分辩率、窗口缩放比例之下,页面元素位置的变化偶然会致使点击坐标漂移、操作点位误差。即便总体辨认率处在较高程度,也仍旧影响了 Peekaboo 对于在繁杂使命的完成精度。 此外还有有上下文遗忘。当超长程使命举行到后半段时,Peekaboo 经常会健忘本身此前干了甚么,然后反复履行某些操作,直到卡死进程。 固然假如你看了前面的测试视频,会发明最较着的问题仍旧是履行速率。繁杂界面辨认、超长使命流程城市致使 Peekaboo 有比力较着的延迟,这也是 GUI 主动化东西的通病。 一种注释是,视觉方案于履行速率上没法与经由过程代码号令直接操作相比,但更值患上追问的地方于在,这是否象征着视觉方案自己的落地能力就不尽人意。 除了了此条件到的操作精准性及履行速率,经由过程多模态理解实现的 GUI 主动化还有象征着不俗的 Token 成本。Peekaboo 于设计之初显然也思量到了这一点,试图经由过程 VQA 定向阐发及元素 ID 压缩等方式削减 Token 耗损,前者指多模态模子收到屏幕截图后不返回完备图象描写,而是针对于详细问题天生精简回覆,后者则暗示利用短 ID 来标志界面 UI 元素,比拟原始坐标或者完备描写越发紧凑。 然而今世码号令方案成为比力的对于象,这仍旧是一笔没法轻忽的成本。 于 Peekaboo 以前,另外一个耐人寻味的例子是豆包手机助手。后者早期依附便捷体验快速出圈,但很快因其利用安卓体系级高危权限模仿用户点击、跨运用跳转,被微信、付出宝、淘宝等主流 App 的风控体系辨认为异样举动,致使部门跨运用操作功效受限或者被迫下线,甚至一度受到浩繁主流软件厂商的声讨。时至今日,其后续成长仍旧面对着生态兼容与互助模式的庞大不确定性。 这暗地里是 GUI 主动化技能于权限界限、数据主权及贸易好处上与现有挪动生态的深层冲突。Peekaboo 为规避生态壁垒而生,却没法真正绕过它。当 Agent 之争走向落地履行能力的较劲,速率、成本、正确性,往后也许城市成为 Peekaboo 的命门。 视觉方案究竟是买通 AI 实际操作链路的必经之路,还有是生态封禁被真正冲破以前的权宜之计?值患上拭目以待。 雷峰网原创文章,未经授权禁止转载。详情见转载须知。


