hermes + peekaboo 调研手册

Hermes + Peekaboo 调研手册

概述

本文档记录关于 Hermes AgentPeekaboo 的调研内容、架构设计、使用方式及集成方案。

Hermes Agent 是多平台 AI 代理框架,Peekaboo 是 macOS UI 自动化工具。两者的结合可实现跨平台的 AI 驱动桌面自动化。


Hermes Agent

简介

Hermes Agent 由 Nous Research 开发,是一款开源 AI 代理框架。可在终端、即时通讯平台和 IDE 中运行。属于 Claude Code、OpenAI Codex 同类的自主编码和任务执行代理。

核心特点

  • 自我进化(Skills) — 通过经验学习,将可复用的工作流保存为技能文档,在后续会话中自动加载
  • 持久记忆 — 跨会话记住用户偏好、环境细节;支持可插拔记忆后端(内置、Honcho、Mem0 等)
  • 多平台网关 — 同一代理可在 Telegram、Discord、Slack、WhatsApp、Signal 等 10+ 平台运行
  • Provider 无关 — 支持 OpenRouter、Anthropic、OpenAI、DeepSeek 等 20+ 模型提供商
  • Profile 隔离 — 多独立实例,各自拥有独立的配置、会话、技能和记忆
  • 可扩展 — 插件、MCP 服务器、自定义工具、Webhook 触发、Cron 调度

命令速览

  • hermes — 交互式聊天
  • hermes chat -q "..." — 单次查询
  • hermes setup — 设置向导
  • hermes model — 切换模型/Provider
  • hermes gateway ... — 消息平台网关管理
  • hermes mcp ... — MCP 服务器管理
  • hermes cron ... — 定时任务管理
  • hermes skills ... — 技能管理
  • hermes tools ... — 工具集管理
  • hermes sessions ... — 会话管理

MCP 支持

Hermes 内置原生 MCP 客户端,可连接多个 MCP 服务器(stdio 或 HTTP 传输):

  • hermes mcp add NAME — 添加 MCP 服务器
  • hermes mcp remove NAME — 移除
  • hermes mcp list — 列出已配置的服务器
  • hermes mcp test NAME — 测试连接

文档

https://hermes-agent.nousresearch.com/docs/


Peekaboo

简介

Peekaboo 🫣 由 Peter Steinberger (steipete) 开发,是 macOS 桌面自动化工具。提供高保真屏幕捕获、AI 分析和完整的 GUI 自动化能力。V3 版本新增原生 Agent 流程和多屏幕自动化,同时提供 CLI 和 MCP 服务器两种使用方式。

核心特点

  • 像素级捕获 — 窗口、全屏、菜单栏捕获,支持 Retina 2x 缩放
  • 自然语言 Agent — 链式调用 Peekaboo 工具(see → click → type → scroll → ...)
  • 多 Provider AI — GPT-5.1, Claude 4.x, Grok 4, Gemini 2.5, 本地 Ollama
  • MCP 服务器 — 可作为 MCP 服务器供 Claude Desktop、Cursor 等调用
  • 可复现工作流 — 支持可配置、可测试的自动化脚本(.peekaboo.json)
  • 19+ 命令 — 从截图/点击/输入到手势/菜单/窗口/工作区全覆盖

命令速览

命令功能
peekaboo see捕获并标注 UI,返回快照+元素 ID
peekaboo click按元素 ID/标签/坐标点击
peekaboo type输入文本
peekaboo press/hotkey按键/快捷键组合
peekaboo scroll/swipe/drag滚动/滑动手势/拖拽
peekaboo window窗口管理(移动/缩放/聚焦)
peekaboo appApp 管理(启动/退出/切换/列表)
peekaboo spacemacOS 工作区管理
peekaboo menu/menubar应用菜单和状态栏操作
peekaboo dockDock 交互
peekaboo dialog系统对话框操作
peekaboo image截图(+AI 分析)
peekaboo list枚举 Apps/Windows/Screens/Menubar
peekaboo agent自然语言多步自动化
peekaboo mcp启动 MCP 服务器模式
peekaboo run执行 .peekaboo.json 自动化脚本

安装

  • Homebrew: brew install steipete/tap/peekaboo
  • MCP(npx): npx -y @steipete/peekaboo
  • 系统需求: macOS 15 Sequoia+
  • 权限: Screen Recording + Accessibility

文档

https://github.com/steipete/peekaboo


集成方案

方案一:MCP 服务器集成(推荐)

架构:Hermes 作为 MCP 客户端 → Peekaboo 作为 MCP 服务器

配置步骤

  1. 安装 Peekaboo:brew install steipete/tap/peekaboo
  2. 在 Hermes config.yaml 中添加 MCP 服务器:
    mcp_servers:
      peekaboo:
        command: npx
        args: ["-y", "@steipete/peekaboo"]
    
  3. 在 Hermes 中通过 hermes mcp test peekaboo 验证连接
  4. Peekaboo 的所有工具自动注册为 Hermes 可用工具

优势:工具原生融入 Hermes 的工具调用系统;无需手动管理进程

方案二:CLI 子进程调用

直接在 Hermes 的 terminal() 中调用 Peekaboo CLI 命令:

# 截屏分析
terminal("peekaboo image --mode screen --retina --path /tmp/screen.png")

# UI 交互
terminal("peekaboo see --app Safari --json-output | ...")
terminal('peekaboo click --on "Address field"')

# 自然语言自动化
terminal('peekaboo "Open Notes and create a TODO"')

适用场景:临时性、一次性 UI 操作;无需长期 MCP 连接

方案三:Agent Agent 协作(高级)

Hermes 的 delegate_task 或 cron 调度 + Peekaboo Agent 模式:

  • Hermes 负责高层决策、多平台协调、定时任务编排
  • Peekaboo 负责 macOS 本地 UI 精细操作
  • Peekaboo Agent 的自然语言模式(peekaboo "指令")可接收 Hermes 的任务描述

典型使用场景

1. Apple Find My 设备追踪(已有实现)

Hermes FindMy skill 已集成 Peekaboo 进行 macOS FindMy.app 的 UI 自动化:

  • 启动 FindMy.app → 截图 → AI 分析位置 → 记录/通知
  • Peekaboo 命令:peekaboo see --app "FindMy" --annotate
  • Hermes 通过 vision_analyze 读取截图中的位置信息

2. macOS App GUI 测试

  • Hermes 驱动测试流程,Peekaboo 执行操作和断言
  • 自动化回归测试,截图对比

3. 定时桌面任务

  • Hermes cron 定时触发
  • Peekaboo 执行 UI 操作(如每日截图存档、系统状态检查)
  • 结果自动回传 Telegram 等平台

数据流

  1. 触发:用户指令 / Cron 定时 / Webhook
  2. 决策:Hermes Agent 分析任务,决定需要 macOS UI 操作
  3. 执行:通过 MCP 或 CLI 调用 Peekaboo
  4. 反馈:Peekaboo 返回截图/元素数据/执行结果
  5. 分析:Hermes 用 vision 或 LLM 分析结果
  6. 响应:通过网关回传给用户(Telegram/Discord 等)

注意事项

  • Peekaboo 目前仅支持 macOS 15 Sequoia+,非 macOS 环境无法使用
  • 需要 Screen Recording 和 Accessibility 权限授权
  • 非 macoS 系统上有 MiniPeekaboo(Python 版克隆,兼容 macOS 12+)可作为轻量替代
  • Hermes 连接 Peekaboo MCP 时需确保 Peekaboo 进程可用
  • AI 分析功能需要配置对应的 Provider API Key

调研进度

  • [x] Hermes Agent 基础调研
  • [x] Peekaboo 基础调研
  • [x] 集成方案设计
  • [ ] PoC 验证