computer use

Hawa Computer Use

Hawa Code Agent 配套跨平台计算机控制服务器,让 AI 能够通过截图、鼠标和键盘自动化操作你的电脑。支持 Windows、macOS 和 Linux 三大平台 。


安装

安装命令

npm install -g @dahawa/hawa-computer-use 

作为 MCP 服务器使用(推荐)

Hawa Code 或其他支持 MCP 的客户端中,添加以下配置:

{
"mcpServers": {
"computer-use": {
"command": "npx",
"args": ["-y", "@dahawa/hawa-computer-use"]
}
}
}

提供的 MCP 工具

computer

通过鼠标和键盘与计算机交互,并获取屏幕截图。

支持的动作 (action)

动作 说明
get_screenshot 截取屏幕截图,返回带元素标注的图像和元素列表
mouse_move 移动鼠标到指定坐标
left_click 左键点击(可先移动到指定坐标)
right_click 右键点击
middle_click 中键点击
double_click 双击
left_click_drag 拖拽到指定坐标
scroll 滚轮滚动,支持 up/down/left/right,可指定像素数如 down:500
key 按下键盘按键或组合键,如 ctrl+calt+tab
type 输入文本(自动处理中文等非 ASCII 字符)
get_cursor_position 获取当前鼠标坐标
click_element 通过元素 ID 点击(推荐优先使用,比坐标点击更精确)

系统依赖

不同平台需要安装以下可选依赖以解锁完整功能:

Windows

Windows 下直接可以使用

MacOS

  • AX 检测:需要在「系统设置 → 隐私与安全性 → 辅助功能」中授予宿主应用(如终端或 Hawa Code)辅助功能权限
  • OCR 检测(可选):需要安装 Xcode Command Line Tools
    xcode-select --install

Linux

  • AT-SPI 检测
    # Debian / Ubuntu
    sudo apt install python3-pyatspi

    # Fedora / RHEL
    sudo yum install python3-pyatspi
  • OCR
    # Debian / Ubuntu
    sudo apt install tesseract-ocr tesseract-ocr-chi-sim

    # Fedora / RHEL
    sudo dnf install tesseract tesseract-langpack-chi_sim
  • 截图工具(至少安装一个)gnome-screenshotscrot 或 ImageMagick 的 import

环境变量

变量名 说明 默认值
MCP_TRANSPORT 传输协议,stdiohttp stdio
PORT HTTP 模式下的监听端口 3000
COMPUTER_MCP_DISABLE_A11Y 设置为 1 关闭无障碍检测,仅使用坐标模式 -
COMPUTER_MCP_DISABLE_OCR 设置为 1 关闭 OCR 兜底,仅使用无障碍检测 -