OpenHuman 指南
← 返回教程列表

OpenHuman 网页爬虫与浏览器控制 — AI 自动浏览网页和操作桌面

OpenHuman 内置了两种强大的网页工具:Web Scraper(网页爬虫)能从任意 URL 提取纯文本内容;浏览器与计算机控制则能像真人一样操控你的浏览器和桌面。两者结合,AI 可以完成从信息提取到交互操作的完整工作流。

🌐 Web Scraper(网页爬虫)

当你只需要网页的正文内容,不需要交互操作时,Web Scraper 是最直接的方案。

能力

  • 从任意 URL 提取纯文本: 传入一个网址,自动将 HTML 转换为结构化 Markdown
  • 支持多种内容类型: 文章、文档、README、API 文档等
  • 自动 TokenJuice 压缩: 抓取内容自动通过 TokenJuice 压缩,控制成本
  • 与记忆系统集成: 抓取结果可存入 Memory Tree

使用示例

"打开 https://example.com/docs 帮我总结一下" → AI 抓取页面并为你总结。

🖥️ 浏览器与计算机控制

当 AI 需要像真人一样操作你的电脑时——打开页面、截图、点击、输入文字——就用到这些工具。

浏览器控制

  • 打开 URL: 在内嵌的浏览器视窗中打开任意网页
  • 截图: 截取当前页面内容
  • 检查输出: 查看图片内容、页面元数据

浏览器基于 CEF(Chromium Embedded Framework),包含安全层来限定页面行为范围。

鼠标键盘控制

  • 鼠标: 移动、点击、拖拽
  • 键盘: 输入文字、发送快捷键组合
  • 人类化轨迹: 移动和点击模拟真人轨迹,而非瞬移跳跃,因此不会触发简单的机器人检测

适用场景

  • 没有 API 的网站: 通过浏览器操作来驱动没有提供 API 或原生集成的网站
  • 多步骤 UI 流程: 一次截图不够,需要连续操作才能完成的任务
  • 自动化本地应用: 在对话中操控你的桌面应用

📊 什么时候用哪个?

场景推荐工具原因
阅读文章/文档Web Scraper更快,更省 token
填表单/登录浏览器控制需要交互操作
监控页面变化Web Scraper定期抓取即可
多步骤 UI 自动化浏览器控制需要连续操作
获取 API 响应Web Scraper直接提取文本

🔒 安全边界

  • 浏览器在 CEF 沙箱中运行,无法访问你的个人浏览器数据
  • 文件系统工具受工作区范围限制
  • 网络工具默认使用 OpenHuman 托管代理,除非你配置自托管路径(如 SearXNG)
  • 所有工具输出经过 TokenJuice 压缩后进入模型上下文

💡 使用示例

  • "帮我在 GitHub 上给这个项目点个 star" → 打开浏览器,导航到页面,自动点击 star 按钮
  • "抓取这篇论文的摘要" → Web Scraper 提取纯文本并总结
  • "帮我登录到公司后台看一眼项目进度" → 浏览器控制输入账号密码并截图