OpenHuman 指南

← 返回教程列表

OpenHuman 网页爬虫与浏览器控制 — AI 自动浏览网页和操作桌面

OpenHuman 内置了两种强大的网页工具：Web Scraper（网页爬虫）能从任意 URL 提取纯文本内容；浏览器与计算机控制则能像真人一样操控你的浏览器和桌面。两者结合，AI 可以完成从信息提取到交互操作的完整工作流。

🌐 Web Scraper（网页爬虫）

当你只需要网页的正文内容，不需要交互操作时，Web Scraper 是最直接的方案。

能力

从任意 URL 提取纯文本： 传入一个网址，自动将 HTML 转换为结构化 Markdown
支持多种内容类型： 文章、文档、README、API 文档等
自动 TokenJuice 压缩： 抓取内容自动通过 TokenJuice 压缩，控制成本
与记忆系统集成： 抓取结果可存入 Memory Tree

使用示例

"打开 https://example.com/docs 帮我总结一下" → AI 抓取页面并为你总结。

🖥️ 浏览器与计算机控制

当 AI 需要像真人一样操作你的电脑时——打开页面、截图、点击、输入文字——就用到这些工具。

浏览器控制

打开 URL： 在内嵌的浏览器视窗中打开任意网页
截图： 截取当前页面内容
检查输出： 查看图片内容、页面元数据

浏览器基于 CEF（Chromium Embedded Framework），包含安全层来限定页面行为范围。

鼠标键盘控制

鼠标： 移动、点击、拖拽
键盘： 输入文字、发送快捷键组合
人类化轨迹： 移动和点击模拟真人轨迹，而非瞬移跳跃，因此不会触发简单的机器人检测

适用场景

没有 API 的网站： 通过浏览器操作来驱动没有提供 API 或原生集成的网站
多步骤 UI 流程： 一次截图不够，需要连续操作才能完成的任务
自动化本地应用： 在对话中操控你的桌面应用

📊 什么时候用哪个？

场景	推荐工具	原因
阅读文章/文档	Web Scraper	更快，更省 token
填表单/登录	浏览器控制	需要交互操作
监控页面变化	Web Scraper	定期抓取即可
多步骤 UI 自动化	浏览器控制	需要连续操作
获取 API 响应	Web Scraper	直接提取文本

🔒 安全边界

浏览器在 CEF 沙箱中运行，无法访问你的个人浏览器数据
文件系统工具受工作区范围限制
网络工具默认使用 OpenHuman 托管代理，除非你配置自托管路径（如 SearXNG）
所有工具输出经过 TokenJuice 压缩后进入模型上下文

💡 使用示例

"帮我在 GitHub 上给这个项目点个 star" → 打开浏览器，导航到页面，自动点击 star 按钮
"抓取这篇论文的摘要" → Web Scraper 提取纯文本并总结
"帮我登录到公司后台看一眼项目进度" → 浏览器控制输入账号密码并截图