OpenHuman 指南

配置教程

OpenHuman 语音功能配置教程 — 语音对话与 ElevenLabs 接入

2026-05-25约 7 分钟阅读

OpenHuman 的招牌功能之一就是语音交互。桌面吉祥物(Mascot)可以和你对话,口型同步,甚至加入你的 Google Meet。本文教你从基础到高级配置语音功能。

语音功能概览

  • 语音输入(STT):用麦克风说话,OpenHuman 识别并理解
  • 语音输出(TTS):OpenHuman 用语音回答你
  • 口型同步:吉祥物的嘴型匹配语音
  • 会议模式:吉祥物加入 Google Meet

开启语音

  1. 打开 OpenHuman 设置 → 语音
  2. 开启"语音输入"和"语音输出"
  3. 选择语音引擎(默认系统语音)
  4. 测试麦克风和扬声器

配置 ElevenLabs TTS

系统语音效果一般。推荐使用 ElevenLabs 获得更自然的语音效果:

[voice]
stt_engine = "whisper"
tts_engine = "elevenlabs"
elevenlabs_api_key = "你的ElevenLabs Key"
elevenlabs_voice_id = "21m00Tcm4TlvDq8ikWAM" # Rachel 音色

在 ElevenLabs 官网注册获取 API Key。你可以在 ElevenLabs 的 Voice Library 中选择不同的音色。

吉祥物语音设置

点击桌面吉祥物可以调整:

  • 语音音量和语速
  • 是否自动弹出对话
  • 始终显示/仅语音时显示
  • 吉祥物大小和位置

会议模式

OpenHuman 吉祥物可以加入 Google Meet 会议。它会在会议中:

  • 实时转录会议内容
  • 回答与会者的问题
  • 记录会议要点和待办事项

在设置中开启"会议模式"并授权 Google Meet 集成即可。

常见问题

语音识别不准

确保麦克风质量良好。在安静环境中说话。目前主要支持英语和中文,不要在一种语言中混杂太多外语。

语音输出有延迟

外部 TTS 引擎(ElevenLabs)有网络延迟。如果实时性要求高,使用系统内置 TTS。

吉祥物不显示

检查设置中吉祥物是否开启。如果 GPU 资源不足,吉祥物可能自动隐藏以节省性能。

相关阅读