Skip to content

Cấu Hình TTS (Chuyển Văn Bản Thành Giọng Nói)

Route: /ttsNhóm Sidebar: Khả Năng Quyền truy cập: Owner (Cross-tenant)


Tổng Quan

TTS (Text-to-Speech) cho phép GoClaw đọc to phản hồi của agent bằng giọng nói tổng hợp. Hệ thống hỗ trợ nhiều provider và có thể cấu hình để tự động phát âm thanh theo điều kiện.


Hướng Dẫn Cấu Hình

1. Chọn provider chính

Vào /tts, chọn provider từ danh sách:

  • Không có — tắt TTS
  • openai — sử dụng OpenAI TTS API
  • elevenlabs — sử dụng ElevenLabs API (giọng cao chất lượng)
  • edge — sử dụng Microsoft Edge TTS (miễn phí, không cần API key)
  • minimax — sử dụng MiniMax TTS API

2. Cấu hình chế độ tự động (Auto Mode)

Giá trịMô tả
offKhông tự động phát âm thanh
alwaysPhát âm thanh cho mọi phản hồi
inboundChỉ phát khi tin nhắn đến từ channel bên ngoài
taggedChỉ phát khi phản hồi có thẻ đặc biệt

3. Chế độ trả lời (Reply Mode)

  • final — chỉ phát âm thanh cho phản hồi hoàn chỉnh cuối cùng
  • all — phát âm thanh cho tất cả các turns trong hội thoại

4. Giới hạn và timeout

  • Max length — độ dài văn bản tối đa trước khi cắt (mặc định: 1500 ký tự)
  • Timeout — thời gian chờ đợi API call tối đa (mặc định: 30 giây)

5. Cấu hình theo provider

Mỗi provider có các tham số riêng:

OpenAI TTS

  • API Key (lấy từ env OPENAI_API_KEY)
  • Model: mặc định gpt-4o-mini-tts
  • Giọng nói: alloy, echo, fable, onyx, nova, shimmer

ElevenLabs

  • API Key (lấy từ env ELEVENLABS_API_KEY)
  • Voice ID: mặc định pMsXgVXv3BLzUgSXRplE
  • Model ID: mặc định eleven_multilingual_v2

Edge TTS

  • Bật/tắt toggle
  • Giọng nói: mặc định en-US-MichelleNeural
  • Tốc độ nói: tốc độ đọc (ví dụ: +10%, -20%)

MiniMax

  • API Key + Group ID
  • Model: mặc định speech-02-hd
  • Voice ID: chọn giọng đọc

Giao Diện (UI)

Trang cấu hình TTS gồm:

  • Thẻ trạng thái — hiển thị provider đang hoạt động và trạng thái kết nối
  • Cài đặt chung — provider chính, chế độ tự động, chế độ trả lời, max length, timeout
  • Thẻ cài đặt theo provider — mỗi provider có thẻ riêng với các trường tương ứng
  • Nút Lưu — lưu toàn bộ cài đặt
  • Nút Làm mới — tải lại từ server

Ví Dụ

Cấu hình TTS sử dụng Edge TTS (miễn phí), tự động phát cho tin nhắn đến:

json5
{
  tts: {
    provider: "edge",
    auto: "inbound",
    mode: "final",
    max_length: 1500,
    timeout_ms: 30000,
    edge: {
      enabled: true,
      voice: "vi-VN-HoaiMyNeural",  // Giọng Việt Nam
      rate: "+0%"
    }
  }
}

Lưu Ý

  • API keys của TTS providers không lưu trong config.json — dùng biến môi trường hoặc .env.local
  • Edge TTS không cần API key nhưng phụ thuộc vào kết nối internet
  • auto: "tagged" yêu cầu agent trả về thẻ đặc biệt trong phản hồi — kiểm tra tài liệu agent tương ứng
  • Khi mode: "all", số lần gọi API tăng lên nhiều — cần theo dõi chi phí với OpenAI/ElevenLabs

Xem Thêm