首頁/語音與轉錄

🎙️

語音與轉錄

(71)

🎖️精選

41,621

Mcporter

Mcporter：使用mcporter CLI直接列出、配置、認證和調用MCP伺服器/工具（HTTP或stdio），包括臨時伺服器、配置編輯和CLI/類型生成。

🎙️語音與轉錄/mcporter

🎖️精選

31,978

OpenClaw YouTube Transcript

OpenClaw YouTube 譯文：透過yt-dlp直接從視頻網址提取字幕和副標題，將YouTube視頻轉換為文字，無需音頻處理。

🎙️語音與轉錄/openclaw-youtube-transcript

🎖️精選

18,448

Sag

Sag：ElevenLabs 文字轉語音與mac風格的說UX。

🎙️語音與轉錄/sag

🎖️精選

15,590

YouTube Transcript

YouTube 譯文：抓取並總結 YouTube 觀看紀錄。當被要求總結、抄寫或從 YouTube 觀看紀錄中提取內容時使用。通過住宅 IP 代理抓取譯文以跳過 YouTube 的雲 IP 阻塞。

🎙️語音與轉錄/youtube-transcript

Local Whisper

地方低語：使用 OpenAI Whisper 進行地方語言的語音轉文字。下載模型後可完全離線運行。提供多種模型尺寸的高品質轉寫。

🎙️語音與轉錄/local-whisper

elevenlabs-voices

高品質語音合成，擁有 18 個角色，32。

🎙️語音與轉錄/elevenlabs-voices

faster-whisper

使用faster-whisper進行本地語音轉文字。

🎙️語音與轉錄/faster-whisper

elevenlabs-tts

ElevenLabs TTS - OpenClaw 的最佳 ElevenLabs 集成方案。

🎙️語音與轉錄/elevenlabs-tts

Voice Transcribe

使用 OpenAI 的 gpt-4o-mini-transcribe 模型，並提供詞彙提示和文字替換，將音頻檔案轉寫成文字。需要 uv（https://docs.astral.sh/uv/）。

🎙️語音與轉錄/voice-transcribe

jarvis-voice

鐵金AI聲音角色，具有TTS和視覺轉錄風格。

🎙️語音與轉錄/jarvis-voice

kokoro-tts

使用本地的Kokoro TTS引擎從文字生成語音。

🎙️語音與轉錄/kokoro-tts

ElevenLabs Speech-to-Text

使用ElevenLabs語音轉文字（Scribe v2）轉寫音頻檔案。

🎙️語音與轉錄/elevenlabs-stt

Mlx Whisper

Mlx Whisper：使用MLX Whisper（Apple Silicon優化，無需API金鑰）的本地語音轉文字

🎙️語音與轉錄/mlx-whisper

Transcribe audio files via OpenRouter using audio-capable models

使用 OpenRouter 透過具音頻功能的模型（Gemini、GPT-4o-audio 等）轉錄音頻檔案：使用 OpenRouter 透過具音頻功能的模型（Gemini、GPT-4o-audio 等）轉錄音頻檔案。

🎙️語音與轉錄/openrouter-transcribe

Gemini STT

使用 Google 的 Gemini API 或 Vertex AI 轉寫音頻檔

🎙️語音與轉錄/gemini-stt

Tts

使用 Hume AI (或 OpenAI) API 將文字轉換為語音。用於用戶要求聲音訊息、語音回應或欣賞 'of vive voix' 的內容時。

🎙️語音與轉錄/tts

Local Whisper

本機低語：使用 Apple Silicon 上的 MLX Whisper 提供免費的 Telegram 和 WhatsApp 本地語音轉文字功能。隱私保護，無 API 費用。

🎙️語音與轉錄/whisper-mlx-local

Transcribe

將音頻檔案轉錄為文字，使用本地的Whisper (Docker)。在收到聲音訊息、音頻檔案 (.mp3, .m4a, .ogg, .wav, .webm) 或被要求轉錄音頻內容時使用。

🎙️語音與轉錄/transcribe

assemblyai-transcribe

使用AssemblyAI轉錄音/視頻

🎙️語音與轉錄/assemblyai-transcribe

elevenlabs-agents

創建、管理及部署 ElevenLabs。

🎙️語音與轉錄/elevenlabs-agents

Local STT (Nvidia Parakeet + Whisper Support)

本地語音識別（Nvidia Parakeet + Whisper 支援）：可選擇後端之本地語音識別 - Parakeet（最佳準確度）或 Whisper（最快，多語言）。

🎙️語音與轉錄/local-stt

audio-gen

生成聽書、播客或教育性音頻內容

🎙️語音與轉錄/audio-gen

critical-article-writer

生成草稿文章和概要

🎙️語音與轉錄/critical-article-writer

audio-reply

使用TTS生成聲音回應

🎙️語音與轉錄/audio-reply-skill

it will help you to send voice messages to your AI Assistant and also can make it talk

此功能可協助您向您的AI助手發送聲音訊息，並能讓它說話：使用ElevenLabs AI的文本轉語音和語音轉文本。當用戶想要將文字轉換為語音、錄製聲音訊息或以多種語言處理聲音時使用。支援高品質的AI聲音和精準的轉錄。

🎙️語音與轉錄/elevenlabs-voice

elevenlabs-transcribe

使用 ElevenLabs 將音頻轉為文字。

🎙️語音與轉錄/elevenlabs-transcribe

Parakeet Stt

Parakeet Stt：使用 NVIDIA Parakeet TDT 0.6B v3（ONNX 在 CPU 上）的本地語音轉文字。比 Whisper 快 30 倍，支援 25 種語言，自動偵測，與 OpenAI 兼容的 API。用於轉寫音頻檔案、將語音轉換為文字或本地處理聲音錄音，無需雲端 API。

🎙️語音與轉錄/parakeet-stt

deepgram

Deepgram 的命令行介面，用於語音轉文字

🎙️語音與轉錄/deepgram

announcer

通過AirPlay喇叭使用Airfoil+在整個屋內宣讀文字

🎙️語音與轉錄/announcer

Speech To Text

語音轉文字：透過 inference.sh CLI 使用 Whisper 模型將音頻轉換為文字。模型：Fast Whisper Large V3、Whisper V3 Large。功能：文字轉寫、翻譯、...

🎙️語音與轉錄/speech-to-text

Voice

語音：使用 Microsoft Edge 的 TTS 驅動程式將文字轉換為語音，擁有可自定義的聲音、直接播放和自動清理暫存檔案的功能。

🎙️語音與轉錄/voice

addis-assistant-stt

提供語音到文字（STT）和文字

🎙️語音與轉錄/addis-assistant-stt

Pocket Tts

口袋Tts：使用8種內置聲音或透過Kyutai的口袋TTS模型進行自定義聲音克隆，在CPU上離線生成高品質的英語語音。

🎙️語音與轉錄/pocket-tts

inworld-tts

通過Inworld.ai API進行文字轉語音。

🎙️語音與轉錄/inworld-tts

Voicenotes

同步並存取Voicenotes.com的聲音筆記。當用戶想要從Voicenotes中取回他們的聲音錄音、文字轉錄和AI摘要時使用。支援取回筆記、同步至markdown格式以及搜索文字轉錄。

🎙️語音與轉錄/voicenotes

claw-voice

透過語音與實時用戶會話連接

🎙️語音與轉錄/claw-voice

Transcribe Audio with Parakeet MLX

使用Parakeet MLX轉錄音頻：本地語音轉文字，透過Parakeet MLX (ASR)為Apple Silicon設計（無需API金鑰）

🎙️語音與轉錄/parakeet-mlx

clonev

複製任何聲音並使用 Coqui XTTS v2 生成語音

🎙️語音與轉錄/clonev

cult-of-carcinization

給您的代理一個聲音——並且是耳朵

🎙️語音與轉錄/cult-of-carcinization

deepdub-tts

使用 Deepdub 生成語音音頻並作為媒體附件

🎙️語音與轉錄/deepdub-tts

chichi-speech

使用Qwen3提供的高品質文字轉語音RESTful服務

🎙️語音與轉錄/chichi-speech

lnbits

管理LNbits Lightning錢包（餘額、付款、發票）。

🎙️語音與轉錄/lnbits

Voicenotes Official

Voicenotes官方：這個來自Voicenotes團隊的官方技能，為OpenClaw提供訪問新API的權限，並能進行意義搜索，獲取完整的轉錄，按條件過濾…

🎙️語音與轉錄/voicenotes-official

tl;dw - YouTube Video Summarizer

tl;dw - YouTube影片摘要：從YouTube影片中提取字幕並提供精簡摘要，強調主要點、論點和結論，無需觀看完整影片。

🎙️語音與轉錄/tldw

Openai Tts.Bak 2026 01 28T18:01:23+10:30

透過 OpenAI 音頻語音 API 進行文字轉語音

🎙️語音與轉錄/openai-tts-bak-2026-01-28t18-01-23-10-30

speech-recognition

通用語音識別 Skill。支援多種音頻格式（ogg/mp3/wav/m4a），使用矽基流動 SenseVoice API 進行語音轉文字。當用戶發送語音消息、音頻文件，或需要轉錄音頻時觸發。

🎙️語音與轉錄/speech-recognition

freshbooks-cli

FreshBooks CLI用於管理發票、客戶和賬單。

🎙️語音與轉錄/freshbooks-cli

Text To Speech

文字轉語音：使用 DIA TTS、Kokoro、Chatterbox 等通過 inference.sh CLI 轉換文字為自然語音。模型：DIA TTS（對話式）、Kokoro TTS、Chatterbox、Hig...

🎙️語音與轉錄/text-to-speech

AssemblyAI Transcriber

AssemblyAI 記錄器：使用講者分類（誰在說話）進行音頻文件的轉寫。支援100多種語言，自動語言檢測和時間標記。用於會議、採訪、播客或聲音訊息。需要AssemblyAI API金鑰。

🎙️語音與轉錄/assemblyai-transcriber

Whisper Transcribe

Whisper 轉寫：使用 OpenAI Whisper 將音頻檔案轉換為文字。支援語音轉文字功能，自動語言偵測，多種輸出格式（txt, srt, vtt, ），批次處理，以及模型選擇（從微型到大型）。用於轉寫音頻錄音、播客、聲音訊息、演講、會議或任何音頻/視頻檔案至文字。處理 mp3、wav、m4a、ogg、flac、webm、opus、aac 格式。

🎙️語音與轉錄/whisper-transcribe