首页/语音与转录

🎙️

语音与转录

(71)

🎖️精选

41,621

Mcporter

使用mcporter CLI直接列出、配置、认证和调用MCP服务器/工具，包括临时服务器、配置编辑和CLI/类型生成。

🎙️语音与转录/mcporter

🎖️精选

31,978

OpenClaw YouTube Transcript

从视频URL直接提取字幕并转录YouTube视频为文本，无需音频处理。

🎙️语音与转录/openclaw-youtube-transcript

🎖️精选

18,448

Sag

ElevenLabs文本到语音，具有mac风格的语音输出界面。

🎙️语音与转录/sag

🎖️精选

15,590

YouTube Transcript

YouTube字幕：获取并总结YouTube视频字幕。在需要总结、转录或从YouTube视频中提取内容时使用。通过住宅IP代理获取字幕以绕过YouTube的云IP封锁。

🎙️语音与转录/youtube-transcript

Local Whisper

本地语音识别：使用OpenAI Whisper进行本地语音转文本。下载模型后完全离线运行。提供多种模型大小的高质量转录。

🎙️语音与转录/local-whisper

elevenlabs-voices

具有 18 个角色、32 个角色的高质量语音合成

🎙️语音与转录/elevenlabs-voices

faster-whisper

使用 Fast-Whisper 进行本地语音转文本。

🎙️语音与转录/faster-whisper

elevenlabs-tts

ElevenLabs TTS - OpenClaw 的最佳 ElevenLabs 集成。

🎙️语音与转录/elevenlabs-tts

Voice Transcribe

Voice Transcribe：使用OpenAI的gpt-4o-mini-transcribe模型和词汇提示以及文本替换来转录音频文件。需要uv（https://docs.astral.sh/uv/）。

🎙️语音与转录/voice-transcribe

jarvis-voice

具有 TTS 和视觉转录样式的金属 AI 语音角色。

🎙️语音与转录/jarvis-voice

kokoro-tts

使用本地 Kokoro TTS 引擎从文本生成语音音频。

🎙️语音与转录/kokoro-tts

ElevenLabs Speech-to-Text

ElevenLabs语音转文本：使用ElevenLabs语音转文本（Scribe v2）转录音频文件。

🎙️语音与转录/elevenlabs-stt

Mlx Whisper

Mlx Whisper：使用MLX Whisper（针对Apple Silicon优化，无需API密钥）进行本地语音转文本。

🎙️语音与转录/mlx-whisper

Transcribe audio files via OpenRouter using audio-capable models

通过OpenRouter使用具有音频功能的模型（Gemini、GPT-4o-audio等）转录音频文件。

🎙️语音与转录/openrouter-transcribe

Gemini STT

使用Google的Gemini API或Vertex AI转录音频文件。

🎙️语音与转录/gemini-stt

Tts

Tts：使用 Hume AI（或 OpenAI）API 将文本转换为语音。当用户请求音频消息、语音回复或听到“of vive voix”的内容时使用。

🎙️语音与转录/tts

Local Whisper

本地语音识别：使用MLX Whisper在Apple Silicon上为Telegram和WhatsApp提供免费的本地语音转文本。私密，无API费用。

🎙️语音与转录/whisper-mlx-local

Transcribe

使用本地 Whisper (Docker) 将音频文件转录成文本。在接收语音消息、音频文件（.mp3, .m4a, .ogg, .wav, .webm）或被要求转录音频内容时使用。

🎙️语音与转录/transcribe

assemblyai-transcribe

使用 AssemblyAI 转录音频/视频

🎙️语音与转录/assemblyai-transcribe

elevenlabs-agents

创建、管理和部署 ElevenLabs

🎙️语音与转录/elevenlabs-agents

Local STT (Nvidia Parakeet + Whisper Support)

本地STT（Nvidia Parakeet + Whisper支持）：具有可选后端的本地STT - Parakeet（最佳准确性）或Whisper（最快，多语言）。

🎙️语音与转录/local-stt

audio-gen

生成有声读物、播客或教育音频内容

🎙️语音与转录/audio-gen

critical-article-writer

生成文章草稿、大纲

🎙️语音与转录/critical-article-writer

audio-reply

使用 TTS 生成音频回复。

🎙️语音与转录/audio-reply-skill

it will help you to send voice messages to your AI Assistant and also can make it talk

它可以帮助您向您的AI助手发送语音消息，并且可以使它说话：使用ElevenLabs AI的文本到语音和语音到文本。当用户想要将文本转换为语音、转录语音消息或使用多语言中的语音时使用。支持高质量的AI语音和准确的转录。

🎙️语音与转录/elevenlabs-voice

elevenlabs-transcribe

使用 ElevenLabs 将音频转录为文本

🎙️语音与转录/elevenlabs-transcribe

Parakeet Stt

Parakeet Stt：使用NVIDIA Parakeet TDT 0.6B v3（ONNX on CPU）进行本地语音转文本。比Whisper快30倍，支持25种语言，自动检测，与OpenAI兼容的API。当转录音频文件、将语音转换为文本或在没有云API的情况下本地处理语音录音时使用。

🎙️语音与转录/parakeet-stt

deepgram

— Deepgram 语音转文本的命令行界面。

🎙️语音与转录/deepgram

announcer

使用 Airfoil + 通过 AirPlay 扬声器在整个房子内播报文本。

🎙️语音与转录/announcer

Speech To Text

语音转文本：通过inference.sh CLI使用Whisper模型将音频转录为文本。模型：Fast Whisper Large V3，Whisper V3 Large。功能：转录、翻译...

🎙️语音与转录/speech-to-text

Voice

语音：使用Microsoft Edge的TTS引擎将文本转换为语音，具有可定制的声音、直接播放和自动清理临时文件的功能。

🎙️语音与转录/voice

addis-assistant-stt

提供语音转文本 (STT) 和文本

🎙️语音与转录/addis-assistant-stt

Pocket Tts

Pocket Tts: Generate high-quality English speech offline on CPU using 8 built-in voices or custom voice cloning with Kyutai's Pocket TTS model.

🎙️语音与转录/pocket-tts

inworld-tts

通过 Inworld.ai API 进行文本转语音。

🎙️语音与转录/inworld-tts

Voicenotes

Voicenotes：同步并访问Voicenotes.com上的语音笔记。当用户想要从Voicenotes检索他们的语音录音、转录和AI摘要时使用。支持获取笔记、同步到Markdown格式和搜索转录内容。

🎙️语音与转录/voicenotes

claw-voice

您通过语音连接到实时用户会话。

🎙️语音与转录/claw-voice

Transcribe Audio with Parakeet MLX

使用Parakeet MLX转录音频：使用Parakeet MLX（ASR）在本地进行语音转文字，适用于Apple Silicon（无需API密钥）。

🎙️语音与转录/parakeet-mlx

clonev

使用 Coqui XTTS v2 克隆任何语音并生成语音。

🎙️语音与转录/clonev

cult-of-carcinization

为您的代理提供发言权和耳朵。

🎙️语音与转录/cult-of-carcinization

deepdub-tts

使用 Deepdub 生成语音音频并将其附加为媒体

🎙️语音与转录/deepdub-tts

chichi-speech

使用 Qwen3 提供高质量文本转语音的 RESTful 服务

🎙️语音与转录/chichi-speech

lnbits

管理LNbits闪电钱包（余额、付款、发票）

🎙️语音与转录/lnbits

Voicenotes Official

Voicenotes Official：来自Voicenotes团队的官方Skill，为OpenClaw提供访问新API的能力，以及进行语义搜索、检索完整转录、按条件过滤等。

🎙️语音与转录/voicenotes-official

tl;dw - YouTube Video Summarizer

tl;dw - YouTube视频摘要器：提取YouTube视频脚本并提供简洁的摘要，突出主要观点、论点和结论，无需观看完整视频。

🎙️语音与转录/tldw

Openai Tts.Bak 2026 01 28T18:01:23+10:30

Openai Tts.Bak 2026 01 28T18:01:23+10:30：通过 OpenAI 音频语音 API 进行文本到语音转换。

🎙️语音与转录/openai-tts-bak-2026-01-28t18-01-23-10-30

speech-recognition

通用语音识别技能。支持多种音频格式（ogg/mp3/wav/m4a），使用硅基流动 SenseVoice API 进行语音转文字。当用户发送语音消息、音频文件，或需要转录音频时触发。

🎙️语音与转录/speech-recognition

freshbooks-cli

FreshBooks CLI 用于管理发票、客户和计费。

🎙️语音与转录/freshbooks-cli

Text To Speech

使用DIA TTS、Kokoro、Chatterbox等通过inference.sh CLI将文本转换为自然语音。模型：DIA TTS（对话式）、Kokoro TTS、Chatterbox、Hig...

🎙️语音与转录/text-to-speech

AssemblyAI Transcriber

AssemblyAI Transcriber：使用语音分离功能转录音频文件（谁在何时说话）。支持100多种语言，自动语言检测和时间戳。适用于会议、访谈、播客或语音消息。需要AssemblyAI API密钥。

🎙️语音与转录/assemblyai-transcriber

Whisper Transcribe

Whisper 转写：使用 OpenAI Whisper 将音频文件转录成文本。支持自动语言检测的语音到文本，多种输出格式（txt、srt、vtt、），批量处理和模型选择（从小型到大型）。当转录音频录音、播客、语音消息、讲座、会议或任何音频/视频文件到文本时使用。处理 mp3、wav、m4a、ogg、flac、webm、opus、aac 格式。

🎙️语音与转录/whisper-transcribe