首页/语音与转录
🎙️

语音与转录

(71)
🎖️精选
41,621

Mcporter

使用mcporter CLI直接列出、配置、认证和调用MCP服务器/工具,包括临时服务器、配置编辑和CLI/类型生成。

🎖️精选
31,978

OpenClaw YouTube Transcript

从视频URL直接提取字幕并转录YouTube视频为文本,无需音频处理。

🎙️语音与转录/openclaw-youtube-transcript
🎖️精选
18,448

Sag

ElevenLabs文本到语音,具有mac风格的语音输出界面。

🎖️精选
15,590

YouTube Transcript

YouTube字幕:获取并总结YouTube视频字幕。在需要总结、转录或从YouTube视频中提取内容时使用。通过住宅IP代理获取字幕以绕过YouTube的云IP封锁。

🎙️语音与转录/youtube-transcript

Local Whisper

本地语音识别:使用OpenAI Whisper进行本地语音转文本。下载模型后完全离线运行。提供多种模型大小的高质量转录。

elevenlabs-voices

具有 18 个角色、32 个角色的高质量语音合成

🎙️语音与转录/elevenlabs-voices

faster-whisper

使用 Fast-Whisper 进行本地语音转文本。

🎙️语音与转录/faster-whisper

elevenlabs-tts

ElevenLabs TTS - OpenClaw 的最佳 ElevenLabs 集成。

🎙️语音与转录/elevenlabs-tts

Voice Transcribe

Voice Transcribe:使用OpenAI的gpt-4o-mini-transcribe模型和词汇提示以及文本替换来转录音频文件。需要uv(https://docs.astral.sh/uv/)。

🎙️语音与转录/voice-transcribe

jarvis-voice

具有 TTS 和视觉转录样式的金属 AI 语音角色。

kokoro-tts

使用本地 Kokoro TTS 引擎从文本生成语音音频。

ElevenLabs Speech-to-Text

ElevenLabs语音转文本:使用ElevenLabs语音转文本(Scribe v2)转录音频文件。

🎙️语音与转录/elevenlabs-stt

Mlx Whisper

Mlx Whisper:使用MLX Whisper(针对Apple Silicon优化,无需API密钥)进行本地语音转文本。

Transcribe audio files via OpenRouter using audio-capable models

通过OpenRouter使用具有音频功能的模型(Gemini、GPT-4o-audio等)转录音频文件。

🎙️语音与转录/openrouter-transcribe

Gemini STT

使用Google的Gemini API或Vertex AI转录音频文件。

Tts

Tts:使用 Hume AI(或 OpenAI)API 将文本转换为语音。当用户请求音频消息、语音回复或听到“of vive voix”的内容时使用。

Local Whisper

本地语音识别:使用MLX Whisper在Apple Silicon上为Telegram和WhatsApp提供免费的本地语音转文本。私密,无API费用。

🎙️语音与转录/whisper-mlx-local

Transcribe

使用本地 Whisper (Docker) 将音频文件转录成文本。在接收语音消息、音频文件(.mp3, .m4a, .ogg, .wav, .webm)或被要求转录音频内容时使用。

assemblyai-transcribe

使用 AssemblyAI 转录音频/视频

🎙️语音与转录/assemblyai-transcribe

elevenlabs-agents

创建、管理和部署 ElevenLabs

🎙️语音与转录/elevenlabs-agents

Local STT (Nvidia Parakeet + Whisper Support)

本地STT(Nvidia Parakeet + Whisper支持):具有可选后端的本地STT - Parakeet(最佳准确性)或Whisper(最快,多语言)。

audio-gen

生成有声读物、播客或教育音频内容

critical-article-writer

生成文章草稿、大纲

🎙️语音与转录/critical-article-writer

audio-reply

使用 TTS 生成音频回复。

🎙️语音与转录/audio-reply-skill

it will help you to send voice messages to your AI Assistant and also can make it talk

它可以帮助您向您的AI助手发送语音消息,并且可以使它说话:使用ElevenLabs AI的文本到语音和语音到文本。当用户想要将文本转换为语音、转录语音消息或使用多语言中的语音时使用。支持高质量的AI语音和准确的转录。

🎙️语音与转录/elevenlabs-voice

elevenlabs-transcribe

使用 ElevenLabs 将音频转录为文本

🎙️语音与转录/elevenlabs-transcribe

Parakeet Stt

Parakeet Stt:使用NVIDIA Parakeet TDT 0.6B v3(ONNX on CPU)进行本地语音转文本。比Whisper快30倍,支持25种语言,自动检测,与OpenAI兼容的API。当转录音频文件、将语音转换为文本或在没有云API的情况下本地处理语音录音时使用。

deepgram

— Deepgram 语音转文本的命令行界面。

announcer

使用 Airfoil + 通过 AirPlay 扬声器在整个房子内播报文本。

Speech To Text

语音转文本:通过inference.sh CLI使用Whisper模型将音频转录为文本。模型:Fast Whisper Large V3,Whisper V3 Large。功能:转录、翻译...

🎙️语音与转录/speech-to-text

Voice

语音:使用Microsoft Edge的TTS引擎将文本转换为语音,具有可定制的声音、直接播放和自动清理临时文件的功能。

addis-assistant-stt

提供语音转文本 (STT) 和文本

🎙️语音与转录/addis-assistant-stt

Pocket Tts

Pocket Tts: Generate high-quality English speech offline on CPU using 8 built-in voices or custom voice cloning with Kyutai's Pocket TTS model.

inworld-tts

通过 Inworld.ai API 进行文本转语音。

Voicenotes

Voicenotes:同步并访问Voicenotes.com上的语音笔记。当用户想要从Voicenotes检索他们的语音录音、转录和AI摘要时使用。支持获取笔记、同步到Markdown格式和搜索转录内容。

claw-voice

您通过语音连接到实时用户会话。

Transcribe Audio with Parakeet MLX

使用Parakeet MLX转录音频:使用Parakeet MLX(ASR)在本地进行语音转文字,适用于Apple Silicon(无需API密钥)。

clonev

使用 Coqui XTTS v2 克隆任何语音并生成语音。

cult-of-carcinization

为您的代理提供发言权和耳朵。

🎙️语音与转录/cult-of-carcinization

deepdub-tts

使用 Deepdub 生成语音音频并将其附加为媒体

chichi-speech

使用 Qwen3 提供高质量文本转语音的 RESTful 服务

lnbits

管理LNbits闪电钱包(余额、付款、发票)

Voicenotes Official

Voicenotes Official:来自Voicenotes团队的官方Skill,为OpenClaw提供访问新API的能力,以及进行语义搜索、检索完整转录、按条件过滤等。

🎙️语音与转录/voicenotes-official

tl;dw - YouTube Video Summarizer

tl;dw - YouTube视频摘要器:提取YouTube视频脚本并提供简洁的摘要,突出主要观点、论点和结论,无需观看完整视频。

Openai Tts.Bak 2026 01 28T18:01:23+10:30

Openai Tts.Bak 2026 01 28T18:01:23+10:30:通过 OpenAI 音频语音 API 进行文本到语音转换。

🎙️语音与转录/openai-tts-bak-2026-01-28t18-01-23-10-30

speech-recognition

通用语音识别技能。支持多种音频格式(ogg/mp3/wav/m4a),使用硅基流动 SenseVoice API 进行语音转文字。当用户发送语音消息、音频文件,或需要转录音频时触发。

🎙️语音与转录/speech-recognition

freshbooks-cli

FreshBooks CLI 用于管理发票、客户和计费。

🎙️语音与转录/freshbooks-cli

Text To Speech

使用DIA TTS、Kokoro、Chatterbox等通过inference.sh CLI将文本转换为自然语音。模型:DIA TTS(对话式)、Kokoro TTS、Chatterbox、Hig...

🎙️语音与转录/text-to-speech

AssemblyAI Transcriber

AssemblyAI Transcriber:使用语音分离功能转录音频文件(谁在何时说话)。支持100多种语言,自动语言检测和时间戳。适用于会议、访谈、播客或语音消息。需要AssemblyAI API密钥。

🎙️语音与转录/assemblyai-transcriber

Whisper Transcribe

Whisper 转写:使用 OpenAI Whisper 将音频文件转录成文本。支持自动语言检测的语音到文本,多种输出格式(txt、srt、vtt、),批量处理和模型选择(从小型到大型)。当转录音频录音、播客、语音消息、讲座、会议或任何音频/视频文件到文本时使用。处理 mp3、wav、m4a、ogg、flac、webm、opus、aac 格式。

🎙️语音与转录/whisper-transcribe

eternal-haven-lore-pack

永恒天堂编年史传说 + 神话角色包。

🎙️语音与转录/eternal-haven-lore-pack

agent-voice

AI 代理的命令行博客平台。

akaunting

通过 REST API 与 Akaunting 开源会计软件交互。

auto-whisper-safe

具有自动分块功能的 RAM 安全语音转录 — 可在 16GB 机器上运行而不会崩溃。

🎙️语音与转录/auto-whisper-safe

brw-de-ai-ify

删除人工智能生成的行话,将人声还原为文本。

dellight-cro-revenue-ops

DELLIGHT.AI 是一家位于迪拜 DIFC 的人工智能初创公司。

🎙️语音与转录/dellight-cro-revenue-ops

documents-ai

Veryfi 的实时 OCR 和数据提取 API。

doubao-api-open-tts

使用豆宝(火山引擎)的文字转语音服务

🎙️语音与转录/doubao-api-open-tts

duby

使用 Duby.so API 将文本转换为语音。

eachlabs-voice-audio

TTS、STT、使用 ElevenLabs、Whisper、RVC 进行语音转换。

🎙️语音与转录/eachlabs-voice-audio

easyverein-api

使用 easyVerein v2.0 REST API

🎙️语音与转录/easyverein-api

elevenlabs-media

ElevenLabs 音乐生成和语音转文本...

🎙️语音与转录/elevenlabs-media

feishu-minutes

从飞书获取信息、统计数据、文字记录和媒体

🎙️语音与转录/feishu-minutes

gettr-transcribe-summarize

从 GETTR 帖子下载音频

🎙️语音与转录/gettr-transcribe-summarize

hebrew-nikud

AI 代理的希伯来语 nikud(元音点)参考。

her-voice

让你的代理人有发言权。

miranda-sag

ElevenLabs 具有 mac 风格 say UX 的文本转语音功能。

norman-categorize-transactions

对未分类的银行交易进行审查和分类,将其与发票进行匹配,并验证簿记条目。

🎙️语音与转录/norman-categorize-transactions

norman-monthly-reconciliation

执行完整的每月财务对账 - 审查所有交易、匹配发票、检查未清账款。

🎙️语音与转录/norman-monthly-reconciliation

ressemble

使用 Resemble AI HTTP API 进行文本转语音和语音转文本集成。

siliconflow-tts-gen

使用 SiliconFlow API 进行文本转语音 (CosyVoice2)

🎙️语音与转录/siliconflow-tts-gen