Inicio/Voz y transcripción
🎙️

Voz y transcripción

(71)
🎖️Destacado
41,621

Mcporter

Mcporter: Utiliza el CLI de mcporter para listar, configurar, autenticar y llamar servidores/herramientas MCP directamente (HTTP o stdio), incluyendo servidores ad-hoc, ediciones de configuración y generación de CLI/tipo.

🎖️Destacado
31,978

OpenClaw YouTube Transcript

Transcripción de videos de YouTube a texto mediante la extracción de subtítulos directamente desde la URL del video usando yt-dlp sin procesamiento de audio.

🎙️Voz y transcripción/openclaw-youtube-transcript
🎖️Destacado
18,448

Sag

Sag: once ElevenLabs text-to-speech con UX de estilo mac.

🎖️Destacado
15,590

YouTube Transcript

Transcripción de YouTube: Recupera y resume transcripciones de videos de YouTube. Usa esto cuando se te pida resumir, transcribir o extraer contenido de videos de YouTube. Maneja la recuperación de transcripciones a través de un proxy IP residencial para evitar los bloques de IP en la nube de YouTube.

🎙️Voz y transcripción/youtube-transcript

Local Whisper

Voz Local: Voz a texto local utilizando OpenAI Whisper. Funciona completamente sin conexión después de la descarga del modelo. Transcripción de alta calidad con múltiples tamaños de modelo.

elevenlabs-voices

Síntesis de voz de alta calidad con 18 personalidades, 32.

🎙️Voz y transcripción/elevenlabs-voices

faster-whisper

Habla local usando faster-whisper.

elevenlabs-tts

TTS de ElevenLabs - la mejor integración de ElevenLabs para OpenClaw.

Voice Transcribe

Transcripción de voz: Transcribe archivos de audio utilizando el modelo gpt-4o-mini-transcribe de OpenAI con sugerencias de vocabulario y sustituciones de texto. Requiere uv (https://docs.astral.sh/uv/).

jarvis-voice

Voz de IA metálica con TTS y estilo de transcripción visual

kokoro-tts

Genera audio hablado a partir de texto utilizando el motor local Kokoro TTS

ElevenLabs Speech-to-Text

Transcribir archivos de audio utilizando ElevenLabs Speech-to-Text (Scribe v2)

Mlx Whisper

Voz local a texto con MLX Whisper (optimizado para Apple Silicon, sin clave de API)

Transcribe audio files via OpenRouter using audio-capable models

Transcribir archivos de audio mediante OpenRouter utilizando modelos con capacidad de audio: Transcribir archivos de audio mediante OpenRouter utilizando modelos con capacidad de audio (Gemini, GPT-4o-audio, etc.)

🎙️Voz y transcripción/openrouter-transcribe

Gemini STT

Transcribir archivos de audio utilizando la API Gemini de Google o Vertex AI

Tts

Convertir texto en voz utilizando la API de Hume AI (o OpenAI). Utilizar cuando el usuario solicite un mensaje de audio, una respuesta en voz o para escuchar algo "de vive voz".

Local Whisper

Locutor Local: Lenguaje hablado local gratuito para Telegram y WhatsApp utilizando MLX Whisper en Apple Silicon. Privado, sin costos de API.

🎙️Voz y transcripción/whisper-mlx-local

Transcribe

Transcribir: Transcribe archivos de audio a texto utilizando Whisper local (Docker). Utilizar cuando se reciben mensajes de voz, archivos de audio (.mp3, .m4a, .ogg, .wav, .webm) o cuando se solicite transcribir contenido de audio.

assemblyai-transcribe

Transcribir audio/video con AssemblyAI

🎙️Voz y transcripción/assemblyai-transcribe

elevenlabs-agents

Crear, gestionar y desplegar ElevenLabs.

🎙️Voz y transcripción/elevenlabs-agents

Local STT (Nvidia Parakeet + Whisper Support)

STT local (Nvidia Parakeet + soporte Whisper): STT local con backends seleccionables - Parakeet (mejor precisión) o Whisper (más rápido, multilingüe).

audio-gen

Generar audiolibros, podcasts o contenido audio educativo

critical-article-writer

Generar artículos de borrador y resúmenes.

🎙️Voz y transcripción/critical-article-writer

audio-reply

Generar respuestas en audio utilizando TTS

🎙️Voz y transcripción/audio-reply-skill

it will help you to send voice messages to your AI Assistant and also can make it talk

Te ayudará a enviar mensajes de voz a tu Asistente de IA y también puede hacer que hable: Texto a Voz y Voz a Texto utilizando el AI de ElevenLabs. Úsalo cuando el usuario quiera convertir texto a voz, transcribir mensajes de voz o trabajar con voz en múltiples idiomas. Soporta voces de IA de alta calidad y transcripción precisa.

elevenlabs-transcribe

Transcripción de audio a texto utilizando ElevenLabs.

🎙️Voz y transcripción/elevenlabs-transcribe

Parakeet Stt

Speech-to-text local con NVIDIA Parakeet TDT 0.6B v3 (ONNX en CPU). 30 veces más rápido que Whisper, 25 idiomas, detección automática, API compatible con OpenAI. Utilice para transcribir archivos de audio, convertir voz a texto o procesar grabaciones de voz localmente sin APIs en la nube.

deepgram

Interfaz de línea de comandos para Deepgram (transcripción de voz a texto).

announcer

Anunciar texto a través de los altavoces AirPlay utilizando Airfoil +

Speech To Text

Transcripción de voz a texto con modelos Whisper mediante el CLI inference.sh. Modelos: Fast Whisper Large V3, Whisper V3 Large. Capabilities: transcripción, traducción,...

Voice

Voz: Convertir texto en voz utilizando el motor TTS de Microsoft Edge con voces personalizables, reproducción directa y limpieza automática de archivos temporales.

addis-assistant-stt

Proporciona Speech-to-Text (STT) y texto.

🎙️Voz y transcripción/addis-assistant-stt

Pocket Tts

Generar voz en inglés de alta calidad de manera offline en el CPU utilizando 8 voces integradas o clonación de voz personalizada con el modelo Pocket TTS de Kyutai.

inworld-tts

Texto a voz a través de la API de Inworld.ai.

Voicenotes

Sincroniza y accede a las notas de voz desde Voicenotes.com. Úsalo cuando el usuario desee recuperar sus grabaciones de voz, transcripciones y resúmenes de IA de Voicenotes. Soporta la recuperación de notas, la sincronización a markdown y la búsqueda de transcripciones.

claw-voice

Conectado a una sesión de usuario en vivo a través de voz

Transcribe Audio with Parakeet MLX

Transcribir Audio con Parakeet MLX: Reconocimiento de voz local con Parakeet MLX (ASR) para Apple Silicon (sin clave de API).

clonev

Clonar cualquier voz y generar habla utilizando Coqui XTTS v2.

cult-of-carcinization

Dar voz y oídos a tu agente.

🎙️Voz y transcripción/cult-of-carcinization

deepdub-tts

Generar audio de habla utilizando Deepdub y adjuntarlo como MEDIO.

chichi-speech

Servicio RESTful para texto a voz de alta calidad utilizando Qwen3

lnbits

Gestión de la billetera Lightning LNbits (Saldo, Pagar, Factura)

Voicenotes Official

Esta habilidad oficial de la equipo Voicenotes ofrece acceso a nuevas APIs y la capacidad de buscar semánticamente, recuperar transcripciones completas, filtrar por t...

🎙️Voz y transcripción/voicenotes-official

tl;dw - YouTube Video Summarizer

tl;dw - Resumen de Videos de YouTube: Extrae los transcritos de los videos de YouTube y proporciona resúmenes concisos que resaltan los puntos principales, argumentos y conclusiones sin tener que ver el video completo.

Openai Tts.Bak 2026 01 28T18:01:23+10:30

Texto a voz a través de la API de Voz de Audio de OpenAI

🎙️Voz y transcripción/openai-tts-bak-2026-01-28t18-01-23-10-30

speech-recognition

Reconocimiento de voz general. Soporta varios formatos de audio (ogg/mp3/wav/m4a) y utiliza la API SenseVoice API basada en silicio para la conversión de voz a texto. Se activa cuando el usuario envía mensajes de voz, archivos de audio o necesita transcribir audio.

🎙️Voz y transcripción/speech-recognition

freshbooks-cli

CLI de FreshBooks para gestionar facturas, clientes y facturación.

Text To Speech

Texto a Voz: Convierte texto en habla natural con DIA TTS, Kokoro, Chatterbox y más a través de CLI inference.sh. Modelos: DIA TTS (conversacional), Kokoro TTS, Chatterbox, Hig...

AssemblyAI Transcriber

Asistente de Transcripción de AssemblyAI: Transcribe archivos de audio con diarización de oradores (quién habla cuándo). Soporta más de 100 idiomas, detección automática de idioma y marcas de tiempo. Úsalo para reuniones, entrevistas, podcasts o mensajes de voz. Requiere clave de API de AssemblyAI.

🎙️Voz y transcripción/assemblyai-transcriber

Whisper Transcribe

Transcripción de Susurro: Transcribe audio files to text using OpenAI Whisper. Supports speech-to-text with auto language detection, multiple output formats (txt, srt, vtt, ), batch processing, and model selection (tiny to large). Use when transcribing audio recordings, podcasts, voice messages, lectures, meetings, or any audio/video file to text. Handles mp3, wav, m4a, ogg, flac, webm, opus, aac formats.

🎙️Voz y transcripción/whisper-transcribe

eternal-haven-lore-pack

Packe de lore de Eternal Haven + packe mitológico.

🎙️Voz y transcripción/eternal-haven-lore-pack

agent-voice

Plataforma de blogging en línea de línea de comandos para agentes de IA.

akaunting

Interactúa con el software de contabilidad de código abierto Akaunting a través de la API REST.

auto-whisper-safe

Transcripción de voz segura para RAM con auto-chunking — funciona en máquinas de 16GB sin errores

🎙️Voz y transcripción/auto-whisper-safe

brw-de-ai-ify

Eliminar jerga generada por IA y restaurar la voz humana al texto

dellight-cro-revenue-ops

DELLIGHT.AI es una empresa emergente de IA en DIFC, Dubai.

🎙️Voz y transcripción/dellight-cro-revenue-ops

documents-ai

API de OCR en tiempo real y extracción de datos por Veryfi.

doubao-api-open-tts

Servicio de Texto a Voz utilizando Doubao (Motor Volcán).

🎙️Voz y transcripción/doubao-api-open-tts

duby

Convertir texto en voz utilizando la API Duby.so.

eachlabs-voice-audio

TTS, STT, conversión de voz utilizando ElevenLabs, Whisper, RVC.

🎙️Voz y transcripción/eachlabs-voice-audio

easyverein-api

Trabajar con la API REST v2.0 de easyVerein.

elevenlabs-media

Generación de música con ElevenLabs.

feishu-minutes

Obtener información, estadísticas, transcripción y medios de Feishu.

gettr-transcribe-summarize

Descargar audio de un post en GETTR.

🎙️Voz y transcripción/gettr-transcribe-summarize

hebrew-nikud

Referencia de nikud (puntos vocálicos) hebreos para agentes de IA.

her-voice

Dale voz a tu agente.

miranda-sag

Text-to-Speech de ElevenLabs con UX de decir estilo mac

norman-categorize-transactions

Revisión y categorización de transacciones bancarias sin clasificar, coincidencia con facturas y verificación de entradas contables

🎙️Voz y transcripción/norman-categorize-transactions

norman-monthly-reconciliation

Realización de una reconciliación financiera mensual completa - revisión de todas las transacciones, coincidencia de facturas, verificación de saldos pendientes

🎙️Voz y transcripción/norman-monthly-reconciliation

ressemble

Integración de Text-to-Speech y Speech-to-Text utilizando la API HTTP de Resemble AI

siliconflow-tts-gen

Text-to-Speech utilizando la API SiliconFlow (CosyVoice2)

🎙️Voz y transcripción/siliconflow-tts-gen