Inicio/Voz y transcripción

🎙️

Voz y transcripción

(71)

🎖️Destacado

41,621

Mcporter

Mcporter: Utiliza el CLI de mcporter para listar, configurar, autenticar y llamar servidores/herramientas MCP directamente (HTTP o stdio), incluyendo servidores ad-hoc, ediciones de configuración y generación de CLI/tipo.

🎙️Voz y transcripción/mcporter

🎖️Destacado

31,978

OpenClaw YouTube Transcript

Transcripción de videos de YouTube a texto mediante la extracción de subtítulos directamente desde la URL del video usando yt-dlp sin procesamiento de audio.

🎙️Voz y transcripción/openclaw-youtube-transcript

🎖️Destacado

18,448

Sag

Sag: once ElevenLabs text-to-speech con UX de estilo mac.

🎙️Voz y transcripción/sag

🎖️Destacado

15,590

YouTube Transcript

Transcripción de YouTube: Recupera y resume transcripciones de videos de YouTube. Usa esto cuando se te pida resumir, transcribir o extraer contenido de videos de YouTube. Maneja la recuperación de transcripciones a través de un proxy IP residencial para evitar los bloques de IP en la nube de YouTube.

🎙️Voz y transcripción/youtube-transcript

Local Whisper

Voz Local: Voz a texto local utilizando OpenAI Whisper. Funciona completamente sin conexión después de la descarga del modelo. Transcripción de alta calidad con múltiples tamaños de modelo.

🎙️Voz y transcripción/local-whisper

elevenlabs-voices

Síntesis de voz de alta calidad con 18 personalidades, 32.

🎙️Voz y transcripción/elevenlabs-voices

faster-whisper

Habla local usando faster-whisper.

🎙️Voz y transcripción/faster-whisper

elevenlabs-tts

TTS de ElevenLabs - la mejor integración de ElevenLabs para OpenClaw.

🎙️Voz y transcripción/elevenlabs-tts

Voice Transcribe

Transcripción de voz: Transcribe archivos de audio utilizando el modelo gpt-4o-mini-transcribe de OpenAI con sugerencias de vocabulario y sustituciones de texto. Requiere uv (https://docs.astral.sh/uv/).

🎙️Voz y transcripción/voice-transcribe

jarvis-voice

Voz de IA metálica con TTS y estilo de transcripción visual

🎙️Voz y transcripción/jarvis-voice

kokoro-tts

Genera audio hablado a partir de texto utilizando el motor local Kokoro TTS

🎙️Voz y transcripción/kokoro-tts

ElevenLabs Speech-to-Text

Transcribir archivos de audio utilizando ElevenLabs Speech-to-Text (Scribe v2)

🎙️Voz y transcripción/elevenlabs-stt

Mlx Whisper

Voz local a texto con MLX Whisper (optimizado para Apple Silicon, sin clave de API)

🎙️Voz y transcripción/mlx-whisper

Transcribe audio files via OpenRouter using audio-capable models

Transcribir archivos de audio mediante OpenRouter utilizando modelos con capacidad de audio: Transcribir archivos de audio mediante OpenRouter utilizando modelos con capacidad de audio (Gemini, GPT-4o-audio, etc.)

🎙️Voz y transcripción/openrouter-transcribe

Gemini STT

Transcribir archivos de audio utilizando la API Gemini de Google o Vertex AI

🎙️Voz y transcripción/gemini-stt

Tts

Convertir texto en voz utilizando la API de Hume AI (o OpenAI). Utilizar cuando el usuario solicite un mensaje de audio, una respuesta en voz o para escuchar algo "de vive voz".

🎙️Voz y transcripción/tts

Local Whisper

Locutor Local: Lenguaje hablado local gratuito para Telegram y WhatsApp utilizando MLX Whisper en Apple Silicon. Privado, sin costos de API.

🎙️Voz y transcripción/whisper-mlx-local

Transcribe

Transcribir: Transcribe archivos de audio a texto utilizando Whisper local (Docker). Utilizar cuando se reciben mensajes de voz, archivos de audio (.mp3, .m4a, .ogg, .wav, .webm) o cuando se solicite transcribir contenido de audio.

🎙️Voz y transcripción/transcribe

assemblyai-transcribe

Transcribir audio/video con AssemblyAI

🎙️Voz y transcripción/assemblyai-transcribe

elevenlabs-agents

Crear, gestionar y desplegar ElevenLabs.

🎙️Voz y transcripción/elevenlabs-agents

Local STT (Nvidia Parakeet + Whisper Support)

STT local (Nvidia Parakeet + soporte Whisper): STT local con backends seleccionables - Parakeet (mejor precisión) o Whisper (más rápido, multilingüe).

🎙️Voz y transcripción/local-stt

audio-gen

Generar audiolibros, podcasts o contenido audio educativo

🎙️Voz y transcripción/audio-gen

critical-article-writer

Generar artículos de borrador y resúmenes.

🎙️Voz y transcripción/critical-article-writer

audio-reply

Generar respuestas en audio utilizando TTS

🎙️Voz y transcripción/audio-reply-skill

it will help you to send voice messages to your AI Assistant and also can make it talk

Te ayudará a enviar mensajes de voz a tu Asistente de IA y también puede hacer que hable: Texto a Voz y Voz a Texto utilizando el AI de ElevenLabs. Úsalo cuando el usuario quiera convertir texto a voz, transcribir mensajes de voz o trabajar con voz en múltiples idiomas. Soporta voces de IA de alta calidad y transcripción precisa.

🎙️Voz y transcripción/elevenlabs-voice

elevenlabs-transcribe

Transcripción de audio a texto utilizando ElevenLabs.

🎙️Voz y transcripción/elevenlabs-transcribe

Parakeet Stt

Speech-to-text local con NVIDIA Parakeet TDT 0.6B v3 (ONNX en CPU). 30 veces más rápido que Whisper, 25 idiomas, detección automática, API compatible con OpenAI. Utilice para transcribir archivos de audio, convertir voz a texto o procesar grabaciones de voz localmente sin APIs en la nube.

🎙️Voz y transcripción/parakeet-stt

deepgram

Interfaz de línea de comandos para Deepgram (transcripción de voz a texto).

🎙️Voz y transcripción/deepgram

announcer

Anunciar texto a través de los altavoces AirPlay utilizando Airfoil +

🎙️Voz y transcripción/announcer

Speech To Text

Transcripción de voz a texto con modelos Whisper mediante el CLI inference.sh. Modelos: Fast Whisper Large V3, Whisper V3 Large. Capabilities: transcripción, traducción,...

🎙️Voz y transcripción/speech-to-text

Voice

Voz: Convertir texto en voz utilizando el motor TTS de Microsoft Edge con voces personalizables, reproducción directa y limpieza automática de archivos temporales.

🎙️Voz y transcripción/voice

addis-assistant-stt

Proporciona Speech-to-Text (STT) y texto.

🎙️Voz y transcripción/addis-assistant-stt

Pocket Tts

Generar voz en inglés de alta calidad de manera offline en el CPU utilizando 8 voces integradas o clonación de voz personalizada con el modelo Pocket TTS de Kyutai.

🎙️Voz y transcripción/pocket-tts

inworld-tts

Texto a voz a través de la API de Inworld.ai.

🎙️Voz y transcripción/inworld-tts

Voicenotes

Sincroniza y accede a las notas de voz desde Voicenotes.com. Úsalo cuando el usuario desee recuperar sus grabaciones de voz, transcripciones y resúmenes de IA de Voicenotes. Soporta la recuperación de notas, la sincronización a markdown y la búsqueda de transcripciones.

🎙️Voz y transcripción/voicenotes

claw-voice

Conectado a una sesión de usuario en vivo a través de voz

🎙️Voz y transcripción/claw-voice

Transcribe Audio with Parakeet MLX

Transcribir Audio con Parakeet MLX: Reconocimiento de voz local con Parakeet MLX (ASR) para Apple Silicon (sin clave de API).

🎙️Voz y transcripción/parakeet-mlx

clonev

Clonar cualquier voz y generar habla utilizando Coqui XTTS v2.

🎙️Voz y transcripción/clonev

cult-of-carcinization

Dar voz y oídos a tu agente.

🎙️Voz y transcripción/cult-of-carcinization

deepdub-tts

Generar audio de habla utilizando Deepdub y adjuntarlo como MEDIO.

🎙️Voz y transcripción/deepdub-tts

chichi-speech

Servicio RESTful para texto a voz de alta calidad utilizando Qwen3

🎙️Voz y transcripción/chichi-speech

lnbits

Gestión de la billetera Lightning LNbits (Saldo, Pagar, Factura)

🎙️Voz y transcripción/lnbits

Voicenotes Official

Esta habilidad oficial de la equipo Voicenotes ofrece acceso a nuevas APIs y la capacidad de buscar semánticamente, recuperar transcripciones completas, filtrar por t...

🎙️Voz y transcripción/voicenotes-official

tl;dw - YouTube Video Summarizer

tl;dw - Resumen de Videos de YouTube: Extrae los transcritos de los videos de YouTube y proporciona resúmenes concisos que resaltan los puntos principales, argumentos y conclusiones sin tener que ver el video completo.

🎙️Voz y transcripción/tldw

Openai Tts.Bak 2026 01 28T18:01:23+10:30

Texto a voz a través de la API de Voz de Audio de OpenAI

🎙️Voz y transcripción/openai-tts-bak-2026-01-28t18-01-23-10-30

speech-recognition

Reconocimiento de voz general. Soporta varios formatos de audio (ogg/mp3/wav/m4a) y utiliza la API SenseVoice API basada en silicio para la conversión de voz a texto. Se activa cuando el usuario envía mensajes de voz, archivos de audio o necesita transcribir audio.

🎙️Voz y transcripción/speech-recognition

freshbooks-cli

CLI de FreshBooks para gestionar facturas, clientes y facturación.

🎙️Voz y transcripción/freshbooks-cli

Text To Speech

Texto a Voz: Convierte texto en habla natural con DIA TTS, Kokoro, Chatterbox y más a través de CLI inference.sh. Modelos: DIA TTS (conversacional), Kokoro TTS, Chatterbox, Hig...

🎙️Voz y transcripción/text-to-speech

AssemblyAI Transcriber

Asistente de Transcripción de AssemblyAI: Transcribe archivos de audio con diarización de oradores (quién habla cuándo). Soporta más de 100 idiomas, detección automática de idioma y marcas de tiempo. Úsalo para reuniones, entrevistas, podcasts o mensajes de voz. Requiere clave de API de AssemblyAI.

🎙️Voz y transcripción/assemblyai-transcriber

Whisper Transcribe

Transcripción de Susurro: Transcribe audio files to text using OpenAI Whisper. Supports speech-to-text with auto language detection, multiple output formats (txt, srt, vtt, ), batch processing, and model selection (tiny to large). Use when transcribing audio recordings, podcasts, voice messages, lectures, meetings, or any audio/video file to text. Handles mp3, wav, m4a, ogg, flac, webm, opus, aac formats.

🎙️Voz y transcripción/whisper-transcribe

eternal-haven-lore-pack

Packe de lore de Eternal Haven + packe mitológico.

🎙️Voz y transcripción/eternal-haven-lore-pack

agent-voice

Plataforma de blogging en línea de línea de comandos para agentes de IA.

🎙️Voz y transcripción/agent-voice

akaunting

Interactúa con el software de contabilidad de código abierto Akaunting a través de la API REST.

🎙️Voz y transcripción/akaunting

auto-whisper-safe

Transcripción de voz segura para RAM con auto-chunking — funciona en máquinas de 16GB sin errores

🎙️Voz y transcripción/auto-whisper-safe

brw-de-ai-ify

Eliminar jerga generada por IA y restaurar la voz humana al texto

🎙️Voz y transcripción/brw-de-ai-ify

dellight-cro-revenue-ops

DELLIGHT.AI es una empresa emergente de IA en DIFC, Dubai.

🎙️Voz y transcripción/dellight-cro-revenue-ops

documents-ai

API de OCR en tiempo real y extracción de datos por Veryfi.

🎙️Voz y transcripción/documents-ai

doubao-api-open-tts

Servicio de Texto a Voz utilizando Doubao (Motor Volcán).

🎙️Voz y transcripción/doubao-api-open-tts

duby

Convertir texto en voz utilizando la API Duby.so.

🎙️Voz y transcripción/duby

eachlabs-voice-audio

TTS, STT, conversión de voz utilizando ElevenLabs, Whisper, RVC.

🎙️Voz y transcripción/eachlabs-voice-audio

easyverein-api

Trabajar con la API REST v2.0 de easyVerein.

🎙️Voz y transcripción/easyverein-api

elevenlabs-media

Generación de música con ElevenLabs.

🎙️Voz y transcripción/elevenlabs-media

feishu-minutes

Obtener información, estadísticas, transcripción y medios de Feishu.

🎙️Voz y transcripción/feishu-minutes

gettr-transcribe-summarize

Descargar audio de un post en GETTR.

🎙️Voz y transcripción/gettr-transcribe-summarize

hebrew-nikud

Referencia de nikud (puntos vocálicos) hebreos para agentes de IA.

🎙️Voz y transcripción/hebrew-nikud

her-voice

Dale voz a tu agente.

🎙️Voz y transcripción/her-voice

miranda-sag

Text-to-Speech de ElevenLabs con UX de decir estilo mac

🎙️Voz y transcripción/miranda-sag

norman-categorize-transactions

Revisión y categorización de transacciones bancarias sin clasificar, coincidencia con facturas y verificación de entradas contables

🎙️Voz y transcripción/norman-categorize-transactions

norman-monthly-reconciliation

Realización de una reconciliación financiera mensual completa - revisión de todas las transacciones, coincidencia de facturas, verificación de saldos pendientes

🎙️Voz y transcripción/norman-monthly-reconciliation

ressemble

Integración de Text-to-Speech y Speech-to-Text utilizando la API HTTP de Resemble AI

🎙️Voz y transcripción/ressemble

siliconflow-tts-gen

Text-to-Speech utilizando la API SiliconFlow (CosyVoice2)

🎙️Voz y transcripción/siliconflow-tts-gen