Главная/Речь и транскрипция
🎙️

Речь и транскрипция

(71)
🎖️Особый
41,621

Mcporter

Используйте mcporter CLI для списка, конфигурации, аутентификации и вызова MCP серверов/инструментов (HTTP или stdio), включая временные серверы, правки конфигурации и генерацию CLI/типов.

🎖️Особый
31,978

OpenClaw YouTube Transcript

Транскрибация YouTube-видео в текст через URL с помощью yt-dlp без обработки аудио.

🎖️Особый
18,448

Sag

Text-to-speech от ElevenLabs с мак-стилем озвучки.

🎖️Особый
15,590

YouTube Transcript

Текстовый файл YouTube: Получите и суммируйте текстовые файлы видеороликов YouTube. Используйте при запросе на суммирование, транскрипцию или извлечение контента из видеороликов YouTube. Обрабатывает получение текстовых файлов через прокси IP для обхода блокировок IP в облаке YouTube.

Local Whisper

Локальный шепот: Локальная обработка речи в текст с использованием OpenAI Whisper. Работает полностью офлайн после загрузки модели. Высокое качество транскрипции с несколькими размерами моделей.

elevenlabs-voices

Высококачественная синтез речи с 18 персонажами, 32.

faster-whisper

локальная речь-в-текст с использованием faster-whisper

elevenlabs-tts

TTS ElevenLabs - лучшая интеграция ElevenLabs для OpenClaw

Voice Transcribe

Voice Transcribe: Транскрибация аудиофайлов с использованием модели gpt-4o-mini-transcribe от OpenAI с подсказками словаря и текстовыми заменами. Требует uv (https://docs.astral.sh/uv/).

jarvis-voice

Металлический голосовой персонаж AI с ТТС и стилизацией визуального текста

kokoro-tts

Генерация голосового аудио из текста с использованием локального движка Kokoro TTS.

ElevenLabs Speech-to-Text

ElevenLabs Speech-to-Text: Транскрибируйте аудиофайлы с помощью ElevenLabs Speech-to-Text (Scribe v2).

Mlx Whisper

Мlx Whisper: Локальная озвучка в текст с использованием MLX Whisper (оптимизирована для Apple Silicon, без ключа API).

Transcribe audio files via OpenRouter using audio-capable models

Транскрибация аудиофайлов через OpenRouter с использованием моделей с поддержкой аудио: Транскрибация аудиофайлов через OpenRouter с использованием моделей с поддержкой аудио (Gemini, GPT-4o-audio и т.д.).

Gemini STT

Gemini STT: Transcribe audio files using Google's Gemini API or Vertex AI

Tts

Tts: Преобразуйте текст в речь с использованием API Hume AI (или OpenAI). Используйте при запросе пользователя на аудиосообщение, голосовой ответ или для прослушивания чего-то 'of vive voix'.

Local Whisper

Local Whisper: Бесплатное локальное говорение в текст с использованием MLX Whisper на Apple Silicon. Приватно, без затрат на API.

Transcribe

Транскрибация аудиофайлов в текст с использованием локального Whisper (Docker). Используйте при получении голосовых сообщений, аудиофайлов (.mp3, .m4a, .ogg, .wav, .webm) или когда вам нужно транскрибировать аудиоконтент.

assemblyai-transcribe

assemblyai-transcribe: Транскрибировать аудио/видео с использованием AssemblyAI.

elevenlabs-agents

Создание, управление и развертывание ElevenLabs

Local STT (Nvidia Parakeet + Whisper Support)

Локальная STT (Nvidia Parakeet + поддержка Whisper): Локальная STT с выбранными бекендами - Parakeet (наилучшая точность) или Whisper (быстрейший, многоязычный).

audio-gen

audio-gen: Создавать аудиокниги, подкасты или образовательное аудио содержимое.

critical-article-writer

Создание черновиков статей, планов

audio-reply

Генерация аудиоповторов с использованием TTS.

it will help you to send voice messages to your AI Assistant and also can make it talk

Это поможет вам отправлять голосовые сообщения вашему AI Асистенту и также может заставить его говорить: Text-to-Speech и Speech-to-Text с использованием AI ElevenLabs. Используйте, когда пользователь хочет преобразовать текст в речь, транскрибировать голосовые сообщения или работать с голосом на множестве языков. Поддерживает высококачественные AI голоса и точную транскрипцию.

elevenlabs-transcribe

Транскрибация аудио в текст с использованием ElevenLabs

Parakeet Stt

Parakeet Stt: Локальная обработка речи в текст с использованием NVIDIA Parakeet TDT 0.6B v3 (ONNX на CPU). В 30 раз быстрее, чем Whisper, 25 языков, автоматическое обнаружение, API совместимый с OpenAI. Используйте при транскрибации аудиофайлов, конвертации речи в текст или обработке голосовых записей локально без облачных API.

deepgram

Deepgram: — командная строка интерфейса для Deepgram озвучка в текст.

announcer

Объявитель: Объявлять текст по всему дому через динамики AirPlay с использованием Airfoil +.

Speech To Text

Транскрибация аудио в текст с использованием моделей Whisper через CLI inference.sh. Модели: Fast Whisper Large V3, Whisper V3 Large. Возможности: транскрипция, перевод...

Voice

Преобразование текста в речь с использованием двигателя TTS Microsoft Edge с настраиваемыми голосами, прямым воспроизведением и автоматической очисткой временных файлов.

addis-assistant-stt

Обеспечивает функции Обратной речи в текст (STT) и текст

Pocket Tts

Pocket Tts: Генерируйте высококачественную английскую речь офлайн на CPU с использованием 8 встроенных голосов или пользовательского клонирования голоса с моделью Pocket TTS от Kyutai.

inworld-tts

Текст в речь через API Inworld.ai

Voicenotes

Voicenotes: Синхронизация и доступ к голосовым заметкам с Voicenotes.com. Используйте, когда пользователь хочет восстановить свои голосовые записи, транскрипции и AI-обзоры с Voicenotes. Поддерживает загрузку заметок, синхронизацию в формат markdown и поиск транскрипций.

claw-voice

Подключение к живой сессии пользователя через голос

Transcribe Audio with Parakeet MLX

Транскрибация аудио с Parakeet MLX: Локальная речь в текст с Parakeet MLX (ASR) для Apple Silicon (без ключа API).

clonev

Клонирование любого голоса и генерация речи с использованием Coqui XTTS v2

cult-of-carcinization

Дайте вашему агенту голос — и уши

deepdub-tts

Генерация аудиowiedер с использованием Deepdub и attaching it as a MEDIA

chichi-speech

Сервис высококачественного текста в речь с использованием Qwen3

lnbits

Управление кошельком LNbits Lightning (Баланс, Оплата, Инвойс)

Voicenotes Official

Voicenotes Official: Этот официальный Skill от команды Voicenotes предоставляет OpenClaw доступ к новым API и возможность поиска семантически, извлечения полных транскрипций, фильтрации по т.д.

tl;dw - YouTube Video Summarizer

tl;dw - YouTube Video Summarizer: Извлекает текстовые transcripts YouTube видео и предоставляет краткие резюме, подчеркивая основные моменты, аргументы и выводы без просмотра всего видео.

Openai Tts.Bak 2026 01 28T18:01:23+10:30

Openai Tts.Bak 2026 01 28T18:01:23+10:30: Текст в речь через API аудио речи OpenAI.

🎙️Речь и транскрипция/openai-tts-bak-2026-01-28t18-01-23-10-30

speech-recognition

Общий навык распознавания речи. Поддерживает различные аудиоформаты (ogg/mp3/wav/m4a), использует потоковую SenseVoice API для преобразования речи в текст. Активируется при отправке голосовых сообщений, аудиофайлов или необходимости транскрипции аудио.

freshbooks-cli

CLI FreshBooks для управления счетами, клиентами и расчетами.

Text To Speech

Преобразование текста в естественную речь с помощью DIA TTS, Kokoro, Chatterbox и других через CLI inference.sh. Модели: DIA TTS (диалоговая), Kokoro TTS, Chatterbox, Hig...

AssemblyAI Transcriber

AssemblyAI Transcriber: Переводить аудиофайлы с диаризацией говорящего (кто говорит когда). Поддерживает более 100 языков, автоматическое определение языка и временные метки. Используйте для встреч, интервью, подкастов или голосовых сообщений. Требуется ключ API AssemblyAI.

Whisper Transcribe

Whisper Transcribe: Перевод аудиофайлов в текст с использованием OpenAI Whisper. Поддерживает преобразование речи в текст с автоматическим определением языка, несколько форматов вывода (txt, srt, vtt, ), параллельную обработку и выбор модели (маленькая до большой). Используйте для перевода аудиозаписей, подкастов, голосовых сообщений, лекций, встреч или любого аудио/видео файла в текст. Поддерживает форматы mp3, wav, m4a, ogg, flac, webm, opus, aac.

eternal-haven-lore-pack

lore-пакет вечного рая: хронicles вечного рая + пакет мифических персонажей

agent-voice

Командная строка платформы блогинга для AI агентов

akaunting

Интерактив с открытым исходным кодом программным обеспечением для бухгалтерского учета Akaunting через REST API

auto-whisper-safe

Безопасная транскрипция голоса с автоматическим разбиванием на фрагменты — работает на машинах с 16 ГБ ОЗУ без сбоев.

brw-de-ai-ify

Удаление жаргона, созданного AI, и восстановление человеческого голоса в тексте.

dellight-cro-revenue-ops

Dellight-cro-revenue-ops: DELLIGHT.AI — это AI-стартап в DIFC, Дубай.

documents-ai

Documents-ai: Реальное OCR и API для извлечения данных от Veryfi.

doubao-api-open-tts

Сервис текста в речь с использованием Doubao (Двигатель Вулканик)

duby

Преобразование текста в речь с использованием API Duby.so

eachlabs-voice-audio

TTS, STT, преобразование голоса с использованием ElevenLabs, Whisper, RVC

easyverein-api

Работа с REST API easyVerein v2.0

elevenlabs-media

Музыкальное генерирование ElevenLabs

feishu-minutes

получение информации, данных, протокола и медиа из Feishu

gettr-transcribe-summarize

Загрузка аудио из публикации на GETTR.

hebrew-nikud

Справочник по nikud (точкам гласных) на иврите для агентов ИИ.

her-voice

Дать вашему агенту голос

miranda-sag

Текст в голос с ElevenLabs с интерфейсом UX в стиле macOS.

norman-categorize-transactions

Проверка и категоризация неопределенных банковских операций, совпадение с счетами-фактурами и проверка записей бухгалтерского учета.

🎙️Речь и транскрипция/norman-categorize-transactions

norman-monthly-reconciliation

Ведение полного ежемесячного финансового сверки - проверка всех операций, совпадение счетов-фактур, проверка задолженностей.

🎙️Речь и транскрипция/norman-monthly-reconciliation

ressemble

Интеграция Text-to-Speech и Speech-to-Text с использованием HTTP API Resemble AI.

siliconflow-tts-gen

Текст в голос с использованием API SiliconFlow (CosyVoice2)