Conrado Gómez | Software Developer

EdgeVoice es una API REST de texto a voz que desarrollé como alternativa auto-hospedable a servicios comerciales de TTS. Compatible con el formato de OpenAI, utiliza Microsoft Edge TTS para generar audio de calidad profesional sin costos por uso.

¿Por Qué EdgeVoice?

Los servicios de Text-to-Speech como OpenAI TTS o ElevenLabs son potentes, pero costosos a escala. EdgeVoice ofrece:

Costo cero: Sin límites de caracteres ni suscripciones
Privacidad: Todo el procesamiento es local
Compatibilidad OpenAI: Integración directa con aplicaciones existentes
Múltiples voces: Acceso a las voces neurales de Microsoft Edge

Stack Tecnológico

Python: Backend de la API
Flask: Framework web minimalista
Edge-TTS: Biblioteca para acceder a Microsoft Edge TTS
FFmpeg: Conversión y procesamiento de audio
Asyncio: Gestión asíncrona para streaming eficiente

Desafío Técnico Resuelto

El mayor reto fue implementar streaming eficiente sin bloquear el servidor. La solución fue usar asyncio con generators para enviar chunks de audio a medida que Edge TTS los genera.

Enlaces del Proyecto

Repositorio en GitHub

EdgeVoice: API de Texto a Voz Compatible con OpenAI

¿Por Qué EdgeVoice?

Stack Tecnológico

Desafío Técnico Resuelto

Enlaces del Proyecto

¿Te gustó este artículo?