Proyectos5 min
EdgeVoice: API de Texto a Voz Compatible con OpenAI
Conrado Gómez
•EdgeVoice es una API REST de texto a voz que desarrollé como alternativa auto-hospedable a servicios comerciales de TTS. Compatible con el formato de OpenAI, utiliza Microsoft Edge TTS para generar audio de calidad profesional sin costos por uso.
¿Por Qué EdgeVoice?
Los servicios de Text-to-Speech como OpenAI TTS o ElevenLabs son potentes, pero costosos a escala. EdgeVoice ofrece:
- Costo cero: Sin límites de caracteres ni suscripciones
- Privacidad: Todo el procesamiento es local
- Compatibilidad OpenAI: Integración directa con aplicaciones existentes
- Múltiples voces: Acceso a las voces neurales de Microsoft Edge
Stack Tecnológico
- Python: Backend de la API
- Flask: Framework web minimalista
- Edge-TTS: Biblioteca para acceder a Microsoft Edge TTS
- FFmpeg: Conversión y procesamiento de audio
- Asyncio: Gestión asíncrona para streaming eficiente
Desafío Técnico Resuelto
El mayor reto fue implementar streaming eficiente sin bloquear el servidor. La solución fue usar asyncio con generators para enviar chunks de audio a medida que Edge TTS los genera.
Enlaces del Proyecto
Tags:#Python#API#Text-to-Speech#OpenAI