Volver al blog
Proyectos5 min

EdgeVoice: API de Texto a Voz Compatible con OpenAI

Conrado Gómez

EdgeVoice es una API REST de texto a voz que desarrollé como alternativa auto-hospedable a servicios comerciales de TTS. Compatible con el formato de OpenAI, utiliza Microsoft Edge TTS para generar audio de calidad profesional sin costos por uso.

¿Por Qué EdgeVoice?

Los servicios de Text-to-Speech como OpenAI TTS o ElevenLabs son potentes, pero costosos a escala. EdgeVoice ofrece:

  • Costo cero: Sin límites de caracteres ni suscripciones
  • Privacidad: Todo el procesamiento es local
  • Compatibilidad OpenAI: Integración directa con aplicaciones existentes
  • Múltiples voces: Acceso a las voces neurales de Microsoft Edge

Stack Tecnológico

  • Python: Backend de la API
  • Flask: Framework web minimalista
  • Edge-TTS: Biblioteca para acceder a Microsoft Edge TTS
  • FFmpeg: Conversión y procesamiento de audio
  • Asyncio: Gestión asíncrona para streaming eficiente

Desafío Técnico Resuelto

El mayor reto fue implementar streaming eficiente sin bloquear el servidor. La solución fue usar asyncio con generators para enviar chunks de audio a medida que Edge TTS los genera.

Enlaces del Proyecto

Tags:#Python#API#Text-to-Speech#OpenAI

¿Te gustó este artículo?

Descubre más artículos sobre QA, Testing, Scrum y mejores prácticas de desarrollo.

Ver todos los artículos

© 2025 Conrado Gómez.

Conrado Gómez | Software Developer