Los modelos neuronales modernos de TTS (Eleven Labs Turbo, OpenAI TTS, Cartesia Sonic) logran una latencia inferior a 200 ms y una prosodia casi humana. La carrera en TTS gira en gran medida en torno a la expresividad emocional y la cobertura multilingüe.
La pila de voz de Callsy admite más de 40 idiomas y más de 60 voces regionales, con una latencia de respuesta inferior a un segundo de extremo a extremo.
La calidad del TTS es uno de los tres factores (junto con el razonamiento del LLM y la precisión del STT) que determinan si un agente de voz con IA suena natural o robótico.