Les modèles neuronaux de TTS modernes (Eleven Labs Turbo, OpenAI TTS, Cartesia Sonic) atteignent une latence inférieure à 200 ms et une prosodie quasi humaine. La course au TTS porte surtout sur l'expressivité émotionnelle et la couverture multilingue.
La pile vocale de Callsy prend en charge plus de 40 langues et plus de 60 voix régionales, avec une latence de réponse inférieure à une seconde de bout en bout.
La qualité du TTS est l'un des trois facteurs (avec le raisonnement du LLM et la précision de la reconnaissance vocale) qui déterminent si un agent vocal IA sonne naturel ou robotique.