I moderni modelli neurali di TTS (Eleven Labs Turbo, OpenAI TTS, Cartesia Sonic) raggiungono una latenza inferiore a 200 ms e una prosodia quasi umana. La corsa agli armamenti nel TTS riguarda in gran parte l'espressività emotiva e la copertura multilingue.
Lo stack vocale di Callsy supporta oltre 40 lingue e oltre 60 voci regionali, con una latenza di risposta sotto il secondo end-to-end.
La qualità del TTS è uno dei tre fattori (insieme al ragionamento dell'LLM e alla precisione dello STT) che determinano se un agente vocale IA suona naturale o robotico.