Moderne neuronale TTS-Modelle (Eleven Labs Turbo, OpenAI TTS, Cartesia Sonic) erreichen eine Latenz unter 200 ms und eine nahezu menschliche Prosodie. Das Wettrennen bei TTS dreht sich weitgehend um emotionale Ausdruckskraft und mehrsprachige Abdeckung.
Der Sprach-Stack von Callsy unterstützt mehr als 40 Sprachen und mehr als 60 regionale Stimmen, mit einer Antwortlatenz von Ende zu Ende unter einer Sekunde.
Die TTS-Qualität ist einer der drei Faktoren (neben dem logischen Denken des LLM und der STT-Genauigkeit), die bestimmen, ob ein KI-Sprachagent natürlich oder roboterhaft wirkt.