Moderne neurale TTS-modellen (Eleven Labs Turbo, OpenAI TTS, Cartesia Sonic) halen een latentie onder 200 ms en een bijna menselijke prosodie. De wapenwedloop in TTS gaat grotendeels over emotionele expressiviteit en dekking van meerdere talen.
De spraakstack van Callsy ondersteunt meer dan 40 talen en meer dan 60 regionale stemmen, met een responslatentie van onder een seconde van begin tot eind.
De TTS-kwaliteit is een van de drie factoren (samen met het redeneren van het LLM en de STT-nauwkeurigheid) die bepalen of een AI-stemagent natuurlijk of robotachtig aanvoelt.