Os modelos neurais modernos de TTS (Eleven Labs Turbo, OpenAI TTS, Cartesia Sonic) atingem uma latência abaixo de 200 ms e uma prosódia quase humana. A corrida no TTS gira em grande parte em torno da expressividade emocional e da cobertura multilíngue.
A pilha de voz da Callsy suporta mais de 40 idiomas e mais de 60 vozes regionais, com uma latência de resposta abaixo de um segundo de ponta a ponta.
A qualidade do TTS é um dos três fatores (junto com o raciocínio do LLM e a precisão do STT) que determinam se um agente de voz com IA soa natural ou robótico.