Qué es un agente de voz con IA
Un agente de voz con IA es un sistema de software que mantiene una conversación telefónica en tiempo real con una persona. Usa tres componentes unidos: un motor de voz a texto en streaming para oír al cliente, un LLM para decidir qué decir a continuación y un motor de texto a voz neuronal para hablar. La latencia de extremo a extremo en 2026 se sitúa entre 600 y 1.200 ms. Lo bastante cerca de lo natural como para que la mayoría no perciba retraso.
El cambio que define 2023 a 2026: los agentes de voz dejaron de sonar robóticos. El TTS neuronal (Eleven Labs, OpenAI, Cartesia) alcanzó la paridad con locutores humanos profesionales y tranquilos en pruebas a ciegas. El diferenciador que queda es el comportamiento conversacional. Lo bien que el agente gestiona interrupciones, objeciones y contexto. Y eso es en gran medida trabajo de ajuste del LLM.
Dónde gana la voz con IA
La voz con IA reemplaza o complementa tres categorías de trabajo:
- Recuperación y reactivación saliente. Recuperación de carritos abandonados, reactivación, recordatorios de pago, NPS posventa
- Cualificación y derivación entrante. Velocidad de respuesta al lead, cualificación de demos, triaje de soporte
- Coordinación de citas. Reservar, confirmar, recordar, reagendar
Dónde (aún) no gana la voz con IA
Tres categorías donde las personas todavía superan a la voz con IA en 2026: las conversaciones de venta empresarial complejas (con varias partes, mucho juicio), la gestión de quejas emocionales o sensibles (fallecimientos, quejas graves) y el soporte técnico profundo que requiere una experiencia de producto que excede cualquier base de conocimiento razonablemente acotada.
El patrón correcto en 2026 no es «reemplazar personas». Es «la IA hace el 80% de las llamadas que siguen patrones; las personas se centran en el 20% que necesita juicio.» El coste por llamada baja; la calidad en la cola larga sube.
Modelos de precios
Dominan tres formas de precio:
- Uso por minuto (Bland, algunos hiperescaladores). Flexible, escala con el volumen, difícil de presupuestar para equipos de operaciones
- Tarifa plana por llamada (la mayoría de las apps de e-commerce). Predecible, a menudo suscripción con un pack de llamadas
- Contratos empresariales (Air AI, hiperescaladores). Compromisos mínimos anuales, con venta consultiva
Conceptos básicos de cumplimiento
Tres normativas importan en 2026:
TCPA (EE. UU.). Exige consentimiento para muchas formas de contacto saliente, con excepciones para llamadas transaccionales o informativas. La recuperación de carritos suele encajar en la excepción transaccional; el marketing en frío no.
RGPD (UE). Exige base legal, minimización de datos, acuerdos de encargado (DPA) y el derecho de supresión. Cumplimiento SaaS estándar, gestionado por cualquier proveedor serio.
Reglamento de IA de la UE (en vigor desde 2025). Exige declarar la IA al inicio de cualquier interacción de voz. Las llamadas con IA declarada rinden igual de bien que las no declaradas en pruebas A/B; esto no es una preocupación de conversión.
Idiomas y voces
Los proveedores maduros de 2026 ofrecen más de 40 idiomas con variantes de voz regionales. Español en 8 dialectos, portugués en brasileño y europeo, inglés en US/UK/AU/IE/indio. El diferenciador es si el guion del agente aguanta en esas regiones, no si el TTS sabe pronunciar las palabras.
Las llamadas en idioma nativo superan al inglés traducido entre 2 y 3 veces en conversión en Latinoamérica, el Sudeste Asiático y la mayoría de los mercados no anglófonos de la UE. Si tu base de clientes es multilingüe, esta es la mayor palanca después de «que la voz exista siquiera».
Cómo evaluar proveedores
Haz estas preguntas en cualquier conversación con un proveedor:
- ¿Cuál es la latencia de extremo a extremo en la llamada? (por debajo de 1.200 ms es lo mínimo en 2026)
- ¿Cómo declara el agente que es IA? (audita el guion real)
- ¿Qué integraciones son nativas y cuáles a medida? (Shopify, Klaviyo, HubSpot. ¿Nativas o hazlo tú mismo?)
- ¿Cuál es la postura de cumplimiento? (DPA, lista de subencargados, residencia en la UE, flujo de baja TCPA)
- ¿Cuál es la forma del precio? (por minuto frente a suscripción en pack)
- ¿Puedes hablar con un cliente real que haga lo que tú quieres hacer?
La curva de madurez de 2026
En 2024 los agentes de voz con IA eran un añadido novedoso. En 2025 eran un canal experimental creíble. En 2026 son la expectativa por defecto para cualquier tienda de e-commerce que se tome en serio la recuperación de carritos abandonados. La pregunta competitiva no es «¿usamos uno?». Es «¿cuál, y cómo de bien ajustado?».