La shortlist dont personne ne parle
Quand vous magasinez de l'infra voice AI en 2026, les vendors évidents arrivent d'abord : OpenAI Realtime API, ElevenLabs Conversational, Retell, Vapi. Ils démoent bien. Ils ont des logos sur leur homepage. C'est ce que votre CTO a entendu en conférence. On les a tous évalués pour un déploiement régulé MENA et on a fini par shipper sur Ultravox. Voilà la vraie matrice de décision — pas la version marketing.
Latence : le seul chiffre qui compte
La latence conversationnelle est la différence entre une IA qui sonne humaine et une qui sonne comme un IVR de 2002. La barre qu'on se fixe c'est < 800ms du end-of-speech au début de la réponse, end-to-end, sur une connexion 4G à Dubai. Ce chiffre inclut : endpointing VAD, sortie réseau, inférence du modèle, premier paquet audio TTS, et retour réseau.
Voilà ce qu'on a mesuré, p50, sur le même hardware et le même corpus de test :
- OpenAI Realtime — 1,1s. Bien quand ça marche, mais la variance est brutale (p95 autour de 2,3s).
- ElevenLabs Conversational — 950ms. Mieux, mais leur endpointing était agressif et coupait les locuteurs lents.
- Retell / Vapi — les deux wrappent des providers en dessous, donc la latence dépendait du provider et ajoutait 100–200ms d'orchestration.
- Ultravox — 620ms p50, 880ms p95. L'architecture est end-to-end speech-to-speech, donc ils ne paient pas la taxe STT → LLM → TTS.
Pour un client habitué à parler à un humain, 600ms est le chiffre magique où il arrête de remarquer qu'il parle à une machine. C'est le gain.
Support des langues : ce n'est jamais juste « est-ce que ça parle la langue »
Notre déploiement devait gérer arabe du Golfe, MSA, et anglais, souvent code-switchés en milieu de phrase. Chaque vendor de la shortlist prétendait supporter l'arabe. La réalité :
- Certains vendors étaient entraînés uniquement sur MSA et produisaient un output inutilisable pour le dialectal.
- Certains avaient du STT arabe mais du TTS anglais uniquement, ce qui ne sert à rien pour un agent voice.
- Deux vendors géraient le code-switching en détectant la langue par énoncé — donc un client qui dit « my deductible يعني the amount I pay » obtenait moitié de réponse en anglais et moitié en arabe, les deux confuses.
Ultravox a géré l'arabe du Golfe + anglais code-switchés dans un seul énoncé sans qu'on écrive d'orchestration custom. À soi seul ça a collapsé deux semaines de prompt engineering planifié à zéro.
Résidence des données : le deal-breaker
Notre client avait besoin que l'inférence tourne dans une juridiction spécifique. C'est une exigence de conformité, pas une préférence. La plupart des vendors offrent la « résidence des données » comme une ligne marketing qui veut dire « on stockera vos transcripts dans votre région » — mais l'inférence du modèle elle-même tourne en us-east-1. Ce n'est pas de la résidence. C'est une sauvegarde de transcripts.
Ultravox nous a laissé tourner l'inférence dans notre propre compte AWS, dans la bonne région, avec nos propres clés KMS. Ça a rendu toute la story de conformité tractable en une seule revue d'architecture au lieu d'une négociation vendor de six mois.
Ce qu'on a sacrifié
Ce n'est pas un win gratuit. Ultravox est plus jeune que les vendors évidents. Leur dashboard est plus mince. Leur SDK a des rugosités. On ouvre un ticket support environ une fois par mois et l'équipe répond, mais on n'est pas dans un tier où un account manager nous rappelle.
Pour une démo marketing, les vendors évidents restent plus faciles. Pour un déploiement régulé en production avec des contraintes dures de latence et de résidence, le tradeoff était clair.
À retenir
Le choix d'un vendor voice AI en 2026 ne tient pas à des listes de features. Il tient à trois chiffres : la latence p50 sous vos vraies conditions réseau, la couverture linguistique mesurée sur la vraie parole de vos clients, et où l'inférence tourne physiquement. Répondez honnêtement aux trois et le choix se fait généralement tout seul.