Insights
Architecture · 8 min

Pourquoi nous avons choisi Ultravox plutôt que les vendors évidents.

Latence, support des langues, et la story de résidence des données — ce qui a compté, ce qui ne comptait pas.

Soma-Giuseppe Bini · 8 min de lecture · 1 mars 2026

La shortlist dont personne ne parle

Quand vous magasinez de l'infra voice AI en 2026, les vendors évidents arrivent d'abord : OpenAI Realtime API, ElevenLabs Conversational, Retell, Vapi. Ils démoent bien. Ils ont des logos sur leur homepage. C'est ce que votre CTO a entendu en conférence. On les a tous évalués pour un déploiement régulé MENA et on a fini par shipper sur Ultravox. Voilà la vraie matrice de décision — pas la version marketing.

Latence : le seul chiffre qui compte

La latence conversationnelle est la différence entre une IA qui sonne humaine et une qui sonne comme un IVR de 2002. La barre qu'on se fixe c'est < 800ms du end-of-speech au début de la réponse, end-to-end, sur une connexion 4G à Dubai. Ce chiffre inclut : endpointing VAD, sortie réseau, inférence du modèle, premier paquet audio TTS, et retour réseau.

Voilà ce qu'on a mesuré, p50, sur le même hardware et le même corpus de test :

Pour un client habitué à parler à un humain, 600ms est le chiffre magique où il arrête de remarquer qu'il parle à une machine. C'est le gain.

Support des langues : ce n'est jamais juste « est-ce que ça parle la langue »

Notre déploiement devait gérer arabe du Golfe, MSA, et anglais, souvent code-switchés en milieu de phrase. Chaque vendor de la shortlist prétendait supporter l'arabe. La réalité :

Ultravox a géré l'arabe du Golfe + anglais code-switchés dans un seul énoncé sans qu'on écrive d'orchestration custom. À soi seul ça a collapsé deux semaines de prompt engineering planifié à zéro.

Résidence des données : le deal-breaker

Notre client avait besoin que l'inférence tourne dans une juridiction spécifique. C'est une exigence de conformité, pas une préférence. La plupart des vendors offrent la « résidence des données » comme une ligne marketing qui veut dire « on stockera vos transcripts dans votre région » — mais l'inférence du modèle elle-même tourne en us-east-1. Ce n'est pas de la résidence. C'est une sauvegarde de transcripts.

Ultravox nous a laissé tourner l'inférence dans notre propre compte AWS, dans la bonne région, avec nos propres clés KMS. Ça a rendu toute la story de conformité tractable en une seule revue d'architecture au lieu d'une négociation vendor de six mois.

Ce qu'on a sacrifié

Ce n'est pas un win gratuit. Ultravox est plus jeune que les vendors évidents. Leur dashboard est plus mince. Leur SDK a des rugosités. On ouvre un ticket support environ une fois par mois et l'équipe répond, mais on n'est pas dans un tier où un account manager nous rappelle.

Pour une démo marketing, les vendors évidents restent plus faciles. Pour un déploiement régulé en production avec des contraintes dures de latence et de résidence, le tradeoff était clair.

À retenir

Le choix d'un vendor voice AI en 2026 ne tient pas à des listes de features. Il tient à trois chiffres : la latence p50 sous vos vraies conditions réseau, la couverture linguistique mesurée sur la vraie parole de vos clients, et où l'inférence tourne physiquement. Répondez honnêtement aux trois et le choix se fait généralement tout seul.

Insights