Derrière un excellent service client : la fiabilité technique à grande échelle

Un homme devant un mur lambrissé et une citation qui dit « interview avec Stefan Oliwa ».
Auteur
S'abonner à la newsletter
S'abonner
Partager

Chez Fleetondemand, notre engagement à offrir un service client de classe mondiale repose sur une infrastructure technologique à toute épreuve. En coulisses, notre équipe DevOps veille au bon fonctionnement de notre plateforme 24 heures sur 24, 7 jours sur 7, permettant ainsi à nos équipes en contact avec la clientèle d'offrir un service exceptionnel qui nous a valu un score NPS de fidélité client de 75 (où 70+ est considéré comme un score de classe mondiale).  

Nous avons rencontré Stefan Oliwa, notre responsable DevOps, afin de comprendre comment le travail de son équipe dans les domaines de l'infrastructure, de la sécurité et de l'automatisation influe directement sur la fiabilité et la qualité du service dont bénéficient nos clients au quotidien.

Vous occupez le poste de responsable DevOps chez FOD depuis près d'un an maintenant. Parlez-nous de votre rôle et des projets auxquels vous participez actuellement.

En tant qu'ingénieurs en infrastructure, nous sommes des opérationnels, ce qui signifie que nous devons couvrir toutes les situations. Lorsqu'un problème survient ou que quelque chose est endommagé, le principe fondamental de notre travail (ce que j'appelle toujours le « scénario pluvieux ») est le suivant : si quelque chose doit être réparé et que nous repartons de zéro, comment notre infrastructure peut-elle être automatiquement rétablie sans perte de temps ? Les solutions pragmatiques sont essentielles à notre mission.

Nous devons superviser les politiques de sauvegarde, la sécurité sous tous les angles. Lorsque nous utilisons le terme « infrastructure », cela désigne l'ensemble des éléments logiques qui fonctionnent ensemble. Nous supervisons la manière dont un composant fonctionne avec les autres. Nous sommes également DevOps (Development Operations), ce qui signifie que nous sommes au cœur de tout.

Si vous créez un diagramme pour DevOps, vous verrez deux aspects clés. Premièrement, nous améliorons continuellement ce que nous avons construit - nous ne terminons jamais vraiment un travail. Deuxièmement, nous sommes un pont entre des équipes ayant des objectifs différents. Par exemple, l'équipe de développement veut toujours de nouvelles fonctionnalités, c'est son objectif principal.  

Pour les ingénieurs en infrastructure, la stabilité est notre priorité absolue. Nous accordons toujours une importance particulière à la sécurité et à la stabilité. De plus, nous avons des parties prenantes qui souhaitent planifier de nouvelles initiatives, et nous nous efforçons de gérer ces commentaires afin de créer une solution qui réponde à toutes ces exigences.

Si quelque chose doit être réparé et que nous repartons de zéro, comment notre infrastructure peut-elle être automatiquement rétablie sans perte de temps ? Des solutions pragmatiques sont indispensables.

Vous avez récemment été nominé pour notre valeur « Be Disruptive » sur HiBob pour votre travail chez AWS. En quoi cela consistait-il et comment avez-vous transformé notre infrastructure ?

Lorsque j'ai rejoint FOD en novembre dernier, j'ai immédiatement vu des opportunités de moderniser notre infrastructure et d'adopter les meilleures pratiques en matière de cloud natif. Il était question de migrer vers une architecture plus moderne, et lorsque j'ai examiné le plan AWS DevOps, j'ai travaillé en étroite collaboration avec Matt Heald et Dan Metcalfe pour élaborer une feuille de route claire, assortie d'indicateurs spécifiques et de meilleures pratiques bien définies.

L'une des premières opportunités que j'ai identifiées était la mise en place d'une observabilité complète. Auparavant, le dépannage nécessitait un accès manuel au serveur et l'examen des fichiers, ce qui prenait beaucoup de temps. Je savais que nous pouvions faire mieux. La bonne approche consiste à pouvoir accéder à des tableaux de bord, naviguer rapidement dans les systèmes et comprendre ce qui se passe en temps réel.

J'ai construit le premier prototype pour l'observabilité, que nous utilisons désormais quotidiennement avec nos systèmes de surveillance. Pendant les fêtes de Noël, j'ai commencé à élaborer notre plan de migration. En janvier, nous avons conclu qu'il fallait aller de l'avant en nous concentrant sur cet objectif plutôt que d'adopter une approche ad hoc.

Au cours des deux ou trois mois suivants, j'ai élaboré un plan de migration complet, développé notre stratégie de continuité des bases de données et travaillé en étroite collaboration avec Dan, notre directeur de la sécurité de l'information, afin de m'assurer que tout était correctement documenté et mis en place.  

Nous avons mené à bien la migration en seulement huit semaines, ce qui est impressionnant. C'était un projet ambitieux, mais nous l'avons réalisé. Cela a nécessité une mise à jour minutieuse des anciens systèmes et la correction des lacunes de notre infrastructure.  

Nous passerons à notre architecture V2 au début de l'année prochaine, et la production de GT Suite sera entièrement établie sur cette nouvelle architecture.

La bonne approche consiste à pouvoir accéder aux tableaux de bord, naviguer rapidement dans les systèmes et comprendre ce qui se passe en temps réel.

Quel est l'avantage de cette nouvelle infrastructure pour nos équipes ?

Il suffit de vous connecter au système où vous disposez d'un tableau de bord visuel pour explorer vos journaux, qui s'affichent en quelques secondes. J'ai déjà reçu des commentaires indiquant que cette amélioration avait eu un impact très positif pour nous, car elle permettait de lire et de prévisualiser les tests, de mener des expériences et de vérifier facilement les erreurs.

Quand j'ai montré cela à Dave, qui travaille dans le développement back-end, il m'a dit que cela allait changer la donne pour lui et son équipe. C'est pourquoi je me considère comme quelqu'un de disruptif. J'ai pris l'initiative de réaliser au bureau ce dont tout le monde parle et dont tout le monde rêve.  

Comment la fonctionnalité de notre technologie se connecte-t-elle du point de vue du client ? Comment votre travail se connecte-t-il au niveau de service que nos clients reçoivent ?

Du point de vue du client, tout d'abord, si nous rencontrons un problème avec la plateforme, nous pouvons le résoudre en moins de 30 minutes, et non en plusieurs jours ou semaines. Ensuite, si nos clients ont des exigences en matière de stockage des données pour leur région, nous faisons preuve de flexibilité. Nous pouvons recréer l'infrastructure actuelle en une demi-heure, créer tous les composants essentiels et tout avoir prêt en une heure. C'est énorme pour la flexibilité de nos clients.

En plus de cela, il y a la résilience. Nous avons connu quelques situations où quelque chose nécessitait une attention urgente, mais qui s'est résolue d'elle-même. Nos conteneurs se trouvent dans deux centres de données différents qui communiquent 24 heures sur 24, 7 jours sur 7. Lorsque le système a détecté un problème, nous avons automatiquement transféré nos ressources vers l'autre centre de données situé à Londres. Cela s'est déroulé en arrière-plan pendant tout ce temps et nos clients n'ont subi aucune interruption.

Du point de vue du client, commençons par le commencement : si nous rencontrons un problème avec la plateforme, nous pouvons le résoudre en moins de 30 minutes, et non en plusieurs jours ou semaines.

Pourriez-vous expliquer ce que signifie la modularité dans le contexte de notre infrastructure ? Je sais que c'est un aspect important de votre façon de construire les choses.

C'est comme construire avec des blocs Lego. Lorsque nous décrivons une infrastructure aujourd'hui, nous tapons en fait des commandes. C'est ce qu'on appelle « l'infrastructure en tant que code ». Tout est régi par des variables : la puissance requise pour l'instance informatique, la capacité de stockage nécessaire, les adresses IP qui peuvent communiquer entre elles. C'est le type de modularité dont nous parlons.

Il fonctionne également comme un modèle, ce qui vous permet de modifier une partie d'un modèle ou de l'étendre séparément des autres composants. Vous pouvez modifier quelque chose dans une zone sans que cela n'affecte le reste. Cela rend notre infrastructure incroyablement flexible et facile à entretenir.

Les données relatives à la flotte sont hautement confidentielles. Comment garantissons-nous la sécurité des données de nos clients ?

J'ai appris des leçons importantes en matière de sécurité dans le cadre de mon précédent poste auprès d'un responsable du NHS. Je lui ai posé des questions sur la sécurité des données entre médecins généralistes, et il m'a confirmé ce que j'avais toujours pensé : les seules données vraiment sécurisées sont celles qui restent hors ligne et ne sont pas accessibles via Internet.

Cela m'a amené à réfléchir à notre approche en matière de sécurité. Si vous avez besoin d'accéder à quelque chose qui vous permet d'apporter des modifications, cela devrait se faire selon le principe du moindre privilège, avec un temps limité accordé à des personnes spécifiques.  

Ces autorisations nécessitent une authentification robuste, similaire à l'authentification à deux facteurs que vous utilisez pour vous connecter à votre messagerie électronique. Nous avons abandonné l'ancienne méthode de connexion aux serveurs et avons mis en place des protocoles d'authentification appropriés.

Deuxièmement, nous faisons confiance à AWS en matière de sécurité, car cette plateforme offre d'excellentes performances et bénéficie de la confiance des géants technologiques, des institutions financières et des forces armées. Cependant, comme pour toutes les solutions de sécurité, il est nécessaire de surveiller et d'évaluer en permanence ses performances.  

Nous cryptons donc tout ce que nous stockons dans AWS. Chaque composant doit être crypté. Nous créons également autant d'isolation que possible entre les différents systèmes et données.

C'est comme construire avec des blocs Lego. Lorsque nous décrivons une infrastructure aujourd'hui, nous saisissons en fait des commandes. C'est ce qu'on appelle « l'infrastructure en tant que code »... Vous pouvez modifier quelque chose dans un domaine sans que cela affecte tout le reste. Cela rend notre infrastructure incroyablement flexible et facile à entretenir.

Avez-vous des projets pour les 12 prochains mois et des projets à venir ?

Mon objectif principal dans les opérations de développement (et je soutiens cela dans d'autres entreprises également) est d'éviter les situations où un client vient nous voir pour nous signaler une panne. En veillant à ce que cela ne se produise pas, nous atteignons l'un de nos objectifs les plus importants en tant qu'entreprise, à savoir fournir un service fiable et constant.

Netflix est ma source d'inspiration ici. Je me souviens les avoir appelés une fois pour leur signaler un problème. Ils ont répondu en moins de deux minutes et m'ont dit : « Bonjour, Stefan, comment puis-je vous aider ? » Je voulais leur expliquer mon problème avec la télévision, mais ils m'ont dit : « Nous voyons que vous rencontrez un problème avec le temps de chargement. » Ils connaissaient exactement le problème et m'ont immédiatement recommandé une solution.

Ce que je veux dire, c'est que j'adore les situations où un client appelle et où nous pouvons lui dire : « Nous savons que vous rencontrez ce problème, et notre ingénieur est déjà en train de s'en occuper. » Cela fait une énorme différence. Mon objectif est de créer des outils pour le support technique qui leur permettent de voir l'identifiant du client et toutes les erreurs sur le terminal, afin qu'ils soient parfaitement préparés à ce à quoi quelqu'un est confronté et à la manière de le résoudre.

J'envisage même de fusionner cela avec l'IA afin que notre équipe d'assistance technique puisse générer automatiquement des e-mails faciles à comprendre pour les personnes non initiées à la technologie, adaptés à chaque destinataire.

Ce que je veux dire, c'est que j'adore les situations où un client nous appelle et où nous pouvons lui répondre : « Noussavons que vous rencontrez ce problème, et notre ingénieur est déjà en train de s'en occuper. » Cela fait une énorme différence.

Avez-vous beaucoup utilisé l'IA dans votre poste actuel ou dans vos fonctions précédentes ?

L'IA est très en vogue actuellement, mais je m'y intéresse depuis des années. J'ai d'ailleurs développé un grand modèle linguistique qui permettait d'améliorer la qualité des images. Je suis un grand fan de cette technologie, et depuis que NVIDIA a commencé à accélérer son développement, j'ai acheté des accélérateurs et approfondi mes connaissances en IA pendant mon temps libre.

Je me souviens qu'au lycée, mon professeur d'informatique m'avait demandé pourquoi je n'assistais pas à ses cours. Je lui avais répondu qu'il enseignait une matière sans avenir. À la fin de l'année, il m'avait demandé d'apporter quelque chose en classe pour démontrer mes connaissances. Tout le monde pensait que j'allais échouer, mais j'ai obtenu la meilleure note possible. Mon professeur a dit à la classe : « Si quelqu'un remet en question la note de Stefan, je remettrai en question toutes vos notes », car il savait que j'avais réalisé le bon projet.

Je dis la même chose à ma fille, qui a six ans, à propos de l'informatique et des langues traditionnelles. Je vais lui montrer comment utiliser les grands modèles linguistiques et leurs applications. Je veux qu'elle puisse apprendre les technologies de pointe plutôt que ce que je considère comme des technologies anciennes qui ne seront plus utilisables dans dix ans si elle veut devenir informaticienne.

Construire pour l'avenir

Le travail de Stefan démontre comment les infrastructures modernes et les pratiques DevOps permettent directement d'offrir le service client exceptionnel qui caractérise Fleetondemand. En mettant en place des systèmes résilients, sécurisés et automatisés, son équipe veille à ce que notre plateforme offre la fiabilité dont nos clients ont besoin, contribuant ainsi directement à l'excellent score NPS que nous sommes fiers d'avoir obtenu.

Lorsque l'infrastructure fonctionne correctement en arrière-plan, nos équipes en contact avec la clientèle peuvent se concentrer entièrement sur la prestation d'un service exceptionnel. C'est là tout l'intérêt de disposer d'une infrastructure technique adéquate.