Cet article traite du premier et plus important indicateur de performance clé (KPI) dont chaque équipe informatique et entreprise devrait se soucier : les heures de fonctionnement perdues.
Définition: Le nombre d'heures pendant lesquelles l'entreprise ne « fonctionne pas » en raison de services informatiques indisponibles.
Objectif: Maintenir la perte d’heures de fonctionnement au strict minimum.
La plupart des équipes informatiques surveille la disponibilité des services pour obtenir la performance globale de leurs services d'assistance informatique. Mais les pertes commerciales ne sont pas toujours liées aux niveaux de disponibilité des services, même lorsque ces niveaux sont élevés. Par exemple, si la disponibilité du service est de 99,9%, l'entreprise perd plus de huit heures par an. Le suivi des heures de fonctionnement perdues met clairement en évidence les pertes associées et les impacts sur les entreprises.
Etude de cas: interdiction de voler pour la compagnie Virgin Blue
En Septembre 2010, Virgin Blue a fait face à ce qui pourrait être considéré comme le pire cauchemar de chaque compagnie aérienne. Environ 50.000 clients et 100 vols ont été cloués au sol. Quatre cents autres vols ont été retardés ou reportés au cours des jours suivants, car l'infrastructure hébergeant les disques de données utilisés par les applications de Virgin Blue est tombée en panne. Ceci a affecté le système d’enregistrement et de réservation en ligne de Virgin Blue.
Malgré les SLA pour rétablir les services immédiatement, il a fallu 11 heures pour que le service soit restauré, et 10 autres heures pour que les opérations de restauration soient terminées. L’incident a été causé suite à une tentative de réparation d'un appareil défectueux, qui retardait la commutation vers une plateforme matérielle d'urgence. Le mal était déjà fait. Bien que ces 11 heures ne coûtent pas grand chose en termes de disponibilité du service informatique de Virgin Blue sur l'année, elles ont coûté à Virgin Blue environ 10 millions de dollars en termes de perte d'activité.
Une enquête menée par le groupe Aberdeen en 2013 a révélé ce qui suit:
Conseils pour minimiser la perte d’heures de fonctionnement :
- Une bonne planification et exécution des mises à jour applicatives, des migrations de serveur et de tout autre processus de mise en œuvre du changement IT.
- Avoir une CMDB maintenue afin d’identifier les points de défaillance critiques et les interactions entre les CI sur le réseau pour identifier l'impact en cascade des changements ayant échoué.
- Eduquer les équipes informatiques sur les risques liés à la violation de SLA en termes de perte de productivité et de revenus.
- Avoir un aperçu sur l'anticipation et la prise en compte des pannes en évaluant la performance du service d'assistance informatique
Cela dit, un grand nombre de facteurs pourrait contribuer négativement à la perte d’heures de fonctionnement. En 2010, Gartner prévoit que « Jusqu'en 2015, 80% des pannes impactant les services critiques sera causé par des personnes et des problèmes de processus, et plus de 50% des pannes seront causées par des problèmes d’intégration d’un changement, d’une configuration ou d’une nouvelle version logicielle".