Le temps moyen de fonctionnement jusqu¡¯¨¤ la panne, ou MTTF (Mean Time to Failure) est un indicateur qui mesure la dur¨¦e moyenne qui s¡¯¨¦coule avant une panne non r¨¦parable d¡¯un actif technologique donn¨¦ (p¨¦riph¨¦rique, syst¨¨me ou application, par exemple).
Le MTTF aide ¨¤ conna?tre la dur¨¦e de vie moyenne d¡¯un produit, d¡¯un syst¨¨me ou d¡¯un p¨¦riph¨¦rique, y compris les processeurs, les disques durs, les p¨¦riph¨¦riques IoT ou les commutateurs r¨¦seau. Cet indicateur permet ¨¦galement de comparer les performances d¡¯un ancien syst¨¨me et d¡¯un nouveau syst¨¨me, de d¨¦terminer la dur¨¦e de vie ¨¤ attendre du syst¨¨me et de planifier la maintenance.
Le MTTF enregistre une seule panne par actif et calcule la moyenne d¡¯un grand nombre d¡¯actifs sur une longue dur¨¦e. Plus le nombre d¡¯actifs observ¨¦ est ¨¦lev¨¦, plus le MTTF est pr¨¦cis.
MTBF et MTTF?: quel indicateur utiliser??
Le temps moyen de fonctionnement jusqu¡¯¨¤ la panne et le temps moyen de bon fonctionnement (MTBF) sont deux indicateurs temporels qui permettent d¡¯¨¦valuer la performance d¡¯un actif, mais ils s¡¯appliquent ¨¤ des types d¡¯actifs diff¨¦rents.
MTBF et MTTF?: principales diff¨¦rences
Le MTTF est la dur¨¦e moyenne avant qu¡¯un actif ne tombe en panne pour la premi¨¨re et derni¨¨re fois. Il ne s¡¯applique qu¡¯aux ¨¦quipements qui doivent ¨ºtre remplac¨¦s d¨¨s la premi¨¨re panne. Dans ce cas, le probl¨¨me ne peut ¨ºtre corrig¨¦ qu¡¯en changeant l¡¯¨¦quipement. Lorsque le MTTF est atteint, l¡¯actif a atteint le nombre maximal d¡¯heures de fonctionnement.
Le MTBF, de son c?t¨¦, est la dur¨¦e moyenne avant la premi¨¨re d¨¦faillance de l¡¯actif. Autrement dit, il concerne uniquement les ¨¦quipements qui peuvent ¨ºtre r¨¦par¨¦s. Le syst¨¨me ¨¦tant r¨¦parable, il peut retomber en panne, et le MTBF repr¨¦sente la dur¨¦e ¨¦coul¨¦e entre deux d¨¦faillances.
La principale diff¨¦rence entre le MTTF et le MTBF est donc que dans le premier cas, le probl¨¨me ne peut ¨ºtre r¨¦solu qu¡¯en changeant l¡¯¨¦quipement. Avec le MTBF, le probl¨¨me peut ¨ºtre r¨¦solu en r¨¦parant l¡¯¨¦quipement.
Quand utiliser le MTBF
Les ¨¦quipes en charge de l¡¯exploitation et de la fiabilit¨¦ peuvent utiliser le MTBF pour ¨¦valuer la performance de l¡¯¨¦quipement et des syst¨¨mes. En comparant les performances d¡¯¨¦quipements semblables fonctionnant dans des conditions similaires, elles peuvent ¨¦valuer les d¨¦faillances et concevoir des plans de maintenance pr¨¦ventive.?
Par ailleurs, le MTBF est souvent utilis¨¦ pour surveiller la progression des programmes de fiabilit¨¦. Un MTBF en hausse signifie que les syst¨¨mes et les ¨¦quipements deviennent plus fiables.
Comment calculer le MTTF?: Formule pas ¨¤ pas
Pour calculer le MTTF, on fait la somme des dur¨¦es de vie de tous les p¨¦riph¨¦riques ¨¦valu¨¦s et on divise le r¨¦sultat par le nombre de p¨¦riph¨¦riques. La formule g¨¦n¨¦rale est la suivante?:
MTTF = dur¨¦e de vie totale de l¡¯ensemble des p¨¦riph¨¦riques / nombre total de p¨¦riph¨¦riques
Il faut d¡¯abord d¨¦terminer le nombre total de p¨¦riph¨¦riques, puis la dur¨¦e de vie de chacun d¡¯eux. Imaginons par exemple que vous avez trois disques durs similaires dans une configuration RAID et que ces disques durs ont respectivement une dur¨¦e de vie de 3, 4 et 5?ans.
Dans ce cas?:
- Nombre total de p¨¦riph¨¦riques?= 3
- Dur¨¦e totale de fonctionnement?= (3 + 4 + 5) = 12?ans
- MTTF = 12 / 3 = 4?ans
Quels outils sont n¨¦cessaires pour surveiller le MTTF??
On emploie souvent des outils logiciels pour mesurer le MTTF et d¡¯autres indicateurs de fiabilit¨¦.
Ces applications de surveillance, associ¨¦es aux indicateurs, aux journaux et au suivi indispensables ¨¤ l¡¯observation, permettent aux ¨¦quipes d¡¯identifier les probl¨¨mes qui peuvent acc¨¦l¨¦rer la survenue de pannes sur les syst¨¨mes et les composants. Il existe plusieurs outils disponibles en open source ou dans le commerce, parmi lesquels Prometheus, Datadog, Splunk et OpenTelemetry.
Les flux m¨¦tier automatis¨¦s peuvent ¨¦galement aider les ¨¦quipes ¨¤ d¨¦tecter, traiter et r¨¦soudre plus rapidement les probl¨¨mes. L¡¯automatisation permet de signaler un probl¨¨me ¨¤ l¡¯¨¦quipe concern¨¦e, de documenter le probl¨¨me et le processus d¡¯att¨¦nuation et de commander des pi¨¨ces de rechange.
Qu¡¯est-ce qu¡¯un MTTF correct??
Le MTTF est particuli¨¨rement important pour les syst¨¨mes ou les composants dont d¨¦pend l¡¯activit¨¦ de votre entreprise. Plus le MTTF est ¨¦lev¨¦, mieux c¡¯est. Si le MTTF est court, cela signifie que votre syst¨¨me a plus de risques de subir une panne ou un arr¨ºt, ce qui peut influer sur le fonctionnement des applications et la fourniture de services, la satisfaction clients et les recettes.
Comment augmenter le MTTF pour gagner en fiabilit¨¦
Une estimation correcte du MTTF permet d¡¯am¨¦liorer sensiblement la fiabilit¨¦ du syst¨¨me. Si vous savez ¨¤ quel moment une ressource risque de conna?tre une d¨¦faillance, vous pouvez prendre les devants et la remplacer. Il existe d¡¯autres solutions pour augmenter le MTTF afin de renforcer la fiabilit¨¦?:
- Maintenance proactive?: ayez des pi¨¨ces et des ¨¦quipements de rechange ¨¤ disposition pour que les ¨¦quipes puissent effectuer au plus vite les remplacements n¨¦cessaires. Maintenez vos actifs et vos ¨¦quipements en bon ¨¦tat en ¨¦tablissant un programme de remplacement planifi¨¦ et revoyez et am¨¦liorez en permanence vos processus de maintenance pr¨¦ventive.
- Documentation?: si un probl¨¨me survient, documentez-en la cause, les mesures d¡¯identification et toute op¨¦ration de r¨¦solution men¨¦e pour ¨¦viter que le probl¨¨me ne se reproduise.
- Mise en ?uvre de la redondance?: pour optimiser la redondance mat¨¦rielle, utilisez des syst¨¨mes RAID, des commutateurs redondants et d¡¯autres technologies qui r¨¦duiront l¡¯impact des pannes.
Exemples de calcul du MTTF
Voyons quelques exemples de MTTF bas, moyens et ¨¦lev¨¦s pour diff¨¦rents ensembles de p¨¦riph¨¦riques ayant chacun une dur¨¦e de vie pr¨¦vue de 20?000?heures au maximum.
MTTF ¨¦lev¨¦
Le p¨¦riph¨¦rique?1 a une dur¨¦e de vie de 15?000?heures, celle du p¨¦riph¨¦rique?2 est de 19?000?heures, celle du p¨¦riph¨¦rique?3 de 18?000?heures et celle du p¨¦riph¨¦rique?4 de 20?000?heures.
Nombre total de p¨¦riph¨¦riques?= 4
Dur¨¦e totale de fonctionnement?= (15?000 + 19?000 + 18?000 + 20?000) = 72?000?heures
MTTF = 72?000 / 4 = 18?000?heures
MTTF moyen
Le p¨¦riph¨¦rique?1 a une dur¨¦e de vie de 9?000?heures, celle du p¨¦riph¨¦rique?2 est de 11?000?heures, celle du p¨¦riph¨¦rique?3 de 15?000?heures et celle du p¨¦riph¨¦rique?4 de 19?000?heures.
Nombre total de p¨¦riph¨¦riques?= 4
Dur¨¦e totale de fonctionnement?= (9?000 + 11?000 + 15?000 + 19?000) = 54?000?heures
MTTF = 54?000 / 4 = 13?500?heures
MTTF bas
Le p¨¦riph¨¦rique?1 a une dur¨¦e de vie de 10?000?heures, celle du p¨¦riph¨¦rique?2 est de 11?000?heures, celle du p¨¦riph¨¦rique?3 de 8?000?heures et celle du p¨¦riph¨¦rique?4 de 9?000?heures.
Nombre total de p¨¦riph¨¦riques?= 4
Dur¨¦e totale de fonctionnement?= (10?000 + 11?000 + 8?000 + 9?000) = 38?000?heures
MTTF = 38?000 / 4 = 9?500?heures
Qui doit utiliser le MTTF et ¨¤ quel moment??
Le MTTF est un indicateur de fiabilit¨¦ utile dans diff¨¦rents domaines technologiques, notamment la cybers¨¦curit¨¦, la r¨¦ponse aux incidents et les DevOps.
Utilisation du MTTF dans le domaine de la cybers¨¦curit¨¦
Tout incident qui ne correspond pas au comportement habituel du syst¨¨me, par exemple un e-mail suspect ou le t¨¦l¨¦chargement d¡¯un logiciel, constitue un incident de cybers¨¦curit¨¦. Dans certains cas, cet incident sera anodin, dans d¡¯autres il repr¨¦sentera une menace pour le syst¨¨me. Dans le domaine de la cybers¨¦curit¨¦, le MTTF montre que les m¨¦canismes de s¨¦curit¨¦ n¡¯ont pas r¨¦ussi ¨¤ d¨¦jouer une attaque.
Utilisation du MTTF dans le domaine de la r¨¦solution des incidents
La r¨¦solution des incidents permet aux ¨¦quipes informatiques de r¨¦soudre les incidents de s¨¦curit¨¦ comme les cyberattaques r¨¦ussies.
Dans ce domaine, le MTTF indique combien de temps le syst¨¨me infect¨¦ est capable de fonctionner avant de s¡¯arr¨ºter. Il permet ¨¤ l¡¯¨¦quipe de conna?tre le d¨¦lai dont elle dispose pour mettre en place des mesures de basculement ou des mesures de s¨¦curit¨¦ compl¨¦mentaires pour ¨¦viter de nouvelles pertes ou de nouveaux d¨¦g?ts.
Utilisation du MTTF dans le domaine des DevOps
Le suivi du MTTF dans le domaine des DevOps peut aider les ¨¦quipes ¨¤ conna?tre la fiabilit¨¦ du d¨¦ploiement d¡¯un syst¨¨me ou d¡¯applications. Par exemple, le MTTF peut indiquer la dur¨¦e moyenne entre la d¨¦tection d¡¯un d¨¦faut dans un syst¨¨me ou une application et une d¨¦faillance totale. Cela peut aider les ¨¦quipes DevOps ¨¤ se pr¨¦parer aux pannes syst¨¨me.
Le calcul du MTTF et d¡¯autres indicateurs de fiabilit¨¦ pour la s¨¦curit¨¦, la r¨¦solution des incidents et les DevOps requiert d¡¯¨¦normes quantit¨¦s de donn¨¦es en temps r¨¦el et de donn¨¦es historiques. Les outils d¡¯observation et de surveillance n¨¦cessitent un stockage ultrarapide et hautement performant pour accueillir des requ¨ºtes complexes et traiter les donn¨¦es en temps r¨¦el.
É«¿Ø´«Ã½? FlashBlade? est la solution de stockage 100?% flash la plus avanc¨¦e du march¨¦ pour un stockage rapide de fichiers et de donn¨¦es par objets. FlashBlade offre les niveaux de vitesse et de performance n¨¦cessaires pour mesurer pr¨¦cis¨¦ment le MTTF.