Chaos Engineering: la risposta di Mauden per infrastrutture IT resilienti

Il concetto di affidabilità rappresenta una sfida costante per gli IT Manager, che si trovano ad affrontare quotidianamente situazioni che possono causare vere e proprie crisi. Tuttavia, per trovare delle risposte in termini di soluzioni, si fa affidamento su conoscenze teoriche ottenute tramite test o consultando i manuali di prodotto. È innegabile però che queste risposte non soddisfino completamente le reali necessità e non forniscano una rassicurazione completa sul vero grado di resilienza dei sistemi. Nell’era digitale la resilienza delle infrastrutture IT è diventata un requisito essenziale per assicurare ai clienti ed agli utenti servizi di qualità sempre disponibili; requisito da soddisfare per garantire la percezione positiva da parte dei clienti e l’efficienza operativa degli utenti.

E come risponde Mauden alla crescente domanda di affidabilità? Chaos Engineering.

La disciplina di Chaos Engineering e i benefici per le aziende
La disciplina del Chaos Engineering consiste nel valutare la resilienza dei sistemi IT attraverso dei test eseguiti introducendo in maniera controllata situazioni di caos come guasti, sovraccarichi o altri eventi dannosi o distruttivi in grado di generare un incidente e quindi un disservizio.

L’evento viene introdotto nei sistemi IT in maniera controllata e lo sviluppo dell’eventuale incidente è costantemente monitorato in modo tale da eseguire il test in modo sicuro ed a zero impatto sul business. Ulteriore garanzia sulla sicurezza del test è la possibilità di interrompere l’attività in qualsiasi momento ed in modo immediato.

Grazie all’esecuzione del test, i benefici generati sono facilmente misurabili e con un impatto reale sull’affidabilità delle infrastrutture:

● Individuazione dei punti deboli dei sistemi, scoprendo le vulnerabilità prima che generino dei failure dannosi per il business
● Aumento della resilienza con interventi puntuali sulle debolezze dei sistemi, basati su evidenze scientifiche
● Miglioramento della customer experience, accrescendo la disponibilità dei servizi e le performance dei sistemi
● Risparmio dei costi derivanti da eventi dannosi per il business, grazie alla riduzione del down-time dei servizi
● Investimenti IT futuri ponderati, solidamente motivati e correttamente prioritizzati
● Ottimizzazione dell’effort dei team tecnici grazie alla riduzione del tempo di analisi ed alla progressiva eliminazione degli imprevisti e delle emergenze

I test di Chaos e il GameDay
I test condotti da Mauden si rivolgono a diversi potenziali punti deboli delle infrastrutture IT e sono pensati per ricoprire un elevato numero di casistiche concrete e realizzabili, anche se non sempre facilmente prevedibili.

Alcuni esempi dei principali scenari creati per i test di Chaos sono:

● Saturazione della CPU generando alti carichi
● Allocazione di uno specifico carico di RAM per generare la condizione di stress
● Generazione di I/O, per testare la resilienza della memoria
● Scrittura su disco di una data quantità di dati per riempirlo fino ad una quota prefissata
● Shutdown imprevisto di una o più virtual machine
● Modifica dell’orario su NTP server
● Chiusura imprevista di processi
● Diversi incidenti sulla rete: creazione di blackhole, creazione di latenza, perdita di pacchetti, blocco del DNS server

Differentemente ai test di Chaos, il GameDay prevede la creazione di diversi scenari sempre utili per testare la resilienza dei sistemi, mettendo sotto stress le strutture di monitoraggio sistemi e di supporto in modo da misurare la reattività a fronte di un guasto e verificare la pertinenza di processi e documentazione.

Il servizio Mauden
Grazie alla LOB IT Operations, Mauden offre ai propri Clienti, oltre ai servizi precedentemente elencati, supporto consulenziale post-test per realizzare le modifiche alle infrastrutture utili per risolvere gli eventuali problemi emersi durante il test di Chaos Engineering svolgendo servizi professionali per realizzare direttamente i Change necessari grazie anche a personale certificato.

L’attività si articola in diversi passaggi, assicurando l’esecuzione dei test in sicurezza e con successo:

● Predisposizione dello scenario da scatenare, dopo confronto con il Cliente rispetto al servizio che si desidera testare
● Esecuzione del test, comprensiva del presidio del sistema colpito ad ulteriore garanzia di svolgimento in sicurezza dell’evento dannoso
● Conclusioni sul test, producendo reportistica puntuale su quanto registrato durante l’esperimento e indicando eventuali aree di debolezza emerse durante l’esecuzione dello scenario

In conclusione, il Chaos Engineering rappresenta una sfida innovativa per le aziende che desiderano raggiungere e mantenere elevati standard di resilienza delle loro infrastrutture IT e si propone come il partner ideale per il raggiungimento degli obiettivi. Testare sistematicamente l’infrastruttura IT, individuando i punti deboli in modo controllato e sicuro, consente di prepararsi al meglio alle situazioni critiche, oltre che a migliorare la sicurezza e l’affidabilità dei sistemi garantendo al tempo stesso più elevate performance e una positiva percezione dell’esperienza utente.

Abbracciare il Chaos Engineering è un passo strategicamente necessario per i Clienti con alte esigenze di affidabilità dei sistemi; Mauden, che ha sviluppato esperienza e competenza in materia, si propone come il partner ideale per realizzare i più ambiziosi target di continuità operativa e vantaggio competitivo nel mondo digitale, al passo con la continua evoluzione del mondo IT.

Matteo Cassina
Technology Leader IT Operations