Che cos’è un Service Level Agreement (SLA)
Un Service Level Agreement (SLA) è semplicemente un accordo scritto tra un’azienda che fornisce un servizio e il cliente che lo utilizza. Questo documento stabilisce quanto bene deve funzionare il servizio e cosa succede se non rispetta gli standard promessi.
In parole semplici, l’SLA ti dice:
- Quanto tempo il servizio deve essere disponibile (uptime)
- Quanto velocemente deve rispondere
- Cosa ricevi come rimborso se il servizio non funziona come promesso
Che cos’è l’Uptime: Definizione e Importanza
L’uptime rappresenta la percentuale di tempo in cui un servizio informatico è operativo e accessibile agli utenti durante un periodo determinato. È la metrica più importante negli SLA dei servizi cloud e viene sempre espresso come percentuale.
Un uptime del 99,9% significa che il servizio è disponibile per il 99,9% del tempo, mentre lo 0,1% rimanente rappresenta il tempo in cui il servizio non è accessibile (downtime).
Terminologia essenziale per comprendere l’uptime:
- Downtime: Periodo in cui il servizio non è disponibile o non funziona correttamente
- Disponibilità: Termine tecnico equivalente a uptime
- MTBF (Mean Time Between Failures): Tempo medio che intercorre tra un guasto e il successivo
- MTTR (Mean Time To Recovery): Tempo medio necessario per ripristinare il servizio dopo un guasto
Come Calcolare l’Uptime
Formula Base
Uptime (%) = (Tempo Totale - Downtime) / Tempo Totale × 100
Esempi di Calcolo
Esempio 1: Calcolo mensile
- Periodo di riferimento: 30 giorni (720 ore)
- Downtime registrato: 2 ore
- Uptime = (720 - 2) / 720 × 100 = 99.72%
Esempio 2: Calcolo annuale
- Periodo di riferimento: 365 giorni (8.760 ore)
- Downtime registrato: 8 ore
- Uptime = (8.760 - 8) / 8.760 × 100 = 99.91%
Tabella dei Livelli di Uptime Comuni
Uptime % | Downtime annuale consentito | Downtime mensile | Downtime settimanale |
---|---|---|---|
90% | 36,5 giorni | 3 giorni | 16,8 ore |
95% | 18,25 giorni | 1,5 giorni | 8,4 ore |
99% | 3,65 giorni | 7,2 ore | 1,68 ore |
99,5% | 1,83 giorni | 3,6 ore | 50,4 minuti |
99,9% | 8,76 ore | 43,2 minuti | 10,1 minuti |
99,95% | 4,38 ore | 21,6 minuti | 5,04 minuti |
99,99% | 52,56 minuti | 4,32 minuti | 1,01 minuti |
AWS S3 e i suoi SLA: Esempi Pratici di Calcolo Uptime
Amazon S3 (Simple Storage Service) è uno dei servizi di storage cloud più utilizzati al mondo. Analizzare i suoi SLA ci aiuta a comprendere meglio come funzionano questi accordi nella pratica.
SLA di AWS S3 Standard: Cosa Garantisce Amazon
Amazon garantisce per S3 Standard una disponibilità del 99,9% su base mensile. Questo significa che il servizio può essere non disponibile per massimo 43,2 minuti al mese senza violare l’SLA.
Dettagli tecnici dell’SLA S3:
- Disponibilità garantita: 99,9% mensile
- Periodo di misurazione: Mese di calendario
- Definizione di downtime: Quando le richieste HTTP ricevono errori 5xx per più del 5% del tempo in un periodo di 5 minuti consecutivi
- Esclusioni: Manutenzioni programmate, problemi lato cliente, forza maggiore
Esempio Pratico n.1: Calcolo Uptime Mensile S3
Scenario reale: Un’azienda di e-commerce utilizza S3 per memorizzare immagini di prodotti
- Periodo analizzato: Marzo 2024 (31 giorni = 744 ore)
- Downtime registrato: 25 minuti (0,42 ore)
- Calcolo uptime: (744 - 0,42) / 744 × 100 = 99,94%
Risultato: L’uptime del 99,94% è superiore al 99,9% garantito, quindi AWS rispetta l’SLA e non sono dovuti crediti.
Esempio Pratico n.2: Scenario di Violazione SLA
Scenario: Un’app mobile con milioni di utenti subisce un outage prolungato
- Periodo: Febbraio 2024 (29 giorni = 696 ore)
- Downtime totale: 3 ore distribuite in più interruzioni
- Calcolo uptime: (696 - 3) / 696 × 100 = 99,57%
- Costo mensile S3: €2.500
Analisi della violazione:
- Uptime effettivo: 99,57%
- SLA garantito: 99,9%
- Differenza: -0,33% (SLA violato)
Sistema di Crediti AWS: Come Funzionano i Rimborsi
Quando AWS non rispetta gli SLA, fornisce automaticamente dei crediti di servizio secondo questa tabella:
Uptime mensile raggiunto | Percentuale di credito | Esempio su €1.000 |
---|---|---|
≥ 99,0% ma < 99,9% | 10% | €100 di credito |
< 99,0% | 25% | €250 di credito |
Nell’esempio precedente:
- Uptime: 99,57% (rientra nella fascia ≥ 99,0% ma < 99,9%)
- Credito dovuto: 10% di €2.500 = €250
- Questo credito viene applicato automaticamente nella fatturazione successiva
Come AWS Calcola il Downtime
AWS considera “downtime” quando:
- Le richieste HTTP GET, PUT, POST, DELETE ricevono errori del server (codici 5xx)
- Questi errori si verificano per più del 5% delle richieste
- Il problema persiste per almeno 5 minuti consecutivi
- Non è causato da problemi dell’infrastruttura del cliente
Importante: Problemi di rete del cliente, errori 4xx (errori client), o manutenzioni programmate non contano come downtime ai fini dell’SLA.
Monitoraggio Uptime e Best Practices
Strumenti di Monitoraggio Generici
- Servizi cloud commerciali: Pingdom, UptimeRobot, StatusPage.io, Datadog per monitoraggio esterno
- Tool open source: Nagios, Zabbix, Prometheus + Grafana, Icinga2 per monitoraggio self-hosted
- Soluzioni ibride: CheckMK, LibreNMS, Cacti per ambienti misti
- Dashboard di sistema: Interfacce del provider cloud per visualizzare lo status dei servizi
- Notifiche automatiche: Alert via email, SMS, Slack o webhook quando si verificano problemi
- Log analysis: ELK Stack (Elasticsearch, Logstash, Kibana) o Graylog per analizzare i log e identificare pattern
Best Practices per Massimizzare l’Uptime
- Ridondanza geografica: Distribuire i servizi su più datacenter o regioni
- Backup automatici: Implementare copie di sicurezza automatiche e regolari
- Monitoring proattivo: Impostare alert prima che i problemi diventino critici
- Load balancing: Distribuire il carico su più server per evitare sovraccarichi
- Disaster recovery plan: Avere un piano di ripristino testato e documentato
- Health checks: Verifiche automatiche dello stato dei servizi
- Maintenance windows: Pianificare aggiornamenti durante orari di basso traffico
Conclusioni: Perché SLA e Uptime Sono Importanti
Gli SLA e l’uptime non sono solo numeri tecnici, ma elementi che influenzano direttamente il successo del business.
Perché sono importanti:
- Ti permettono di scegliere il servizio cloud più affidabile confrontando i dati reali
- Ti aiutano a capire quanto spesso il tuo sito o app potrebbe essere offline
- Ti garantiscono un rimborso se il servizio non funziona come promesso
- Ti danno la sicurezza di poter pianificare il tuo business con maggiore tranquillità
In pratica: Se il tuo e-commerce è offline per 4 ore al mese, potresti perdere migliaia di euro in vendite. Un SLA del 99,9% ti garantisce che questo non succederà più di 43 minuti al mese, e se succede, riceverai un rimborso.
La regola d’oro è semplice: scegli sempre servizi con SLA chiari e trasparenti, e tieni sempre sotto controllo l’uptime dei tuoi sistemi critici.