Guida SLA e Uptime per Principianti

Che cos’è un Service Level Agreement (SLA)

Un Service Level Agreement (SLA) è semplicemente un accordo scritto tra un’azienda che fornisce un servizio e il cliente che lo utilizza. Questo documento stabilisce quanto bene deve funzionare il servizio e cosa succede se non rispetta gli standard promessi.

In parole semplici, l’SLA ti dice:

  • Quanto tempo il servizio deve essere disponibile (uptime)
  • Quanto velocemente deve rispondere
  • Cosa ricevi come rimborso se il servizio non funziona come promesso

Che cos’è l’Uptime: Definizione e Importanza

L’uptime rappresenta la percentuale di tempo in cui un servizio informatico è operativo e accessibile agli utenti durante un periodo determinato. È la metrica più importante negli SLA dei servizi cloud e viene sempre espresso come percentuale.

Un uptime del 99,9% significa che il servizio è disponibile per il 99,9% del tempo, mentre lo 0,1% rimanente rappresenta il tempo in cui il servizio non è accessibile (downtime).

Terminologia essenziale per comprendere l’uptime:

  • Downtime: Periodo in cui il servizio non è disponibile o non funziona correttamente
  • Disponibilità: Termine tecnico equivalente a uptime
  • MTBF (Mean Time Between Failures): Tempo medio che intercorre tra un guasto e il successivo
  • MTTR (Mean Time To Recovery): Tempo medio necessario per ripristinare il servizio dopo un guasto

Come Calcolare l’Uptime

Formula Base

Uptime (%) = (Tempo Totale - Downtime) / Tempo Totale × 100

Esempi di Calcolo

Esempio 1: Calcolo mensile

  • Periodo di riferimento: 30 giorni (720 ore)
  • Downtime registrato: 2 ore
  • Uptime = (720 - 2) / 720 × 100 = 99.72%

Esempio 2: Calcolo annuale

  • Periodo di riferimento: 365 giorni (8.760 ore)
  • Downtime registrato: 8 ore
  • Uptime = (8.760 - 8) / 8.760 × 100 = 99.91%

Tabella dei Livelli di Uptime Comuni

Uptime % Downtime annuale consentito Downtime mensile Downtime settimanale
90% 36,5 giorni 3 giorni 16,8 ore
95% 18,25 giorni 1,5 giorni 8,4 ore
99% 3,65 giorni 7,2 ore 1,68 ore
99,5% 1,83 giorni 3,6 ore 50,4 minuti
99,9% 8,76 ore 43,2 minuti 10,1 minuti
99,95% 4,38 ore 21,6 minuti 5,04 minuti
99,99% 52,56 minuti 4,32 minuti 1,01 minuti

AWS S3 e i suoi SLA: Esempi Pratici di Calcolo Uptime

Amazon S3 (Simple Storage Service) è uno dei servizi di storage cloud più utilizzati al mondo. Analizzare i suoi SLA ci aiuta a comprendere meglio come funzionano questi accordi nella pratica.

SLA di AWS S3 Standard: Cosa Garantisce Amazon

Amazon garantisce per S3 Standard una disponibilità del 99,9% su base mensile. Questo significa che il servizio può essere non disponibile per massimo 43,2 minuti al mese senza violare l’SLA.

Dettagli tecnici dell’SLA S3:

  • Disponibilità garantita: 99,9% mensile
  • Periodo di misurazione: Mese di calendario
  • Definizione di downtime: Quando le richieste HTTP ricevono errori 5xx per più del 5% del tempo in un periodo di 5 minuti consecutivi
  • Esclusioni: Manutenzioni programmate, problemi lato cliente, forza maggiore

Esempio Pratico n.1: Calcolo Uptime Mensile S3

Scenario reale: Un’azienda di e-commerce utilizza S3 per memorizzare immagini di prodotti

  • Periodo analizzato: Marzo 2024 (31 giorni = 744 ore)
  • Downtime registrato: 25 minuti (0,42 ore)
  • Calcolo uptime: (744 - 0,42) / 744 × 100 = 99,94%

Risultato: L’uptime del 99,94% è superiore al 99,9% garantito, quindi AWS rispetta l’SLA e non sono dovuti crediti.

Esempio Pratico n.2: Scenario di Violazione SLA

Scenario: Un’app mobile con milioni di utenti subisce un outage prolungato

  • Periodo: Febbraio 2024 (29 giorni = 696 ore)
  • Downtime totale: 3 ore distribuite in più interruzioni
  • Calcolo uptime: (696 - 3) / 696 × 100 = 99,57%
  • Costo mensile S3: €2.500

Analisi della violazione:

  • Uptime effettivo: 99,57%
  • SLA garantito: 99,9%
  • Differenza: -0,33% (SLA violato)

Sistema di Crediti AWS: Come Funzionano i Rimborsi

Quando AWS non rispetta gli SLA, fornisce automaticamente dei crediti di servizio secondo questa tabella:

Uptime mensile raggiunto Percentuale di credito Esempio su €1.000
≥ 99,0% ma < 99,9% 10% €100 di credito
< 99,0% 25% €250 di credito

Nell’esempio precedente:

  • Uptime: 99,57% (rientra nella fascia ≥ 99,0% ma < 99,9%)
  • Credito dovuto: 10% di €2.500 = €250
  • Questo credito viene applicato automaticamente nella fatturazione successiva

Come AWS Calcola il Downtime

AWS considera “downtime” quando:

  1. Le richieste HTTP GET, PUT, POST, DELETE ricevono errori del server (codici 5xx)
  2. Questi errori si verificano per più del 5% delle richieste
  3. Il problema persiste per almeno 5 minuti consecutivi
  4. Non è causato da problemi dell’infrastruttura del cliente

Importante: Problemi di rete del cliente, errori 4xx (errori client), o manutenzioni programmate non contano come downtime ai fini dell’SLA.

Monitoraggio Uptime e Best Practices

Strumenti di Monitoraggio Generici

  • Servizi cloud commerciali: Pingdom, UptimeRobot, StatusPage.io, Datadog per monitoraggio esterno
  • Tool open source: Nagios, Zabbix, Prometheus + Grafana, Icinga2 per monitoraggio self-hosted
  • Soluzioni ibride: CheckMK, LibreNMS, Cacti per ambienti misti
  • Dashboard di sistema: Interfacce del provider cloud per visualizzare lo status dei servizi
  • Notifiche automatiche: Alert via email, SMS, Slack o webhook quando si verificano problemi
  • Log analysis: ELK Stack (Elasticsearch, Logstash, Kibana) o Graylog per analizzare i log e identificare pattern

Best Practices per Massimizzare l’Uptime

  1. Ridondanza geografica: Distribuire i servizi su più datacenter o regioni
  2. Backup automatici: Implementare copie di sicurezza automatiche e regolari
  3. Monitoring proattivo: Impostare alert prima che i problemi diventino critici
  4. Load balancing: Distribuire il carico su più server per evitare sovraccarichi
  5. Disaster recovery plan: Avere un piano di ripristino testato e documentato
  6. Health checks: Verifiche automatiche dello stato dei servizi
  7. Maintenance windows: Pianificare aggiornamenti durante orari di basso traffico

Conclusioni: Perché SLA e Uptime Sono Importanti

Gli SLA e l’uptime non sono solo numeri tecnici, ma elementi che influenzano direttamente il successo del business.

Perché sono importanti:

  • Ti permettono di scegliere il servizio cloud più affidabile confrontando i dati reali
  • Ti aiutano a capire quanto spesso il tuo sito o app potrebbe essere offline
  • Ti garantiscono un rimborso se il servizio non funziona come promesso
  • Ti danno la sicurezza di poter pianificare il tuo business con maggiore tranquillità

In pratica: Se il tuo e-commerce è offline per 4 ore al mese, potresti perdere migliaia di euro in vendite. Un SLA del 99,9% ti garantisce che questo non succederà più di 43 minuti al mese, e se succede, riceverai un rimborso.

La regola d’oro è semplice: scegli sempre servizi con SLA chiari e trasparenti, e tieni sempre sotto controllo l’uptime dei tuoi sistemi critici.