Von Sascha Laufenberg, Christoph Goldenstern (Kepner-Tregoe)  

Ein menschlicher Fehler - ein sehr simpler - war ursächlich für einen verheerenden IT-Ausfall bei British Airways am 27.Mai 2017, bei dem mehr als 400 Flüge gestrichen werden mussten und 75.000 Passagiere betroffen waren. Ein Techniker hatte in einem Rechenzentrum kurzzeitig die Stromversorgung unterbrochen. Als der Strom wiederhergestellt wurde, hat eine Überspannung zu beträchtlichen Schäden geführt. Folgekosten für die Fluggesellschaft: kolossale 80 Millionen Pfund (etwa 93 Millionen Euro)!      

Das hört sich nach viel Geld an, und das ist es auch, aber es ist nichts Ungewöhnliches. In einer Statista-Umfrage von 2019 gaben etwa 25% der befragten Firmen an, dass ihre stündlichen Kosten für einen Serverausfall bei zwischen 301,000 und 400,000 U.S. Dollar liegen. 

 

 

Die IT Outage Studie von 2019 legt dar, dass typische Organisationen in den letzten drei Jahren 10 Brownouts (Infrastruktur oder Software performt unterdurchschnittlich) oder Ausfälle hatten. Diese 10 Incidents können akkumuliert schnell mal in die Millionen gehen. Es überrascht daher nicht, dass 80% aller befragten Firmen angaben, dass die Performance und Verfügbarkeit ihrer IT Infrastruktur sehr hoch auf der Prioritätenliste steht. 

Und so schön es auch wäre, IT Incident-Management automatisieren zu können, so gilt immer noch:

„Incident response needs people, because successful incident response requires thinking“ (Bruce Schneier, in seinem Blog: Schneier on Security, von 2014. 

Was daher ausschlaggebend ist, ist ein IT (Major) Incident-Management Team mit klar definierten Rollen und Verantwortlichkeiten, die einen krisenerprobten Entstörungsprozess verwenden und gleichzeitig effektiv mit Managern, Kunden und Experten kommunizieren. 

Etwa die Hälfte aller Befragten in der SANS Umfrage behaupten, dass Mitarbeiterengpässe und fehlende Fähigkeiten die größten Herausforderungen im Umgang mit effektiver Entstörung von Incidents darstellen.

„Aufgrund von mangelnden Investitionen in Training, dem Versagen Strategien richtig zu implementieren, veralteten Abläufen, und dem Unterschätzen der Wichtigkeit von qualifiziertem Personal, begünstigt das Management Umstände, die zu einem IT Ausfall führen“, schreibt Kevin Heslin, Chefredakteur vom Uptime Institute Journal in einem Blog von September 2019 zu den Ergebnissen der Umfrage. 

Kepner-Tregoe hilft Incident Management Teams dabei, effektiv auf Incidents reagieren zu können. Um das Handling von Incidents dabei nachhaltig zu verbessern ist ein integrierter Ansatz sinnvoll, mit dem sichergestellt wird, dass neu erworbene Fähigkeiten auch langfristig Anwendung finden. Der integrierte Kepner-Tregoe Ansatz umfasst dabei vier Punkte: 

  1. Training
  2. Coaching
  3. Prozessintegration
  4. Aufsetzung von einem Performance System

Im Training – auf die jeweilige Funktion zugeschnitten – werden die KT Prozesse vermittelt, die einen roten Faden darstellen, mit dem man (abgekoppelt von der Technologie) schnell und strukturiert zur Lösung des Incidents kommt. Ein Beispiel von einem initialen Training wäre die Ausbildung in KT Problem- & Incident-Management

Im Anschluss folgt die Coaching-Phase, in der Teilnehmer On-the-Job gecoached werden. Entweder erfolgt das Coaching durch einen KT Consultant oder durch speziell in dem Unternehmen ausgebildete Coaches. Dadurch wird das Erlernte gefestigt und eine Brücke zwischen dem Workshop und der Anwendung im Job geschaffen.

Parallel zum Training & Coaching werden die KT Prozesse in eigene Arbeitsabläufe integriert. Somit wird sichergestellt, dass KT nicht außerhalb des Prozesses steht und unter Umständen als Mehrarbeit wahrgenommen wird.
Zur selben Zeit wird an einem Performance-System gearbeitet, welches eine Anwendung des KT Prozesses begünstigt. Es werden entsprechend Erwartungen gesetzt und aktive Unterstützung vom Management gefordert.

Mit diesem Ansatz konnte z.B. Vodafone die durchschnittliche Entstörungszeit für Major Incidents um 64% verringern

Mit zunehmender Komplexität wird es immer wichtiger, ein gemeinsames Vorgehen zu haben, welches abgekoppelt von der Technologie steht. Verhelfen Sie Ihrem Incident-Team zu nachhaltiger Erstklassigkeit!  Sprechen Sie uns gerne an