Einfach mal umgebaut

Es ist sicherlich nicht die feine Art, über Mitbewerber zu lästern, und es soll auch eine Ausnahme bleiben. Aber was einem unserer Kunden vor wenigen Tagen bei einem anderen Hoster – nennen wir ihn „N“ – passiert ist, ließ mir wirklich die Kinnlade herunterfallen.

Wir haben kein Problem damit, wenn Kunden von uns Server bei anderen Anbietern betreiben und dann nur den Support von uns beziehen. Sicherlich ist das nicht optimal, wenn wir bei echten Problemen keine Möglichkeit haben, z.B. Hardware zu reparieren und auch sonst auf die Debugging-Möglichkeiten des anderen Anbieters angewiesen sind, wenn der Kunde Hilfe braucht, aber wir kommunzieren im Vorhinein klar, was geht und was nicht, so dass es hier eigentlich nie zu Irritationen kommt.

Der Server, den unser Kunde neben einigen anderen bei N hat, machte Probleme. Die genaue Vorgeschichte kennen wir nicht; aus telefonischen Schilderungen konnten wir Unspezifisches entnehmen wie „das Gerät reagiert nur langsam“ (obwohl der Load bei 0 liegt), „Pings gehen mal durch und mal nicht“ … kurz, Symptome, die vieles bedeuten können.

Den Logfiles konnten wir entnehmen, dass der fragliche Server in den letzten Tagen etwa 40 Mal rebootet worden ist – au weia. Wenn ein Reboot ein Problem nicht löst, tut’s ein zweiter in der Regel auch nicht. Aber sei’s drum.

Wir wurden zu Hilfe gerufen, als die Situation die war, dass N dem Kunden mitteilte, den Server rebootet zu haben, der Kunde den Server aber dennoch nicht erreichen konnte. N hat für diese Fälle ein einfaches Schema: Der Server wird in den Rescue-Modus versetzt und dem Kunden das Rescue-Passwort mitgeteilt, damit er sich die Sache selber ansehen kann.

Ich will anmerken, dass ich diese Vorgehensweise – gelinde gesagt – bereits eine Unverschämtheit finde. Der Server ist nämlich ein Mietgerät, das mit von N vorinstallierter Software ausgeliefert wird und ein Webinterface mit sich bringt. Der Kunde hat zu keinem Zeitpunkt am Kernel, an den Netzwerkeinstellungen oder an sonst irgendetwas herumgebastelt, sondern einfach nur Websites über das bereitgestellte Webinterface eingerichtet. Wenn so grundlegende Funktionalität wie die schlichte Erreichbarkeit übers Netzwerk fehlt, ist das aus meiner Sicht daher immer Sache des Anbieters, dies vertragsgemäß bereitzustellen. (Anders sieht der Fall natürlich aus, wenn der Kunde selber ein Betriebssystem installiert oder am bereitgestellten System herumbastelt, zum Beispiel einen anderen Kernel installiert, der nicht funktioniert. Anbieter, die eine solche Freiheit ermöglichen, bieten dann aber typischerweise dafür auch eine Rescue-Konsole. Bei N heißt „Rescue-Modus“, dass man anrufen muss und ein Techniker eine CD einlegt. Von daher muss man auch nochmal anrufen, wenn die CD wieder entfernt werden muss, damit das Gerät normal booten kann. An Rescue außerhalb der Geschäftszeiten ist von daher nicht zu denken.)

Wir hatten nun also Zugang zum Rescue-System des Servers, der nicht mehr per Netzwerk erreichbar war. Die letzte Auskunft des Supports von N lautete: Wir hatten Tastatur und Monitor angeschlossen und konnten verifizieren, dass der Server hochgefahren ist und nun am Login-Prompt steht. Als der Kunde daraufhin anmerkte, dass der Server aber nicht mal per Ping erreichbar wäre, folgte kurzerhand der Rescue-Modus, „damit Sie das wieder in Ordnung bringen können“.

Mein Kollege Matthias brachte mich auf den entscheidenden Punkt: Ich solle mir doch mal die Ausgabe von lspci anschauen; da würde was von einer Intel-Netzwerkkarte stehen. Er meine, sich erinnern zu können, dass da eine RealTek-Karte drin gewesen sei.

Einige Checks in den dmesg-Logfiles später war klar:

Erstens, N hat die Netzwerkkarte ausgetauscht.

Zweitens, N hat dem Kunden aber nicht gesagt, dass sie die Netzwerkkarte ausgetauscht haben.

Drittens, in dem – von N! – installierten Kernel ist überhaupt kein Treiber für die neue Netzwerkkarte vorhanden. Das Gerät kann also überhaupt nicht übers Netzwerk erreichbar sein.

N hat folglich überhaupt nicht geprüft, ob die neue Netzwerkkarte funktioniert. Sie haben es nicht mal geprüft als der Kunde sich explizit darüber beschwerte, dass der Server nicht per Netzwerk erreichbar ist. Stattdessen hat man einfach den Rescue-Modus aktiviert und dem Kunden die Fehlersuche überlassen – wie gesagt, ohne ihm mitzuteilen, dass da jetzt eine ganz andere Netzwerkkarte drinsteckt.

Letztlich konnten wir an dem Problem nicht viel machen, denn der installierte Kernel ist, vorsichtig gesagt, antik. Kurz, für aktuelle Intel-Netzwerkkarten ist da mit einem Treiber nicht viel zu wollen. Unser Support für den Kunden beschränkte sich also eher darauf, ihn darin zu unterstützen, dass N das Problem korrekt löst – und sich vielleicht dann doch auch bitte mal zum Thema „stillschweigend getauschte Netzwerkkarte“ äußern möge.

Das hat N dann schließlich auch getan: Die einzige Möglichkeit sei, einen neuen Kernel zu kompilieren oder die Daten zu sichern und den Server neu aufzusetzen. Offensichtlich war es N aber zu mühselig, einen neuen Kernel zu kompilieren, denn die finale Aufforderung lautete schließlich:

Daher bitten wir Sie, die wichtigen Daten zu sichern, sodass wir den Server neu aufsetzen können. Dies können Sie im Rescuemodus mit dem Programm „WinSCP“ machen, welches so ähnlich funktioniert wie ein ftp-Programm.

Verständlicherweise ist dem Kunden da dann ziemlich der Kragen geplatzt. Immerhin ist bei einem Mietserver die korrekte Funktion der Hardware strikt die Sache des Anbieters, und genauso auch das korrekte Zusammenspiel mit dem ausgelieferten System – sprich, wird die Hardware durch den Anbieter (zumal ohne Rücksprache) verändert, sehe ich es auch als Sache des Anbieters, das installierte Betriebssystem entsprechend anzupassen.

Unnötig zu sagen, dass „die wichtigsten Daten sichern“ nicht einfach ein scp-Befehl gewesen wäre. Immerhin geht es um unterschiedliche Systemuser, deren Daten, Konfigurationsdateien, und schließlich auch noch die Daten der Konfiguration der Web-Administration, von der niemand genau weiß, wo sie liegen und wie man sie so sichern kann, dass man sie woanders wieder einspielen kann. Aber offensichtlich meint N, das manuelle Anlegen von, sagen wir mal, 100 Websites und 1000 E-Mail-Adressen und anschließendes Wiedereinspielen von Backups sei keine Arbeit, das kannman ja mal in der Kaffeepause erledigen.

Nachdem wir den Kunden mit entsprechender Argumentation ausgestattet hatten, war es eine Sache von einer Stunde, bis der Anbieter eine Netzwerkkarte eingebaut hatte, die vom bestehenden Kernel unterstützt wird. Das Gerät läuft seitdem wieder ohne Schwierigkeiten.