Serverwartung für Kollegen

Philipp und ich haben diese Woche das Vergnügen mit zwei Servern eines Kollegen bekommen. Unsere Aufgabe war im grunde ganz einfach.
Zu machen war:
– Server ausbauen
– Reset iLO Board + neues Passwort vergeben
– Lizenz für iLO Board einspielen
– Upgrade iLO Firmware
– Upgrade Bios
– Upgrade RAID-Controller
– RAID 1 aus 2x 146 GB SAS Festplatten bauen
– RAID 5 aus 3x 5TB SATA Festplatten bauen
– Quad-Port Netzwerkkarte ausbauen
– 10 GBit Netzwerkkarten einbauen
– Debian Minimalinstallation
– Netzwerkkonfiguration für externes Netzwerkinterface (1 GBit)
– Netzwerkkonfiguration für internes Netzwerkinterface (10 GBit)
– Server einbauen
Ich dachte nicht, dass es einfach wird, aber auch nicht, dass es so Zeitintensiv wird. Nachdem wir die Server dann ausgebaut auf dem Tisch liegen hatten, schlossen wir unsere Monitore und Tastaturen an. Als wir dann den Strom anschalteten, ging der Server in den Standby-Leerlauf. In diesem ‘Modus’ liefen die Lüfter schon langsam an. Zuerst war ich überrascht. Einer von diesen Servern ist, im Standby, schon so laut wie mein Gaming-PC, wenn er unter Volllast läuft.
Nun war es an der Zeit uns mal die Software genauer anzuschauen. Wir mussten rausfinden, auf welcher Version das BIOS, das iLO und der RAID-Controller momentan laufen. Nachdem wir das herausgefunden hatten, suchten wir nach den passenden Updates im Internet. Wie wir es gewohnt waren, haben wir mit unserer Suche nach Updates, bei der Herstellerseite angefangen. Wer sich jetzt denkt, “Modellnummer oder Modellbezeichnung suchen und Downloaden”, liegt hiermit allerdings falsch. Wir haben etwa drei Stunden damit verbracht, herauszufinden welches vorgeschlagene Update denn nun das richtige ist und wie man dieses dann Einspielen muss. Die Größe der Updatedatei, belief sich auf sieben Megabyte. Für uns waren normale Updategrößen irgendwo zwischen 500 Megabyte und 1,5 Gigabyte, weswegen wir auch unter großer Verwunderung die heruntergeladene Updatedatei mehrmals überprüften. Nachdem uns unser Ausbilder mitteilte, dass der Server nur noch als “lauter Türstopper” benutzt werden kann, wenn man eine falsche Firmware-Version installiert, bekamen wir nochmehr Angst etwas kaputt zu machen. Bei einer weiteren Überprüfung stellten wir dann fest, dass die Datei, ein einfaches Shell-Script war. Mit einem USB-Stick haben wir dann innerhalb von Sekunden die Updates installiert.
Nachdem wir dann die Firmware-Updates fertiggestellt hatten, galt es die Hardwareteile einzubauen. Wir sollten sechs 5TB HDD Platten und zwei 10 GBit Netzwerkkarten einbauen. Zusätzlich sollten wir auch die vorhandene Quad-Port Netzwerkkarte ausbauen. Philipp schrieb die Seriennummer der einzubauenden HDD Platten auf und ich baute diese dann letztendlich ein.
Jetzt stand noch die iLO Lizenz aktivierung und die RAID-Controller konfiguration an. Das alles ließ sich ganz einfach beim Boot einstellen. Während wir diese Einstellungen vornahmen, hat uns unser Ausbilder noch erklärt was RAID ist und was man damit machen kann. Nun da wir die nötigen Einstellungen vorgenommen hatten, mussten wir nur noch eine Debian 9 Minimalinstallation durchführen und die Netzwerkkarten konfigurieren. Die OS installation war total schnell fertig. Für die Konfiguration der Netzwerkkarten, haben wir in der Konfigurationsdatei (/etc/network/interfaces) die Netzwerkkarte eingetragen und eine statische IP-Adresse vergeben.
Das Projekt hat mir sehr viel Spaß gemacht. Ich freue mich schon sehr darauf, mal wieder mit der Hardware arbeiten zu dürfen.

OMSA Issues, Solutions and xkcd

All of our Dell Servers are managed via OMSA, so we can easily tackle most of the occurring hardware issues.
The aim of this blogpost is to prepare a comprehensive list addressing the most common obstacles we did run into so far. This list is sorted by my personal preferences and, of course, by no means complete. Please excuse my paint skills as well.
Please note: We‘re mostly running some kind of Linux on our Servers, some solutions might work for Windows, too. Also root access and the current OMSA version are implied.
Most of the following issues can be resolved by merely scheduling a 4 hour downtime, upgrading kernel, BIOS, firmware and several reboots and prolonged downtimes later, you may be greeted by the OMSA webinterface. Yay. Of course this is not a suitable way to go for simply generating an HDD report for warranty purposes.
Let‘s dive into the list:
ERR_CONNECTION_REFUSED
Please ensure that all OMSA related processes are running correctly. Simply ssh to your machine and run “srvadmin-services.sh status” (in this case located at /opt/dell/srvadmin/sbin)

The srvadmin-services script is a convenient tool to check the processes. It can also be used to restart the processes in the correct order.

Cryptic Symbols

You were not using SSL. Please use “https” to connect to your server.
Error code: SSL_ERROR_WEAK_SERVER_EPHEMERAL_DH_KEY

You were now using SSL and, presumably, Firefox. This is an issue everybody will be facing in the future. Just a quick workaround and not really a solution: Chrome works for me (as of Dec 27).
There will be a follow up/recap to this issue, very likely in a separate and more detailed post.
Browser type is not supported:

Simply wait or hit „Try Again“
Can‘t login:
When you‘re using IPMI as well, you may have configured different user for different tasks. OMSA works differently, so by default you have to login as „root“, using the root password of the OS running on this server.
500 internal Server Error, java.lang.NoClassDefFound :
Ah, this one was tricky. In our case, this issue boiled down to the sysadmin obsession: uptime.

by xkcd.com


We tried everything, from simply restarting the services by hand in multiple order, reinstalling the binaries to even looking for help at the support forums, with the expected outcomes:

by xkcd.com


During the long uptime of the machine, some old processes of the OMSA services kept running and could not be killed by srvadmin-services. With a simple “ps aux | grep dsm_” and fearless killing the found processes (some /etc/init.d/ related) via “pkill -9 -f dsm_” and restarting via srvadmin-services, we could finally access the Webinterface again.
Other admins may have different issues and different solutions respectively.
 
 

Tim Albert
Tim Albert
System Engineer

Tim kommt aus einem kleinen Ort zwischen Nürnberg und Ansbach, an der malerischen B14 gelegen. Er hat in Erlangen Lehramt und in Koblenz Informationsmanagement studiert, wobei seine Tätigkeit als Werkstudent bei IDS Scheer seinen Schwenk von Lehramt zur IT erheblich beeinflusst hat. Neben dem Studium hat Tim sich außerdem noch bei einer Werkskundendienstfirma im User-Support verdingt. Blerim und Sebastian haben ihn Anfang 2016 zu uns ins Managed Services Team geholt, wo er sich nun insbesondere...

Nicht noch ein S.M.A.R.T. Check …

… es gibt doch schon so viele davon! JA das dachte sich mein Kollege der Achim Ledermüller auch und bat mich doch vor ca. Zwei Wochen, ich solle Ihm einen Check für SSD Platten (für sein Ceph-Projekt) in Unser Monitoring einbauen. Was grundsätzlich mit Checks von der monitoringexchange.org Platform abgedeckt wird hat meinen Kollegen nicht zufriedenstellen können, seine Anforderungen lauteten wie folgt:

S.M.A.R.T. Werte der SSDs zuverlässig überprüfen.
– Mindestens MWI.
– Recherchieren welche Werte sonst aussagekräftig sind!

Die Freunde von Thomas-Krenn haben sich wohl das Gleiche gedacht und auch so ein Plugin gebaut. Da wir aber nur hier bei Uns ziemlich pingelig sind was den Umfang so wie Portabilität an Software (seien es auch nur Plugins) angeht, habe ich mich kurzerhand dazu entschieden ein neues Plugin auf Basis des schon Vorhanden zu schreiben.
Lange rede kurzer Sinn, “check_smartvalues” wurde geboren und deckt eigentlich alles ab, was man sich bei anderen S.M.A.R.T. -Checks so Wünscht und noch viel mehr ( mehr möchte Ich allerdings noch nicht verraten 🙂 ).
Da ich derzeit einen großen namhaften Kunden in Bezug auf das am Ende des Jahres kommende Icinga2 & Icingaweb2 betreue, wollte ich auch Euch die Ansicht der neuen Web-UI nicht vorenthalten. Hier mal ein Bild …

lx-ssd-smart-icingaweb2-longoutput

Der Longoutput der Plugins im neuen Icingaweb2, mit hübschen Kuchen Diagrammen.

Im derzeit noch vielerorts Installiertem “inGraph” für Icingaweb1, sieht die ganze Sache natürlich auch sehr schön aus

mwi

Der “Media Wearout Indicator” hier im “inGraph-Icingaweb1” über eine Zeitschiene von einem Monat mit einem Scalefactor bei 90% ( sonst würde man halt nix Sehen ).


und weil ich Persönlich ein großer Fan des neuen Icingaweb2 bin, und diese HTML5 Kuchendiagramme einfach liebe, hier nochmal eine Nah-Ansicht des “Media Wearout Indicator” …
mwi-icinga2

hier der “Media Wearout Indicator” in Groß, man sieht auch sehr schön, das die Platte (eine Intel 530 SSD hinter dem MegaRaid LSI mit DeviceID 22 ), nach eben nur 4 Wochen Lifetime doch schon sehr geschruppt wurde.


Das Plugin ist derzeit noch im Testing, bei Uns hier im Monitoring allerdings schon mal Live da mein Kollege eben auch sehr für Graphen zu begeistern ist. Es bezieht seine Daten sowie auch die Konfiguration für Schwellewerte aus einer JSON-Datenbank, das ganze sieht dann in etwa so aus …
lx-ssd-database
Sobald den die Letzten Tests abgeschlossen sind werden ich den Check auf der neuen Icinga Exchange Plattform zum Download anbieten.
Im übrigen, das Plugin ist in seiner Grundfunktion schon als Multicheck ausgelegt, so viel möchte ich an dieser Stelle nun doch schon mal verraten. 😉
Macht euch auf was gefasst …
 

Weekly Snap: DevOps Days Berlin & OSDC, Icinga 2 & Jabber

weekly snap14 – 18 July brought event news from OSMC and DevOps Days Berlin, as well as guides to RAID and Icinga 2 notifications with Jabber.
Eva counted 134 days to the OSMC with Sven Nierlein’s talk on the Thruk monitoring GUI.
She then went on to announce our participation at this year’s DevOps Days Berlin, as part of the organizing team.
Finally Gunnar followed with his script to send Icinga 2 notifications via Jabber, and Tobias shared a couple educational, yet amusing videos on RAID levels.

RAID-Level-Guide

Ich bin mir sicher, dass viele von euch nicht wirklich Bedarf für eine Erklärung der RAID-Level haben. Durch Zufall bin ich aber auf ganz unterhaltsame Videos bei Youtube gestoßen, welche die Thematik sehr schön erklärt. Dies möchte ich euch natürlich nicht vorenthalten.

Tobias Redel
Tobias Redel
Head of Professional Services

Tobias hat nach seiner Ausbildung als Fachinformatiker bei der Deutschen Telekom bei T-Systems gearbeitet. Seit August 2008 ist er bei NETWAYS, wo er in der Consulting-Truppe unsere Kunden in Sachen Open Source, Monitoring und Systems Management unterstützt. Insgeheim führt er jedoch ein Doppelleben als Travel-Hacker, arbeitet an seiner dritten Millionen Euro (aus den ersten beiden ist nix geworden) und versucht die Weltherrschaft an sich zu reißen.

Schorsch erzählt: Ausbildung erfolgreich abgeschlossen


Lange ist es her, aber nun bin ich zurück – mit guten Nachrichten. Heute hatte ich nun meine letzte Prüfung – es war die mündliche Praxisprüfung zu meinem Projekt und ein Fachgespräch zu allgemeinen Ausbildungsthemen. Mein Projekt war die “Integration einer Backuplösung bei einem Kunden der NETWAYS GmbH”. Darin enthalten war die Auswahl und Beschaffung eines Systems, die Einrichtung und Installation des Raid, Netzwerkes und Betriebssystems, sowie natürlich die komplette Einrichtung einer Backupumgebung mit Bacula – auch das Einbinden von den Clients und die Einrichtung eines Webinterfaces war im Projekt inbegriffen.
Für das Setup sollte ich eine Dokumentation in 20-Seitiger Länge und 6-facher Ausfertigung der IHK bereitstellen, dies geschah jedoch schon vor 6 Wochen. Heute war also nur die Präsentation zur Ergänzung der Dokumentation und das Fachgespräch.
Es sind viele Projektbezogene Fragen gewesen, aber auch allgemein zu IT und auch Wirtschaft – denn wer hat es geahnt; der Fachinformatiker ist ein kaufmännischer Beruf. Nach gut 45 Minuten Präsentation und Fachgespräch bekam ich das OK von den Prüfern und konnte meine Sachen wieder zusammen packen. Kurz danach habe ich erfahren, dass ich meine Prüfung bestanden habe. Jetzt bin ich also nicht mehr Junior Systems Engineer sondern “nur” noch Systems Engineer – oder auf Deutsch: Fachinformatiker für Systemintegration.
Außerdem bin ich mit dem Bestehen dieser Prüfung nahtlos in das Angestelltenverhältnis bei NETWAYS übergegangen.
Jetzt fällt mit einem Mal der Prüfungsstress und die Anspannung der letzten 3 Monate ab und ich kann mich wieder der doch bevorzugten Arbeit widmen.
Also dann bis zum nächsten Blog – wahrscheinlich geht’s dann eher um eine technische Lösung

Georg Mimietz
Georg Mimietz
Lead Support Engineer

Georg kam im April 2009 zu NETWAYS, um seine Ausbildung als Fachinformatiker für Systemintegration zu machen. Nach einigen Jahren im Bereich Managed Services ist er in den Vertrieb gewechselt und kümmerte sich dort überwiegend um die Bereiche Shop und Managed Services. Seit 2015 ist er als Teamlead für den Support verantwortlich und kümmert sich um Kundenanfragen und die Ressourcenplanung. Darüber hinaus erledigt er in Nacht-und-Nebel-Aktionen Dinge, für die andere zwei Wochen brauchen.