Seite wählen

NETWAYS Blog

NETWAYS RAID-Rechner

In einer zunehmend digitalen Welt, in der Hochverfügbarkeit und Datensicherheit von größter Bedeutung sind, wird die Implementierung von RAID-Systemen immer wichtiger. Die für deinen Use Case passende Konfiguration eines RAID-Systems spielt deshalb eine nicht zu vernachlässigende Rolle.

Um die passende Konfiguration zu finden, gibt es zwei populäre Ansätze:

  • Berechnen, wie viel nutzbarer Speicher am Ende tatsächlich zur Verfügung steht
  • Bestimmen, wie viel Speicherplatz benötigt wird und auf diesem Wert die Anzahl der dafür benötigten Festplatten berechnen

Damit du diese Berechnungen nicht selbstständig durchführen musst, habe ich im Rahmen meiner Ausbildung zum Fachinformatiker für Anwendungsentwicklung einen RAID-Rechner entwickelt.

Dieser ergänzt unseren Rechner-Stack, zu dem bereits die beliebten Subnetz– und SLA-Rechner gehören.

Was ist eigentlich RAID?

RAID steht für „Redundant Array of Independent Disks“ und ist eine Technologie zur Datenredundanz und Leistungssteigerung in Speichersystemen. Dabei werden mehrere physische Festplatten zu einem logischen Verbund zusammengefasst.

Um die vielfältigen Anforderungen an moderne IT-Infrastrukturen und Datenspeicherung bestmöglich abzubilden, gibt es mehrere RAID-Level mit unterschiedlichen Eigenschaften. In meinem NETWAYS RAID-Rechner werden folgende RAID-Level verwendet:

  • RAID 0: Daten werden auf mehrere Festplatten verteilt, um die Leistung zu verbessern
  • RAID 1: Daten werden auf mehreren Festplatten synchron gehalten, um höhere Datensicherheit zu gewährleisten
  • RAID 5: Daten und Paritätsinformationen werden auf mehrere Festplatten verteilt
  • RAID 6: Ähnlich wie RAID 5, allerdings mit doppelter Parität
  • RAID 10: Kombination aus RAID 0 und 1, die Daten werden sowohl verteilt als auch gespiegelt gespeichert

Funktionalität des RAID-Rechners

Der RAID-Rechner, den ich entwickelt habe, ist eine einfache Anwendung, die es dir ermöglicht, die in der Einleitung genannten Ansätze zu verfolgen.
Du kannst den nutzbaren Speicher anhand folgender Parameter berechnen:

  • RAID-Level
  • Anzahl der Festplatten
  • Kapazität pro Festplatte

Ein zusätzliches Feature meines Rechners ist, dass du dir den Preis pro nutzbarem GB anzeigen lassen kannst. Vorausgesetzt, du hast den Preis deiner Festplatten angegeben (oder eine Vorstellung, wie teuer sie sein sollen).

Alternativ kannst du die Anzahl der benötigten Festplatten berechnen, indem du den gewünschten nutzbaren Speicherplatz, die Kapazität pro Festplatte und den RAID-Level angibst.

Zur Auswahl stehen dir die gängigen RAID-Level 0, 1, 5, 6 und 10. Zu jedem Level gibt es zudem eine kurze Erklärung und eine Empfehlung, in welchen Fällen es Verwendung finden könnte. Zusätzlich kannst du die Speichereinheiten verschiedene Währungen frei auswählen.

Um zwischen den beiden einzelnen Rechnern zu wechseln, habe ich mich entschieden, eine HTML-Checkbox mit CSS so zu stylen, dass sie wie ein umlegbarer Schalter aussieht.

Wenn du nun Lust darauf bekommen hast, den NETWAYS RAID-Rechner selbst auszuprobieren, kannst du das hier machen. Ich wünsche dir viel Spaß beim Testen, Herumspielen und produktiven Einsetzen meiner Anwendung.

Johannes Rauh
Johannes Rauh
Junior Developer

Johannes hat bevor er zu NETWAYS gekommen ist eine Ausbildung zum technischen Assistenten für Informatik abgeschlossen. 2022 startete er bei Icinga seine Ausbildung zum Fachinformatiker für Anwendungsentwicklung, um seinem Interesse für das Programmieren und der Softwareentwicklung weiter nachzugehen und sein Wissen zu vertiefen. Nach der Arbeit geht er regelmäßig ins Fitnessstudio oder verbringt Abende mit einem Cocktail und seiner Freundin vor Netflix.

HP controller firmware issues to check

Just about a week ago I posted a short blog post introducing a new check to verify firmware of SSD disks by HPE. Since our customer informed us about another bulletin he has to take care of, we extended the check to support RAID controllers, and verify if a problematic firmware needs to be patched.

HPE says about the issue in bulletin a00097210:

HPE Smart Array SR Gen10 Controller Firmware Version 2.65 (or later) provided in the Resolution section of this document is required to prevent a potential data inconsistency on select RAID configurations with Smart Array Gen10 Firmware Version 1.98 through 2.62, based on the following scenarios. HPE strongly recommends performing this upgrade at the customer’s earliest opportunity per the „Action Required“ in the table located in the Resolution section. Neglecting to perform the recommended resolution could result in potential subsequent errors and potential data inconsistency.

Important: Please read the full document and verify with your used hardware.

For controllers, the check will alert you with a CRITICAL when the firmware is in the affected range with:

  • if you have RAID 1/10/ADM – update immediately!
  • if you have RAID 5/6/50/60 – update immediately!

And it will add a short note when firmware older than affected or firmware has been updated. At the moment the plugin does not verify configured logical drives, but we believe you should update in any case.

Please see the repository and README on GitHub for all details, you can download the binaries from releases.

All information about affected disks can be found on GitHub or the previous blogpost.

OK - All 2 controllers and 33 drives seem fine
[OK] controller (0) model=p816i-a serial=XXX firmware=1.65 - firmware older than affected
[OK] controller (4) model=p408e-p serial=XXX firmware=1.65 - firmware older than affected
[OK] (0.9 ) model=MO003200JWFWR serial=XXX firmware=HPD2 hours=8086
[OK] (0.11) model=EK000400GWEPE serial=XXX firmware=HPG0 hours=8086
[OK] (0.12) model=EK000400GWEPE serial=XXX firmware=HPG0 hours=8086
[OK] (0.14) model=MO003200JWFWR serial=XXX firmware=HPD2 hours=8086
[OK] (4.0 ) model=MO3200JFFCL serial=XXX firmware=HPD8 hours=7568 - firmware update applied
[OK] (4.1 ) model=MO3200JFFCL serial=XXX firmware=HPD8 hours=7568 - firmware update applied
[OK] (4.2 ) model=MO3200JFFCL serial=XXX firmware=HPD8 hours=7568 - firmware update applied
[OK] (4.3 ) model=MO3200JFFCL serial=XXX firmware=HPD8 hours=7568 - firmware update applied
[OK] (4.4 ) model=MO3200JFFCL serial=XXX firmware=HPD8 hours=7568 - firmware update applied
[OK] (4.5 ) model=MO3200JFFCL serial=XXX firmware=HPD8 hours=7568 - firmware update applied
[OK] (4.6 ) model=MO3200JFFCL serial=XXX firmware=HPD8 hours=7568 - firmware update applied
[OK] (4.24) model=MO3200JFFCL serial=XXX firmware=HPD8 hours=7568 - firmware update applied
[OK] (4.25) model=MO3200JFFCL serial=XXX firmware=HPD8 hours=7568 - firmware update applied
[OK] (4.26) model=MO3200JFFCL serial=XXX firmware=HPD8 hours=7568 - firmware update applied
[OK] (4.27) model=MO3200JFFCL serial=XXX firmware=HPD8 hours=7568 - firmware update applied
[OK] (4.28) model=MO3200JFFCL serial=XXX firmware=HPD8 hours=7568 - firmware update applied
[OK] (4.29) model=MO3200JFFCL serial=XXX firmware=HPD8 hours=7568 - firmware update applied
[OK] (4.30) model=MO3200JFFCL serial=XXX firmware=HPD8 hours=7568 - firmware update applied
[OK] (4.31) model=MO3200JFFCL serial=XXX firmware=HPD8 hours=7568 - firmware update applied
[OK] (4.50) model=MO3200JFFCL serial=XXX firmware=HPD8 hours=7568 - firmware update applied
[OK] (4.51) model=MO003200JWFWR serial=XXX firmware=HPD2 hours=7568
...

Serverwartung für Kollegen

Philipp und ich haben diese Woche das Vergnügen mit zwei Servern eines Kollegen bekommen. Unsere Aufgabe war im grunde ganz einfach.
Zu machen war:
– Server ausbauen
– Reset iLO Board + neues Passwort vergeben
– Lizenz für iLO Board einspielen
– Upgrade iLO Firmware
– Upgrade Bios
– Upgrade RAID-Controller
– RAID 1 aus 2x 146 GB SAS Festplatten bauen
– RAID 5 aus 3x 5TB SATA Festplatten bauen
– Quad-Port Netzwerkkarte ausbauen
– 10 GBit Netzwerkkarten einbauen
– Debian Minimalinstallation
– Netzwerkkonfiguration für externes Netzwerkinterface (1 GBit)
– Netzwerkkonfiguration für internes Netzwerkinterface (10 GBit)
– Server einbauen
Ich dachte nicht, dass es einfach wird, aber auch nicht, dass es so Zeitintensiv wird. Nachdem wir die Server dann ausgebaut auf dem Tisch liegen hatten, schlossen wir unsere Monitore und Tastaturen an. Als wir dann den Strom anschalteten, ging der Server in den Standby-Leerlauf. In diesem ‚Modus‘ liefen die Lüfter schon langsam an. Zuerst war ich überrascht. Einer von diesen Servern ist, im Standby, schon so laut wie mein Gaming-PC, wenn er unter Volllast läuft.
Nun war es an der Zeit uns mal die Software genauer anzuschauen. Wir mussten rausfinden, auf welcher Version das BIOS, das iLO und der RAID-Controller momentan laufen. Nachdem wir das herausgefunden hatten, suchten wir nach den passenden Updates im Internet. Wie wir es gewohnt waren, haben wir mit unserer Suche nach Updates, bei der Herstellerseite angefangen. Wer sich jetzt denkt, „Modellnummer oder Modellbezeichnung suchen und Downloaden“, liegt hiermit allerdings falsch. Wir haben etwa drei Stunden damit verbracht, herauszufinden welches vorgeschlagene Update denn nun das richtige ist und wie man dieses dann Einspielen muss. Die Größe der Updatedatei, belief sich auf sieben Megabyte. Für uns waren normale Updategrößen irgendwo zwischen 500 Megabyte und 1,5 Gigabyte, weswegen wir auch unter großer Verwunderung die heruntergeladene Updatedatei mehrmals überprüften. Nachdem uns unser Ausbilder mitteilte, dass der Server nur noch als „lauter Türstopper“ benutzt werden kann, wenn man eine falsche Firmware-Version installiert, bekamen wir nochmehr Angst etwas kaputt zu machen. Bei einer weiteren Überprüfung stellten wir dann fest, dass die Datei, ein einfaches Shell-Script war. Mit einem USB-Stick haben wir dann innerhalb von Sekunden die Updates installiert.
Nachdem wir dann die Firmware-Updates fertiggestellt hatten, galt es die Hardwareteile einzubauen. Wir sollten sechs 5TB HDD Platten und zwei 10 GBit Netzwerkkarten einbauen. Zusätzlich sollten wir auch die vorhandene Quad-Port Netzwerkkarte ausbauen. Philipp schrieb die Seriennummer der einzubauenden HDD Platten auf und ich baute diese dann letztendlich ein.
Jetzt stand noch die iLO Lizenz aktivierung und die RAID-Controller konfiguration an. Das alles ließ sich ganz einfach beim Boot einstellen. Während wir diese Einstellungen vornahmen, hat uns unser Ausbilder noch erklärt was RAID ist und was man damit machen kann. Nun da wir die nötigen Einstellungen vorgenommen hatten, mussten wir nur noch eine Debian 9 Minimalinstallation durchführen und die Netzwerkkarten konfigurieren. Die OS installation war total schnell fertig. Für die Konfiguration der Netzwerkkarten, haben wir in der Konfigurationsdatei (/etc/network/interfaces) die Netzwerkkarte eingetragen und eine statische IP-Adresse vergeben.
Das Projekt hat mir sehr viel Spaß gemacht. Ich freue mich schon sehr darauf, mal wieder mit der Hardware arbeiten zu dürfen.

OMSA Issues, Solutions and xkcd

All of our Dell Servers are managed via OMSA, so we can easily tackle most of the occurring hardware issues.
The aim of this blogpost is to prepare a comprehensive list addressing the most common obstacles we did run into so far. This list is sorted by my personal preferences and, of course, by no means complete. Please excuse my paint skills as well.
Please note: We‘re mostly running some kind of Linux on our Servers, some solutions might work for Windows, too. Also root access and the current OMSA version are implied.
Most of the following issues can be resolved by merely scheduling a 4 hour downtime, upgrading kernel, BIOS, firmware and several reboots and prolonged downtimes later, you may be greeted by the OMSA webinterface. Yay. Of course this is not a suitable way to go for simply generating an HDD report for warranty purposes.
Let‘s dive into the list:
ERR_CONNECTION_REFUSED
Please ensure that all OMSA related processes are running correctly. Simply ssh to your machine and run „srvadmin-services.sh status“ (in this case located at /opt/dell/srvadmin/sbin)

The srvadmin-services script is a convenient tool to check the processes. It can also be used to restart the processes in the correct order.

Cryptic Symbols

You were not using SSL. Please use „https“ to connect to your server.
Error code: SSL_ERROR_WEAK_SERVER_EPHEMERAL_DH_KEY

You were now using SSL and, presumably, Firefox. This is an issue everybody will be facing in the future. Just a quick workaround and not really a solution: Chrome works for me (as of Dec 27).
There will be a follow up/recap to this issue, very likely in a separate and more detailed post.
Browser type is not supported:

Simply wait or hit „Try Again“
Can‘t login:
When you‘re using IPMI as well, you may have configured different user for different tasks. OMSA works differently, so by default you have to login as „root“, using the root password of the OS running on this server.
500 internal Server Error, java.lang.NoClassDefFound :
Ah, this one was tricky. In our case, this issue boiled down to the sysadmin obsession: uptime.

by xkcd.com


We tried everything, from simply restarting the services by hand in multiple order, reinstalling the binaries to even looking for help at the support forums, with the expected outcomes:

by xkcd.com


During the long uptime of the machine, some old processes of the OMSA services kept running and could not be killed by srvadmin-services. With a simple „ps aux | grep dsm_“ and fearless killing the found processes (some /etc/init.d/ related) via „pkill -9 -f dsm_“ and restarting via srvadmin-services, we could finally access the Webinterface again.
Other admins may have different issues and different solutions respectively.
 
 

Tim Albert
Tim Albert
Senior Systems Engineer

Tim kommt aus einem kleinen Ort zwischen Nürnberg und Ansbach, an der malerischen B14 gelegen. Er hat in Erlangen Lehramt und in Koblenz Informationsmanagement studiert. Seit Anfang 2016 ist er bei uns tätig. Zuerst im Managed Services Team, dort kümmerte Tim sich um Infrastrukturthemen und den internen Support, um dann 2019 - zusammen mit Marius - Gründungsmitglied der ITSM Abteilung zu werden. In seiner Freizeit engagiert sich Tim in der Freiwilligen Feuerwehr – als Maschinist und Atemschutzgeräteträger -, spielt im Laientheater Bauernschwänke und ist auch handwerklich ein absolutes Allroundtalent. Angefangen von Mauern hochziehen bis hin zur KNX-Verkabelung ist er jederzeit...

Nicht noch ein S.M.A.R.T. Check …

… es gibt doch schon so viele davon! JA das dachte sich mein Kollege der Achim Ledermüller auch und bat mich doch vor ca. Zwei Wochen, ich solle Ihm einen Check für SSD Platten (für sein Ceph-Projekt) in Unser Monitoring einbauen. Was grundsätzlich mit Checks von der monitoringexchange.org Platform abgedeckt wird hat meinen Kollegen nicht zufriedenstellen können, seine Anforderungen lauteten wie folgt:

S.M.A.R.T. Werte der SSDs zuverlässig überprüfen.
– Mindestens MWI.
– Recherchieren welche Werte sonst aussagekräftig sind!

Die Freunde von Thomas-Krenn haben sich wohl das Gleiche gedacht und auch so ein Plugin gebaut. Da wir aber nur hier bei Uns ziemlich pingelig sind was den Umfang so wie Portabilität an Software (seien es auch nur Plugins) angeht, habe ich mich kurzerhand dazu entschieden ein neues Plugin auf Basis des schon Vorhanden zu schreiben.
Lange rede kurzer Sinn, „check_smartvalues“ wurde geboren und deckt eigentlich alles ab, was man sich bei anderen S.M.A.R.T. -Checks so Wünscht und noch viel mehr ( mehr möchte Ich allerdings noch nicht verraten 🙂 ).
Da ich derzeit einen großen namhaften Kunden in Bezug auf das am Ende des Jahres kommende Icinga2 & Icingaweb2 betreue, wollte ich auch Euch die Ansicht der neuen Web-UI nicht vorenthalten. Hier mal ein Bild …

lx-ssd-smart-icingaweb2-longoutput

Der Longoutput der Plugins im neuen Icingaweb2, mit hübschen Kuchen Diagrammen.

Im derzeit noch vielerorts Installiertem „inGraph“ für Icingaweb1, sieht die ganze Sache natürlich auch sehr schön aus

mwi

Der „Media Wearout Indicator“ hier im „inGraph-Icingaweb1“ über eine Zeitschiene von einem Monat mit einem Scalefactor bei 90% ( sonst würde man halt nix Sehen ).


und weil ich Persönlich ein großer Fan des neuen Icingaweb2 bin, und diese HTML5 Kuchendiagramme einfach liebe, hier nochmal eine Nah-Ansicht des „Media Wearout Indicator“ …
mwi-icinga2

hier der „Media Wearout Indicator“ in Groß, man sieht auch sehr schön, das die Platte (eine Intel 530 SSD hinter dem MegaRaid LSI mit DeviceID 22 ), nach eben nur 4 Wochen Lifetime doch schon sehr geschruppt wurde.


Das Plugin ist derzeit noch im Testing, bei Uns hier im Monitoring allerdings schon mal Live da mein Kollege eben auch sehr für Graphen zu begeistern ist. Es bezieht seine Daten sowie auch die Konfiguration für Schwellewerte aus einer JSON-Datenbank, das ganze sieht dann in etwa so aus …
lx-ssd-database
Sobald den die Letzten Tests abgeschlossen sind werden ich den Check auf der neuen Icinga Exchange Plattform zum Download anbieten.
Im übrigen, das Plugin ist in seiner Grundfunktion schon als Multicheck ausgelegt, so viel möchte ich an dieser Stelle nun doch schon mal verraten. 😉
Macht euch auf was gefasst …