Seite wählen

Indexieren mit Solr

von Blerim Sheqa | Sep 3, 2013 | Web Services, Linux, DevOps, Technology

solr Je mehr Daten man sammelt, umso aufwändiger wird auch das Indexieren. Eine gute Möglichkeit das Problem anzugehen ist das Open Source Projekt Solr von Apache. Solr ist in Java geschrieben und läuft in einem servlet container wie zum Beispiel Jetty. Mit einer API die stark an REST angelehnt ist wird es einem sehr einfach gemacht, Daten abzufragen oder einzufügen. Die Ergebnisse bekommt man entweder als XML oder JSON. Wer seine relationale Datenbank weiterhin behalten will, kann seine Daten auch einfach in Solr importieren, denn die nötigen Handler sind dafür bereits vorgesehen. Solr ist also besonders interessant für Online-Shops mit vielen Produkten, zudem die Volltextsuche auch sehr gut und schnell funktioniert. Ein zusätzliches „Killer-Feature“ ist die SolrCloud Funktion. In Zusammenarbeit mit Zookeeper lässt sich damit eine Umgebung aufbauen, die linear skaliert. Durch die Möglichkeit Collections und Shards zu benutzen lässt sich die Umgebung auch in einzelne Teile trennen.
Installation
Die Installation von einer einzelnen Solr Instanz ist sehr einfach gehalten. Nach dem Download steht ein Verzeichnis example zur Verfügung, in dem sich alles für einen ersten Start findet. Im Handumdrehen läuft also so schon der erste Server:

root@localhost:/example# java -jar start.jar

Erreicht werden kann der Server über das mitgelieferte Webinterface http://localhost:8983/solr. Über dieses Interface bekommt man Infos über den aktuellen Status des Servers, der Solr-Cloud, dem Replikationsstatus und vielen anderen Fuktionen . Abfragen lassen sich ebenfalls hier machen, was sich besonders in Testszenarien bewährt.
Weil so ein Solr-Server ohne Daten nicht viel Nutzen bringt, werden auch passende Scripte mitgeliefert mit denen man Daten importieren kann.

root@localhost:/example/exampledocs# ./post.sh monitor.xml

Für die Queries wird ein Subset der Lucene Query Syntax benutzt. Eine Abfrage die nur den Preis für Produkte anzeigt die den Namen „monitor“ beinhalten, könnte dann zum Beispiel so aussehen: http://localhost:8983/solr/collection1/select?name=monitor&wt=json&fl=price
Zookeeper
Zookeeper ist auch ein Tool aus dem Hause Apache. Es kümmert sich darum Konfigurationen auf einezlne Nodes zu verteilen. Bevor es das aber tun kann muss man erst mal Konfigurationen hochladen. Zookeeper lässt sich als Standalone oder im Cluster betreiben. Will man zweiteres, muss man beachten das dazu mindestens 3 Server benötigt werden. Andernfalls würde kein Quorum gebildet werden können, was Zookeeper dazu veranlasst nicht zu laufen. Die Installation ist prinzipiell relativ simpel, da alles mitgeliefert wird was man braucht. Es muss nur noch eine Konfiguration angelegt werden, die zum Beispiel so aussehen kann:

tickTime=2000
initLimit=10
syncLimit=5
dataDir=/var/lib/zookeeper
clientPort=2181
server.1=192.168.1.10:2888:3888
server.2=192.168.1.11:2888:3888
server.3=192.168.1.13:2888:3888

Diese Konfiguration ist auf allen Servern gleich. Damit aber jeder Server weis welcher er von den dreien ist, wird in der Datei /var/lib/zookeeper/myid einfach die jeweilige ID festgelegt. Mit dem mitgelieferten zkServer.sh-Skript lässt sich der Prozess dann überall starten. Solr beherrscht von Haus aus die Kommunikation mit Zookeeper und muss daher nur noch mit den richtigen Parametern gestartet werden:

java -Dbootstrap_confdir=/opt/solr/collection1/conf -Dcollection.configName=myconf -DnumShards=1 -DzkHost=192.168.1.10:2181,192.168.1.11:2181,192.168.1.12:2181 -jar start.jar

Und fertig ist die erste eigene Solr Cloud. Wer sich mit Jetty nicht ganz anfreunden kann, kann natürlich auch einen anderen servlet container wie Tomcat benutzen.

Blerim Sheqa

COO

Blerim ist seit 2013 bei NETWAYS und seitdem schon viel in der Firma rum gekommen. Neben dem Support und diversen internen Projekten hat er auch im Team Infrastruktur tatkräftig mitgewirkt. Hin und wieder lässt er sich auch den ein oder anderen Consulting Termin nicht entgehen. Inzwischen ist Blerim als COO für Icinga tätig und kümmert sich dort um die organisatorische Leitung.

Lies mehr von Blerim und triff unser Team

0 Kommentare

Einen Kommentar abschicken Antworten abbrechen

Mehr Beiträge zum Thema Web Services | Linux | DevOps | Technology

Kritisch: Fehler in Elasticsearch mit JDK22 kann einen sofortigen Stop des Dienstes bewirken

von Daniel Neuberger | Apr 8, 2024

Update Seit gestern Abend steht das Release 8.13.2 mit dem BugFix zur Verfügung. Kritischer Fehler Der Elasticsearch Dienst kann ohne Vorankündigung stoppen. Diese liegt an einem Fehler mit JDK 22. In der Regel setzt man Elasticsearch mit der "Bundled" Version ein....

End of Life von CentOS Linux 7 – Was bedeutet das für mich?

von Dirk Götz | Mrz 25, 2024

Der ein oder andere Admin wird sich vermutlich schon lange den 30. Juni 2024 im Kalender vorgemerkt haben, denn dann ist für CentOS Linux 7 das "End of Life" erreicht. Aber auch Benutzer von Red Hat Enterprise Linux 7 sollten sich Gedanken machen, denn auch dieses...

CfgMgmtCamp 2024: Unser Rückblick

von Daniel Bodky | Feb 14, 2024

Vergangene Woche fuhr ein Teil unseres Teams bei NWS bis nach Ghent in Belgien, um am ConfigManagementCamp 2024 teilzunehmen. Hierbei handelt es sich um eine kostenlose Konferenz, direkt im Anschluss an die FOSDEM, was Jahr für Jahr für ein großes Publikum aus Fans...

Kibana Sicherheits-Updates: CVSS:Critical

von Daniel Neuberger | Feb 8, 2024

Und täglich grüßt das Murmeltier. Nein nicht ganz. Heute ist es aus der Elastic Stack Werkzeugkiste Kibana, für das es ein wichtiges Sicherheits-Update gibt. Es besteht auf jeden Fall Handlungsbedarf! IMHO auch wenn ihr die "Reporting" Funktion deaktiviert habt. Der...

Trainings

Web Services

Events

Series