Michael Renner informiert in seinem Vortrag über den aktuellen Status bei PostgeSQL und über verschiedene Replikationsmechanismen für PostgreSQL. Dabei stellt er sowohl die Historie mit Trigger basierter Replikation bzw. Logshipping, als auch die aktuellen Möglichkeiten der Live Migration, die fest im Daemon verankert ist. Verfügbar ist diese Funktionalität ab Version 9.0 des Datenbanksystems.
Einer der letzten Vorträge des gestrigen Tages von Fabrizio Manfred befasste sich mit verschiedenen Distributed File Systems, die als Open Source verfügbar sind. Er beginnt mit OpenAFS, einer Implementierung des Andrew Filesystems von IBM. Nach seiner Erfahrung lassen sich damit 40-50 MB/s erreichen. Es eignet sich gut für wesentlich mehr Reads als Writes und viele Clients. Als zweites stellt er GlusterFS vor, das auch bei sehr großen Datenmengen annähernd linear skaliert. Viele Features, die sich auch gut kombinieren lassen, machen es zu einem sehr flexiblen Werkzeug. Es eignet sich gut für große Datenmengen, Zugriff mit verschiedenen Protokollen und als Ersatz für teure SANs. Nachteil sind die geringen Security Einstellungen und schlechte Performance, wenn viele Aktionen auf ein und dem selben File stattfinden.
Ein weiteres Beispiel ist HDFS (Hadoop FS), das vom Google Filesystem und Mapreduce inspiriert ist. Die Namenodes verwalten die Metainformationen, während die Datanodes die eigentlichen Daten bereitstellen. Es bietet RW Replication und auch Re-Balancing und eignet sich sehr gut für Task- und Content-Distribution, dafür ist es kein Standard Filesystem und nicht Posix kompatibel. Das letzte Beispiel ist ceph, das einen ähnlichen Aufbau wie HDFS hat. Ein großer Vorteil ist, dass ceph Daten automatisch je nach Zugriffshäufigkeit neu umvorteilen kann. Für Fabrizio ist ceph damit das interessanteste DFS. Einziger Nachteil ist das relativ junge Alter, da es noch nicht so viel Erfahrung damit gibt.
Am Ende des Vortrags stellte er verschiedene Real-World Szenarien im Detail inkl. genauer Architektur vor, die auf OpenAFS, GlusterFS oder Hadoop basieren. Einige interessante Lessons learned aus diesen Projekten, die man schon am Anfang bedenken sollte: Bei 10PT Speicher fallen jeden Tag im Durchschnitt 22 Festplatten aus. Auch dafür sollte man vorbereitet sein und alleine diese Daten inkl. aller weiteren Änderungen müssen im Netz repliziert werden. Eine spätere Migration kann schon alleine deswegen aufwendig werden, weil das umkopieren von 1PB mit aktuellen Netzanbindungen bis zu 2 Jahre dauern kann.