Die Wahrheit über BigData
Tags: BigData, cloud computing, NoSQL
Kategorie Software Engineering | Keine Kommentare »
Schon seit einiger Zeit geistert ein neuer Hype durch die IT Szene: BigData. Und immer häufiger höre ich ziemlichen Unsinn darüber. Zeit, mal genauer nachzuschauen, was an BigData wirklich neu und revolutionär ist…
Jeden Tag wächst der Datenberg. Und schon immer gab es Versuche, diesem Berg irgendwelche Erkenntnisse zu entlocken. Tatsächlich ist genau dies einer der Haupttreiber der Elektronischen Datenverarbeitung (EDV) :-)
Auch in der Vergangenheit gab es schon viele Werkzeuge dafür, etwa Datenbanken, Data Warehouses oder /dev/null. Die Verarbeitung von Daten ist also nicht neu und somit nichts, was mit BigData erst aufgekommen wäre.
Häufig wird Amazons Vorschlagssystem („14 Benutzer interessierten sich auch für folgende Artikel“) als Paradebeispiel für BigData bemüht. Dabei wird suggeriert, dass BigData durch Magie plötzlich geschäftlich relevante Informationen extrahiert. Man träumt, dass die gesammelten Datenberge plötzlich Dank dem BigData Gott Nutzen generieren. Dem ist leider nicht so. Sorry.
Egal ob mit oder ohne BigData bedarf es weiterhin Experten, die zunächst die richtigen Fragen formulieren. Was wollen wir eigentlich an Wissen aus den Daten extrahieren? Welche Abstraktionsebene benötigen wir? Verfügen wir über alle nötigen Eingabedaten? Anschließend bedarf es weiterer Experten, die diese Fragen technisch ausformulieren, damit ein Werkzeug die Antworten aus dem Datenberg ermitteln kann und diese entsprechend der Zielgruppe aufbereitet. Jedem, der im betrieblichen IT Umfeld schon mal unterwegs war, dürfte klar sein, dass das meist komplexe Projekte sind. Daran ändert leider auch BigData nichts. Sorry.
Wenn BigData aber kein Gott ist, was ist es dann? Aus meiner Sicht verstecken sich hinter BigData mehrere Entwicklungen der letzten 10 Jahre:
- Werkzeuge zur Datenhaltung und -analyse sind inzwischen allgemein verfügbar (etwa Hadoop)
- Werkzeuge zum Bauen von Textsuchmaschinen sind allgemein verfügbar (etwa Lucene)
- Datenberge können heute problemlos über viele tausend Rechner verteilt werden (etwa durch verteilte Dateisysteme wie HDFS oder OpenStack Object Storage)
- mittels des MapReduce Paradigmas können Berechnungen heute problemlos über viele tausend Rechner verteilt werden
- neben dem relationalen Datenmodel gibt es eine Vielzahl alternativer Ansätze, allgemein subsumiert unter NoSQL
- diverse kommerzielle Anbieter haben inzwischen die notwendigen Werkzeuge zu einer Lösung integriert, um den Einstieg zu erleichtern (etwa Datameer, Cloudera, Amazon Elastic MapReduce)
- dramatische Steigerung der Performance von Analysewerkzeugen durch In-Memory Technologien (verursacht durch Preisverfall bei Speicherriegeln und SSDs), siehe etwa SAP HANA
- Verfahren des maschinellen Lernens dringen langsam in die Praxis vor (etwa Clusteranalyse, neuronale Netzwerke, SVM, etc.)
Jede dieser Entwicklungen ist spannend. Durch die Kombination kann man heute für relativ wenig Geld Lösungen bauen, die selbst große Datenberge verarbeiten können. Wenn man dann noch die richtigen Fragen stellt und die Ergebnisse in seine eigene Anwendung oder Weblösung elegant einbindet, wird BigData doch noch Wunder vollbringen :-)