3 Big-Data-Herausforderungen (und wie man sie ¨¹berwindet)
Big Data hat viele Eigenschaften: Es ist unstrukturiert, dynamisch und komplex. Aber was vielleicht das Wichtigste ist: Big Data ist gro?. Menschen und IoT-Sensoren produzieren jedes Jahr Billionen von Gigabytes an Daten. Aber das sind keine Daten von gestern, sondern moderne Daten in immer mehr unterschiedlichen Formaten und aus immer mehr unterschiedlichen Quellen.?
Dies verursacht eine Kluft zwischen den Daten von heute und den Systemen von gestern. Die schiere Gr??e und der Umfang sowie die Geschwindigkeit und die Komplexit?t der Daten stellen herk?mmliche Daten-Storage-Systeme vor eine neue Herausforderung. Viele sind schlichtweg schlecht ausger¨¹stet, und Organisationen, die diese Goldgrube an Daten nutzen wollen, sto?en auf Blockaden.?
Warum passiert das? Was sind die wichtigsten Herausforderungen im Zusammenhang mit Big Data, die Sie kennen sollten? Wenn Sie das Potenzial von Big Data nutzen wollen, werden Ihre Storage-L?sungen ausreichen, um sie zu bew?ltigen?
1.?Big Data ist zu gro? f¨¹r herk?mmlichen Storage
Die vielleicht offensichtlichste Herausforderung im Zusammenhang mit Big Data ist der enorme Umfang dieser Daten. ?blicherweise wird dieser in Petabyte gemessen (das sind 1.024 Terabyte oder 1.048.576 Gigabyte).
Um Ihnen eine Vorstellung davon zu geben, wie gro? Big Data werden kann, hier ein Beispiel:??laden mindestens 14,58 Millionen Fotos pro Stunde hoch. Zu jedem Foto werden Interaktionen, wie Likes und Kommentare, gespeichert. Nutzer haben mindestens eine Billion Beitr?ge, Kommentare und andere Datenpunkte ?gelikt¡°.?
Aber es sind nicht nur Tech-Giganten wie Facebook, die riesige Datenmengen speichern und auswerten. Selbst ein kleines Unternehmen, das einen Teil der Informationen aus sozialen Medien auswertet, um beispielsweise zu sehen, was Leute ¨¹ber seine Marke sagen, ben?tigt eine leistungsstarke Daten-Storage-Architektur.
Herk?mmliche Daten-Storage-Systeme sind theoretisch in der Lage, gro?e Datenmengen zu verarbeiten. Doch wenn es darum geht, die ben?tigte Effizienz und die ben?tigten Einblicke zu liefern, k?nnen viele von ihnen einfach nicht mit den Anforderungen moderner Daten mithalten.
Das Problem mit relationalen Datenbanken
Relationale SQL-Datenbanken sind zuverl?ssige, altbew?hrte Methoden zum Speichern, Lesen und Schreiben von Daten. Diesen Datenbanken f?llt es jedoch schwer, effizient zu arbeiten, selbst wenn sie ihre maximale Kapazit?t noch nicht erreicht haben. Eine relationale Datenbank, die gro?e Datenmengen enth?lt, kann aus vielen Gr¨¹nden langsam werden. So muss zum Beispiel jedes Mal, wenn Sie einen Datensatz in eine relationale Datenbank einf¨¹gen, der Index aktualisiert werden. Dieser Vorgang dauert umso l?nger, je gr??er die Anzahl der Datens?tze ist. Das Einf¨¹gen, Aktualisieren, L?schen und Ausf¨¹hren anderer Vorg?nge kann je nach der Anzahl der Beziehungen zu anderen Tabellen l?nger dauern.?
Einfach ausgedr¨¹ckt: Je mehr Daten sich in einer relationalen Datenbank befinden, desto l?nger dauert jeder Vorgang.
Scale-up versus Scale-out
Es ist auch m?glich, herk?mmliche Daten-Storage-Systeme zu skalieren, um die Performance zu verbessern. Da herk?mmliche Daten-Storage-Systeme jedoch zentralisiert sind, sind Sie gezwungen, aufw?rts zu skalieren (Scale-up) statt horizontal (Scale-out).
Das Scale-up ist weniger ressourceneffizient als das Scale-out, da Sie neue Systeme hinzuf¨¹gen, Daten migrieren und dann die Last auf mehrere Systeme verteilen m¨¹ssen. Herk?mmliche Daten-Storage-Architekturen werden schnell zu umfangreich und unhandlich, um richtig verwaltet werden zu k?nnen.
Der Versuch, eine herk?mmliche Storage-Architektur f¨¹r Big Data zu verwenden, ist zum Teil deshalb zum Scheitern verurteilt, weil die Menge der Daten ein ausreichendes Scale-up unrealistisch macht. Dadurch wird das Scale-out zur einzig realistischen Option. Bei einer verteilten Storage-Architektur k?nnen Sie neue Knoten zu einem Cluster hinzuf¨¹gen, sobald Sie eine bestimmte Kapazit?t erreicht haben ¨C und zwar im Grunde unbegrenzt.