É«¿Ø´«Ã½

Skip to Content
Leitfaden

Anf?ngerleitfaden zu Big Data

Was ist Big Data und wie funktioniert es? Werfen wir gemeinsam einen tiefen Blick in Big Data und die Technologien, die Sie ben?tigen, um f¨¹r Ihr Unternehmen verwertbare Erkenntnisse zu gewinnen.

Was ist Big Data?

Moderne Unternehmen sammeln riesige Datenmengen aus einer Vielzahl von Quellen, die oft in Echtzeit analysiert werden m¨¹ssen. Als ?Big Data¡° bezeichnet man Daten, die zu umfangreich, zu schnell oder zu komplex sind, um mithilfe herk?mmlicher Verfahren verarbeitet zu werden. Der Begriff umfasst aber auch zahlreiche Technologien und Strategien, die durch Big Data erm?glicht werden, beispielsweise wissensgenerierende Bereiche wie vorausschauende Analysen, das Internet der Dinge, k¨¹nstliche Intelligenz und mehr.

dass der globale Big-Data-Markt bis 2026 voraussichtlich 156 Milliarden US-Dollar erreichen wird ¨C und es gibt viele gute Gr¨¹nde f¨¹r Unternehmen, auf diesen Zug aufzuspringen. Beim Folgenden handelt es sich um eine Betrachtung dessen, was Big Data ist, woher es kommt, wof¨¹r es genutzt werden kann und wie Unternehmen ihre IT-Infrastrukturen f¨¹r die erfolgreiche Nutzung von Big Data vorbereiten k?nnen.

Verwandte Artikel

Drei Hauptschlagworte im Zusammenhang mit Big Data

Das Konzept von ?Big Data¡° gibt es zwar schon seit Langem, aber der Industrieanalyst Doug Laney war der Erste, der 2001 die drei Hauptschlagworte (?Drei Vs¡°) von Big Data formulierte. Diese drei Vs sind:

  • Volume (Volumen): Die Menge an Daten, die verarbeitet werden muss (in der Regel sehr viel ¨C Gigabytes, Exabytes oder mehr)
  • Variety (Vielfalt): Die vielen unterschiedlichen Arten von Daten, sowohl strukturierte als auch unstrukturierte, die aus vielen verschiedenen Quellen stammen
  • Velocity (Geschwindigkeit): Die Geschwindigkeit, mit der neue Daten in Ihr System str?men

Manche Datenexperten erweitern die Definition auf vier, f¨¹nf oder mehr Vs. Das vierte und f¨¹nfte V sind:

  • Veracity (Stichhaltigkeit): Die Qualit?t der Daten in Bezug auf ihre Genauigkeit, Pr?zision und Zuverl?ssigkeit
  • Value (Wert): Der Mehrwert, den die Daten bieten ¨C welchen Nutzen bringen sie Ihrem Unternehmen?

Die Liste kann noch auf bis zu verl?ngert werden, diese f¨¹nf werden aber am h?ufigsten zum Definieren von Big Data herangezogen.

Es gibt auch zwei verschiedene Arten von Big Data, die sich darin unterscheiden, wie sie verarbeitet werden und welche Fragen und Abfragen damit beantwortet werden sollen.

  • Batch-Verarbeitung wird in der Regel bei gro?en Mengen gespeicherter historischer Daten verwendet, um Informationen als Basis f¨¹r langfristige Strategien zu liefern oder um wichtige Fragen zu beantworten. Dabei geht es um riesige Datenmengen mit komplexen, tiefgehenden Analysen.
  • Beim Streaming von Daten geht es weniger um die Beantwortung gro?er Fragen als vielmehr darum, unmittelbare Echtzeit-Informationen f¨¹r aktuelle Zwecke zu erhalten, z. B. zur Wahrung der Genauigkeit eines Fertigungsprozesses. Es wird in der Regel bei gro?en Datenmengen mit hoher Geschwindigkeit eingesetzt. Es geht also um gro?e Mengen an sehr schnellen Daten mit weniger komplexen, aber sehr schnellen Analysen.

Erfahren Sie mehr ¨¹ber den Unterschied zwischen Big Data und herk?mmlichen Daten.

Woher kommt Big Data?

Big Data beschreibt im Grunde alle unstrukturierten, modernen Daten, die heute erfasst werden, und wie sie f¨¹r fundiertes Wissen und tiefgehende Erkenntnisse genutzt werden. Zu diesen Quellen geh?ren h?ufig:

  • Das Internet der Dinge und Daten von Milliarden von Ger?ten und Sensoren
  • Maschinell erzeugte Protokolldaten, die f¨¹r Protokollanalysen verwendet werden
  • Software, Plattformen und Unternehmensanwendungen
  • Menschen: soziale Medien, Transaktionen, Online-Klicks, Patientenakten, Verbrauch nat¨¹rlicher Ressourcen usw.
  • Forschungsdaten aus der wissenschaftlichen Gemeinschaft und von anderen Organisationen

Arten von Big Data: Strukturiert versus unstrukturiert

Unterschiedliche Datentypen erfordern unterschiedliche Arten von Storage. Dies gilt f¨¹r strukturierte und unstrukturierte Daten, f¨¹r die unterschiedliche Arten von Datenbanken, Verarbeitung, Storage und Analysen erforderlich sind.

Strukturierte Daten sind herk?mmliche Daten, die einfach in Tabellen passen. Strukturierte Daten lassen sich oft leicht kategorisieren und als Eintr?ge in Standardwerten wie Preisen, Daten, Zeiten usw. formatieren.

Unstrukturierte Daten sind moderne Daten, die nicht ganz so einfach oder leicht in eine Tabelle einzugeben sind. Unstrukturierte Daten sind heute oft ein Synonym f¨¹r Big Data und werden in den kommenden Jahren sch?tzungsweise 80?% der Daten ausmachen. Dazu geh?ren alle Daten, die von sozialen Medien, vom IoT, von Content Creators, bei der ?berwachung und von anderen Anwendungen generiert werden. Das kann Texte, Bilder, Tonaufnahmen und Videos umfassen. Sie sind die treibende Kraft hinter neuen Storage-Kategorien wie FlashBlade? Unified Fast File and Object (UFFO). Um unstrukturierte Daten nutzen zu k?nnen, ben?tigen Unternehmen mehr Storage, mehr Rechenleistung und eine bessere Konsolidierung zahlreicher Datentypen.

Erfahren Sie mehr ¨¹ber strukturierte versus unstrukturierte Daten.

Wie sieht der Big-Data-Lebenszyklus aus?

Der Lebenszyklus von Big Data kann beispielsweise (aber nicht ausschlie?lich) Folgendes umfassen:

  1. Daten werden extrahiert und gesammelt. Daten k?nnen aus einer Vielzahl von Quellen stammen, darunter Systeme f¨¹r die Unternehmensressourcenplanung, IoT-Sensoren, Software wie Marketing- oder Point-of-Sale-Anwendungen, Streaming-Daten ¨¹ber APIs usw. Die Ausgabe dieser Daten wird variieren, was die Datenaufnahme zu einem wichtigen n?chsten Schritt macht. B?rsendaten beispielsweise unterscheiden sich stark von den Protokolldaten interner Systeme.
  2. Daten werden aufgenommen. ETL-Pipelines (Exchange-Transform-Load) wandeln Daten in das richtige Format um. Egal, ob die Daten in einer SQL-Datenbank oder in einem Datenvisualisierungstool verwendet werden sollen, m¨¹ssen sie in ein Format umgewandelt werden, das das Tool versteht. Zum Beispiel k?nnen die Namen in inkonsistenten Formaten vorliegen. An diesem Punkt sind die Daten bereit f¨¹r die Analyse.
  3. Daten werden zur Verarbeitung in den Storage geladen. Als N?chstes werden die Daten irgendwo gespeichert, sei es in einem Cloud-basierten Data Warehouse oder in lokalem Storage. Dies kann auf unterschiedliche Weise geschehen, je nachdem, ob die Daten in Batches geladen werden oder ob ereignisbasiertes Streaming rund um die Uhr stattfindet. (Hinweis: Dieser Schritt kann abh?ngig von den Gesch?ftsanforderungen vor dem Umwandlungsschritt erfolgen).

    Mehr erfahren: Was ist ein Data Warehouse?

  4. Daten werden durchsucht und analysiert. Moderne, Cloud-basierte Rechen-, Verarbeitungs- und Storage-Tools haben einen gro?en Einfluss auf die Entwicklung des Big-Data-Lebenszyklus. (Hinweis: Bestimmte moderne Tools wie Amazon Redshift k?nnen ETL-Prozesse umgehen und erm?glichen es Ihnen, Daten viel schneller zu durchsuchen.)?
  5. Daten werden archiviert. Egal, ob sie langfristig kalt gespeichert werden oder in einem besser zug?nglichen Storage ?warmgehalten¡° werden: Zeitkritische Daten, die ihren Zweck erf¨¹llt haben, werden gespeichert. Wenn kein sofortiger Zugriff mehr erforderlich ist, ist Kaltspeicherung eine kosteng¨¹nstige und platzsparende M?glichkeit, Daten zu speichern, besonders dann, wenn sie zur Erf¨¹llung von Compliance-Anforderungen oder als Grundlage f¨¹r langfristige strategische Entscheidungen ben?tigt werden. Dadurch werden auch die Auswirkungen auf die Performance reduziert, die sich daraus ergeben, dass Petabytes an kalten Daten auf einem Server gespeichert werden, der auch hei?e Daten enth?lt.

Wozu k?nnen Unternehmen Big Data nutzen?

Es gibt viele spannende, effektive Einsatzm?glichkeiten f¨¹r Big Data. Ihr Wert liegt in den gesch?ftlichen Durchbr¨¹chen, zu denen Erkenntnisse aus Big Data beitragen k?nnen. H?ufige Ziele und Anwendungen f¨¹r Big Data sind:

  • Echtzeit-Einblicke und -Erkenntnisse aus der Analyse von Streaming-Daten zum Ausl?sen von Warnungen und zum Erkennen von Anomalien
  • Vorausschauende Analysen
  • Business-Intelligence
  • Maschinelles Lernen
  • Risikoanalyse zur Vorbeugung von Betrug und Datenverletzungen und zur Reduzierung von Sicherheitsrisiken
  • K¨¹nstliche Intelligenz, einschlie?lich Bilderkennung, Verarbeitung nat¨¹rlicher Sprache und neuronaler Netzwerke
  • Verbesserung von Benutzererfahrung und Kundeninteraktionen durch Empfehlungsmaschinen und vorausschauenden Support
  • Reduzierung von Kosten und Ineffizienzen in Prozessen (intern, Fertigung usw.)
  • Datengesteuertes Marketing und Kommunikation, mit Analyse von Millionen von Datenpunkten aus sozialen Medien, von Verbrauchern und aus digitaler Werbung, die in Echtzeit erstellt werden

Informieren Sie sich ¨¹ber weitere branchenspezifische Big-Data-Anwendungsf?lle und -Anwendungen.

Wie wird Big Data gespeichert?

Big Data stellt besondere Anforderungen, insbesondere an den Daten-Storage. Es wird fast st?ndig in eine Datenbank geschrieben (wie bei Echtzeit-Streaming-Daten) und umfasst h?ufig viele unterschiedliche Formate. Infolgedessen wird Big Data oft am besten in schemalosen (unstrukturierten) Umgebungen gespeichert, um auf einem verteilten Dateisystem gestartet zu werden, damit die Verarbeitung parallel ¨¹ber massive Datens?tze hinweg erfolgen kann. Dadurch eignet es sich hervorragend f¨¹r eine unstrukturierte Storage-Plattform, die Datei- und Objektdaten vereinen kann.

Erfahren Sie mehr ¨¹ber den Unterschied zwischen einem Data Hub und einem Datenpool.

Wie Edge Computing den Bedarf nach Big Data steigert

Das Aufkommen des Internets der Dinge (IoT) hat zu einem Anstieg der Menge an Daten gef¨¹hrt, die ¨¹ber Flotten von verteilten Ger?ten verwaltet werden m¨¹ssen.?

Anstatt darauf zu warten, dass IoT-Daten an einen zentralen Ort wie ein Rechenzentrum ¨¹bertragen und dort verarbeitet werden, ist Edge Computing eine verteilte Rechentopologie, bei der Informationen lokal in der Peripherie verarbeitet werden, dem Schnittpunkt zwischen Menschen und Ger?ten, an dem neue Daten erzeugt werden.?

Mit Edge Computing sparen Unternehmen nicht nur Geld und Bandbreite, sondern k?nnen auch effizientere Echtzeitanwendungen entwickeln, die ihren Kunden ein besseres Benutzererlebnis bieten. Dieser Trend wird sich in den kommenden Jahren mit der Einf¨¹hrung neuer Funktechnologien wie 5G nur noch beschleunigen.

Da immer mehr Ger?te mit dem Internet verbunden sind, wird die Menge der Daten, die in Echtzeit und in der Peripherie verarbeitet werden m¨¹ssen, zunehmen. Wie k?nnen Sie also Daten-Storage bereitstellen, der verteilt und flexibel genug ist, um die steigenden Anforderungen an Daten-Storage beim Edge Computing zu erf¨¹llen? Die kurze Antwort lautet: Container-nativer Daten-Storage.?

Wenn wir uns bestehende Edge-Plattformen wie AWS Snowball, Microsoft Azure Stack und Google Anthos ansehen, f?llt auf, dass sie alle auf Kubernetes basieren, einer beliebten Container-Orchestrierungsplattform. Kubernetes erm?glicht es diesen Umgebungen, Workloads f¨¹r die Datenaufnahme, -speicherung, -verarbeitung, -analyse und f¨¹r maschinelles Lernen in der Peripherie auszuf¨¹hren.?

Ein Kubernetes-Cluster mit mehreren Knoten, das in der Peripherie ausgef¨¹hrt wird, erfordert eine effiziente, die den spezifischen Anforderungen datenzentrierter Workloads gerecht wird. Mit anderen Worten: Containerisierte Anwendungen, die in der Peripherie ausgef¨¹hrt werden, erfordern Container-spezifisches Storage-Management. Portworx? ist eine Datenserviceplattform, die eine Stateful-Fabric f¨¹r die Verwaltung von Container-SLA-f?higen Datenvolumen bereitstellt.

Erfahren Sie mehr ¨¹ber die Beziehung zwischen Big Data und IoT.

Skalierbarer All-Flash-Daten-Storage f¨¹r alle Ihre Big-Data-Anforderungen

Das Hosten gro?er Datenmengen auf All-Flash-Arrays hat unter anderem folgende Vorteile:

  • h?here Geschwindigkeiten (55¨C180?IOPS bei HDDs gegen¨¹ber 3.000¨C40.000?IOPS bei SSDs)
  • enorme Parallelit?t mit mehr als 64.000?Queues f¨¹r I/O-Vorg?nge
  • NVMe-Performance und -Zuverl?ssigkeit

Weshalb sollten Sie sich im Hinblick auf Ihre Big-Data-Anforderungen f¨¹r É«¿Ø´«Ã½? entscheiden?

Relatives Volumen, Vielfalt und Geschwindigkeit von Big Data ?ndern sich st?ndig. Wenn Sie m?chten, dass Ihre Daten umfangreich und schnell bleiben, sollten Sie darauf achten, durchg?ngig in die neuesten Storage-Technologien zu investieren. Fortschritte beim Flash-Storage haben es m?glich gemacht, ma?geschneiderte All-Flash-Storage-L?sungen f¨¹r alle Ihre Datenebenen anzubieten. So kann Pure Ihnen beim Betrieb Ihrer Big-Data-Analyse-Pipeline helfen:

  • Alle Vorteile von All-Flash-Arrays
  • Konsolidierung zu einem einheitlichen, leistungsstarken Daten-Hub, der das Daten-Streaming mit hohem Durchsatz aus einer Vielzahl von Quellen bew?ltigen kann
  • Tats?chlich unterbrechungsfreie Evergreen?-Programmupgrades ohne Ausfallzeiten oder Datenmigrationen
  • Ein vereinfachtes Daten-Management-System, das die Wirtschaftlichkeit der Cloud mit der Kontrolle und Effizienz lokaler Systeme kombiniert

Schneller und effizienter Scale-out-Flash-Storage mit FlashBlade

11/2024
Enhance Data Lakehouse Infrastructure
É«¿Ø´«Ã½? has partnered with Dremio, the unified data lakehouse platform, to help enterprises build a future-proof, scalable, and efficient data infrastructure.
L?sungsprofil
3 pages

Wichtige Ressourcen und Veranstaltungen durchsuchen

THOUGHT LEADERSHIP
Der Innovationswettlauf

Branchenf¨¹hrer, die an vorderster Front der Storage-Innovationen stehen, geben Einblicke und Ausblicke.

Mehr erfahren
ANALYSTENBERICHT
Planen Sie Ihre cyberresiliente Zukunft

Entdecken Sie Strategien zur Zusammenarbeit, um Investitionen in Cybersicherheit optimal zu nutzen und eine schnelle Reaktionsf?higkeit sowie Wiederherstellung sicherzustellen.

Bericht lesen
QUELLE
Die Zukunft des Storage: Neue Prinzipien f¨¹r das KI-Zeitalter

Erfahren Sie, wie neue Herausforderungen wie KI die Anforderungen an den Daten-Storage ver?ndern und ein neues Denken sowie einen modernen Ansatz f¨¹r den Erfolg erforderlich machen.

E-Book herunterladen
QUELLE
Kaufen Sie keinen Storage mehr, sondern setzen Sie stattdessen auf Plattformen.

Untersuchen Sie die Anforderungen, die Komponenten und den Auswahlprozess f¨¹r Storage-Plattformen in Unternehmen.

Bericht lesen
KONTAKTIEREN SIE UNS
Fragen, Kommentare?

Haben Sie eine Frage oder einen Kommentar zu Produkten oder Zertifizierungen von Pure?? Wir helfen Ihnen gerne!

Termin f¨¹r Demo vereinbaren

Vereinbaren Sie einen Termin f¨¹r eine Live-Demo und sehen Sie selbst, wie Pure Ihnen helfen kann, Ihre Daten in ¨¹berzeugende Ergebnisse zu verwandeln.?

Rufen Sie uns an:?+49 89 26200662
Presse:
?pr@purestorage.com

?

É«¿Ø´«Ã½ Germany GmbH

Mies-van-der-Rohe-Stra?e 6

80807 M¨¹nchen

Deutschland

info@purestorage.com

SCHLIESSEN
Ihr Browser wird nicht mehr unterst¨¹tzt!

?ltere Browser stellen h?ufig ein Sicherheitsrisiko dar. Um die bestm?gliche Erfahrung bei der Nutzung unserer Website zu erm?glichen, f¨¹hren Sie bitte ein Update auf einen dieser aktuellen Browser durch.