É«¿Ø´«Ã½

Skip to Content

Was ist ETL?

ETL (Extrahieren, Transformieren und Laden) ist ein wichtiger Prozess beim Data Warehousing, wenn Unternehmen Daten aus mehreren Quellen abrufen und an einem zentralen Ort speichern m¨¹ssen. Die Prozesslogik und das Infrastrukturdesign h?ngen von den Gesch?ftsanforderungen, den zu speichernden Daten und davon ab, ob das Format strukturiert oder unstrukturiert ist.

Was ist ETL?

Daten aus verschiedenen Quellen m¨¹ssen in einer bestimmten Form gespeichert werden, damit Anwendungen, maschinelles Lernen, k¨¹nstliche Intelligenz und Analysen damit arbeiten k?nnen. Der ETL-Prozess ist eine Gruppe von Gesch?ftsregeln, die die Datenquellen bestimmen, die zum Abrufen von Daten verwendet werden, sie in ein bestimmtes Format umwandeln und dann in eine Datenbank laden. Daten k?nnen strukturiert oder unstrukturiert sein oder beides.

Nach dem ETL-Prozess werden die Daten in einem Data Warehouse gespeichert, in dem Administratoren sie weiter verwalten k?nnen. Administratoren, die f¨¹r die Datenbanken verantwortlich sind, in denen ETL-Daten gespeichert sind, verwalten Protokollierung, Auditierung und Backups. Die Protokolldaten f¨¹r ETL-Ereignisse k?nnten auch eine eigene Datenpipeline durchlaufen, bevor sie f¨¹r administrative Analysen in einem Data Warehouse gespeichert werden.

Der ETL-Prozess

ETL besteht aus drei Schritten: Extrahieren, Transformieren und Laden. Datenbankadministratoren, Entwickler und Cloud-Architekten entwerfen den ETL-Prozess in der Regel unter Verwendung von Gesch?ftsregeln und Anwendungsanforderungen. Das Design eines ETL-Prozesses befasst sich mit den folgenden drei Schritten:

  • Extrahieren: Rohdaten f¨¹r die Extraktion k?nnen aus einer oder mehreren Quellen stammen. Quellen k?nnen von einer API, einer Website, einer anderen Datenbank, IoT-Protokollen, Dateien, einer E-Mail oder einem anderen ingestiblen Datenformat stammen. Da Quellen verschiedene Formate haben k?nnten, bezieht der erste Schritt in ETL Daten aus einer Quelle f¨¹r den n?chsten Schritt.
  • Transformieren: Gesch?ftsregeln und der Ziel-Storage-Standort definieren das Transformationsdesign. Daten m¨¹ssen formatiert, gefiltert und validiert werden, bevor sie an das Data Warehouse gesendet werden k?nnen. Doppelte Daten k?nnen Analyseergebnisse verzerren, sodass doppelte Einzelpositionen vor dem Speichern entfernt werden. Daten werden so formatiert, dass sie gespeichert werden k?nnen. Beispielsweise kann eine Telefonnummer mit oder ohne Bindestriche gespeichert werden, sodass der Transformationsprozess Bindestriche entweder hinzuf¨¹gt oder entfernt, bevor er an den Storage gesendet wird.
  • Laden: Nach der Transformation werden Daten zum Storage an das Data Warehouse gesendet. Daten m¨¹ssen gespeichert und Duplikate vermieden werden, sodass der Ladeschritt bei jeder Ausf¨¹hrung des ETL-Prozesses inkrementelle ?nderungen ber¨¹cksichtigen muss. ETL wird bei gr??eren Unternehmen oft mehrmals t?glich ausgef¨¹hrt, sodass nur neue Daten hinzugef¨¹gt werden, ohne die aktuellen Anwendungsdaten zu beeintr?chtigen, die bereits in der Datenbank gespeichert sind.

Vorteile von ETL

Sobald ein ETL-Prozess entwickelt wurde, wird er den ganzen Tag ¨¹ber automatisch ausgef¨¹hrt. Einige ETL-Prozesse k?nnen w?chentlich oder monatlich auftreten, und die meisten Datenbank-Engines bieten einen Scheduler, der auf dem Server ausgef¨¹hrt wird, um Aufgaben zu einer festgelegten Zeit auszuf¨¹hren. Ein gut konzipierter ETL-Prozess erfordert nicht viele ?nderungen und kann Daten aus verschiedenen Quellen ohne manuelle Interaktion importieren.

Rohdaten ohne Transformation sind in der Regel f¨¹r Analysen nutzlos, insbesondere wenn Ihr Unternehmen ?hnliche Daten aus mehreren Quellen verwendet. Beispielsweise k?nnte ein Unternehmen, das mit Verkehrsanalysen arbeitet, Daten aus verschiedenen Regierungsquellen abrufen. Es ist sehr wahrscheinlich, dass alle Quellen doppelte Datens?tze erstellen, aber ein ETL-Prozess nimmt die Daten auf, entfernt Duplikate und formatiert die Daten f¨¹r interne Analyseanwendungen. Unternehmen konnten Daten von zahlreichen Standorten abrufen und sie automatisch auf interne Analysen vorbereiten, was auch zuk¨¹nftige Gesch?ftsentscheidungen und Produkteinf¨¹hrungen erm?glicht.

ETL beschleunigt Datenaktualisierungen, sodass Unternehmen profitieren, die mit aktuellen oder Echtzeitdaten arbeiten m¨¹ssen. Herk?mmlicherweise wurden Datenimporte geb¨¹ndelt und die ETL war langsam. Unternehmen sehen m?glicherweise mehrere Stunden lang keine ?nderungen an Daten, aber die aktuelle ETL-Technologie stellt Aktualisierungen an Daten bereit, sodass Analysen die j¨¹ngsten ?nderungen an Trends widerspiegeln k?nnen.

ETL-Tools und -Technologien

F¨¹r gro?e Datenpipelines verwenden die meisten Unternehmen nutzerdefinierte Tools und Skripte f¨¹r ETL. Datenbank-Engines verf¨¹gen oft ¨¹ber eigene ETL-Funktionen, sodass Unternehmen Daten importieren k?nnen. Wie Sie Daten speichern, h?ngt davon ab, ob Sie unstrukturierte oder strukturierte Daten ben?tigen. Strukturierte Daten erfordern mehr Formatierung als unstrukturierte Daten, sodass alle sofort einsatzbereiten Tools in die von Ihnen gew?hlte Datenbankplattform integriert werden m¨¹ssen.

Einige Tools f¨¹r ETL:

  • Bietet eine Open-Source-GUI f¨¹r die Integration von Drag-and-Drop-Datenpipelines
  • Informatica PowerCenter: Gibt Endbenutzern die Tools zum Importieren von Daten und zum Entwerfen eigener Datenpipelines f¨¹r Gesch?ftsprojekte
  • Erm?glicht das Entwerfen von ETL aus unstrukturierten und strukturierten Daten zum Speichern auf S3-Buckets
  • Erm?glicht es Ihnen, serverlose ETL-Prozesse zum Speichern von Daten auf der Google Cloud Platform (GCP) zu erstellen

Best Practices f¨¹r die ETL-Implementierung

Der Schl¨¹ssel zu einem guten ETL-Design sind Performance und Genauigkeit. Die Performance h?ngt oft von der zugrunde liegenden Infrastruktur ab. Daher ist es wichtig, ¨¹ber ein Data Warehouse zu verf¨¹gen, das skaliert werden kann und mit zunehmenden Belastungen Schritt h?lt. Strukturierte Daten ben?tigen aufgrund der vielen Tabellenbeschr?nkungen oft mehr Zeit f¨¹r die Transformation, aber L?sungen wie FlashArray? sind f¨¹r gro?e Datenimporte konzipiert und stellen sicher, dass lokale Pipelines weiterhin schnell ausgef¨¹hrt werden.

Entwerfen Sie immer ETL-Prozesse f¨¹r Skalierung und Unbekanntes. Es ist sehr m?glich, dass Sie irgendwann einen Datensatz importieren, der nicht transformiert werden kann. Alle Fehler sollten protokolliert und Aufzeichnungen zur weiteren ?berpr¨¹fung gespeichert werden. Es kann bedeuten, dass in Ihrem ETL ein Fehler vorliegt oder dass das Design einen Edge-Fall verpasst, der durch ?nderungen am ETL-Code behoben werden kann.

Nicht alle ETL-Prozesse funktionieren mit physischen Servern, sodass L?sungen wie Portworx? virtualisierte und containerisierte Datenbanken und Analysen verarbeiten. Containerisierte Services m¨¹ssen skaliert werden, wenn mehr Daten importiert werden, und mit g?ngigen Orchestrierungstools arbeiten. Portworx l?sst sich in Orchestrierungstools wie Kubernetes f¨¹r dynamische und konsistent aktualisierte Pipelines integrieren.

Herausforderungen und L?sungen bei ETL

Da sich Datenquellen und Gesch?ftsanforderungen st?ndig ?ndern, stehen Administratoren, die f¨¹r die Entwicklung von ETL verantwortlich sind, vor Herausforderungen im Zusammenhang mit Skalierung, Updates und Qualit?tskontrolle. Die Skalierungsherausforderungen ergeben sich in der Regel aus Storage-Platzbeschr?nkungen, sodass Administratoren dieses Problem mit Storage beheben k?nnen, der mit steigendem Daten-Storage-Bedarf skaliert wird.

Herausforderungen bei sich ?ndernden Gesch?ftsanforderungen werden h?ufig gewartet. Eine Datenquelle kann die Art und Weise ?ndern, wie Daten gespeichert werden, oder Entwickler k?nnen ?nderungen an einer Anwendung vornehmen, die ?nderungen an Transformations- oder Laststrukturen erfordert. Ohne Dokumentation von Datenquellen von Drittanbietern, die Administratoren warnen, werden ?nderungen am Daten-Storage oder an den Lastanforderungen erst dann angezeigt, wenn Fehler im ETL-Prozess auftreten. Protokollierung und Warnungen helfen Administratoren, Probleme fr¨¹hzeitig zu erkennen, sodass sie ?nderungen an der ETL-Codierung vornehmen k?nnen. Fr¨¹he ?nderungen verringern die Auswirkungen von Fehlern auf die Unternehmensproduktivit?t und den Umsatz.

Das Design eines ETL-Prozesses ist eine der schwierigsten Aufgaben, aber es kann einfacher sein, wenn Administratoren mit Stakeholdern sprechen und sicherstellen, dass Gesch?ftsregeln enthalten sind. Die Neugestaltung und Neubewertung eines ETL-Designs kann die Implementierung verz?gern und unn?tigen Overhead verursachen. Dokumentieren Sie alle Gesch?ftsregeln, sodass jeder Fall in ein ETL-Design aufgenommen werden kann, um ¨¹berm??ige Neuschreibungen zu vermeiden.

Halten Sie verschiedene ETL-Prozesse voneinander getrennt und unabh?ngig. Diese L?sung stellt sicher, dass der gesamte ETL-Prozess nicht fehlschl?gt, wenn eine Komponente ausf?llt. Wenn beispielsweise eine externe API abst¨¹rzt, wird die Extraktion von Daten aus allen anderen Quellen immer noch abgeschlossen, bis die API wieder verf¨¹gbar ist. Es ist auch m?glich, bei Bedarf mehrere ETL-Zeitpl?ne zu erstellen. Wenn Sie mit mehreren Cloud-Plattformen arbeiten, unterst¨¹tzt É«¿Ø´«Ã½ Cloud Storage AWS, Azure, GCP und andere wichtige Plattformen.

ETL vs. ELT?

Es ist wichtig zu beachten, dass ETL ressourcenintensiv sein und eine gewisse Latenz bei der Datenverf¨¹gbarkeit mit sich bringen kann, insbesondere beim Umgang mit gro?en Datens?tzen. Wenn die Datenverarbeitung in Echtzeit oder nahezu in Echtzeit eine kritische Anforderung ist, k?nnen andere Datenintegrationsmethoden wie die Erfassung von ?nderungsdaten (CDC) oder Streaming-Datenpipelines geeigneter sein.

Dar¨¹ber hinaus ist ELT (Extract, Load, Transformation) in den letzten Jahren zu einer beliebten Alternative zu ETL geworden, insbesondere in Cloud-basierten Datenumgebungen, in denen die Datentransformation innerhalb des Zieldaten-Storage-Systems durchgef¨¹hrt werden kann. ELT kann f¨¹r einige Anwendungsf?lle kosteng¨¹nstiger und skalierbarer sein, aber die Wahl zwischen ETL und ELT h?ngt von Ihren spezifischen Anforderungen und den Technologien ab, die Sie verwenden.

Fazit

Die Entwicklung einer ETL-L?sung dauert Zeit, aber vergessen Sie nicht, ein System zu entwickeln, das mit zunehmendem Daten-Storage skalierbar ist. Eine der am einfachsten zu l?senden Herausforderungen ist die Daten-Storage-Kapazit?t, und É«¿Ø´«Ã½-L?sungen sind f¨¹r Data Warehousing f¨¹r unstrukturierte und strukturierte Daten konzipiert.

Andere Herausforderungen k?nnen mit guten Designstandards, Dokumentation und Qualit?tssicherungstests gel?st werden. Vielleicht stellen Sie fest, dass einige Tools beim Design helfen k?nnen, aber ETL wird oft auf das Unternehmen zugeschnitten. Testen Sie eine kleine Stichprobe von Daten in einer Bereitstellungsumgebung und erwarten Sie, dass die ETL-Codierung bei Einf¨¹hrung neuer Gesch?ftsanforderungen kontinuierlich beibehalten wird.

05/2025
Five Reasons Why É«¿Ø´«Ã½ FlashArray File is Better
With FlashArray file, you don't have to go to the cloud for simplified file management -- we bring you the ease of a cloud-like experience on-premises.
L?sungsprofil
3 pages

Wichtige Ressourcen und Veranstaltungen durchsuchen

THOUGHT LEADERSHIP
Der Innovationswettlauf

Branchenf¨¹hrer, die an vorderster Front der Storage-Innovationen stehen, geben Einblicke und Ausblicke.

Mehr erfahren
ANALYSTENBERICHT
Planen Sie Ihre cyberresiliente Zukunft

Entdecken Sie Strategien zur Zusammenarbeit, um Investitionen in Cybersicherheit optimal zu nutzen und eine schnelle Reaktionsf?higkeit sowie Wiederherstellung sicherzustellen.

Bericht lesen
QUELLE
Die Zukunft des Storage: Neue Prinzipien f¨¹r das KI-Zeitalter

Erfahren Sie, wie neue Herausforderungen wie KI die Anforderungen an den Daten-Storage ver?ndern und ein neues Denken sowie einen modernen Ansatz f¨¹r den Erfolg erforderlich machen.

E-Book herunterladen
QUELLE
Kaufen Sie keinen Storage mehr, sondern setzen Sie stattdessen auf Plattformen.

Untersuchen Sie die Anforderungen, die Komponenten und den Auswahlprozess f¨¹r Storage-Plattformen in Unternehmen.

Bericht lesen
KONTAKTIEREN SIE UNS
Fragen, Kommentare?

Haben Sie eine Frage oder einen Kommentar zu Produkten oder Zertifizierungen von Pure?? Wir helfen Ihnen gerne!

Termin f¨¹r Demo vereinbaren

Vereinbaren Sie einen Termin f¨¹r eine Live-Demo und sehen Sie selbst, wie Pure Ihnen helfen kann, Ihre Daten in ¨¹berzeugende Ergebnisse zu verwandeln.?

Rufen Sie uns an:?+49 89 26200662
Presse:
?pr@purestorage.com

?

É«¿Ø´«Ã½ Germany GmbH

Mies-van-der-Rohe-Stra?e 6

80807 M¨¹nchen

Deutschland

info@purestorage.com

SCHLIESSEN
Ihr Browser wird nicht mehr unterst¨¹tzt!

?ltere Browser stellen h?ufig ein Sicherheitsrisiko dar. Um die bestm?gliche Erfahrung bei der Nutzung unserer Website zu erm?glichen, f¨¹hren Sie bitte ein Update auf einen dieser aktuellen Browser durch.