É«¿Ø´«Ã½

Skip to Content

Qu¡¯est-ce que l¡¯ETL??

L¡¯extraction, la transformation et la charge (ETL) est un processus important dans l¡¯entreposage de donn¨¦es lorsque les entreprises doivent extraire des donn¨¦es de plusieurs sources et les stocker dans un emplacement centralis¨¦. La logique du processus et la conception de l¡¯infrastructure d¨¦pendront des besoins m¨¦tier, des donn¨¦es stock¨¦es et du caract¨¨re structur¨¦ ou non structur¨¦ du format.

Qu¡¯est-ce que l¡¯ETL??

Les donn¨¦es extraites de diff¨¦rentes sources doivent ¨ºtre stock¨¦es sous une forme sp¨¦cifique pour permettre aux applications, ¨¤ l¡¯apprentissage machine, ¨¤ l¡¯intelligence artificielle et ¨¤ l¡¯analytique de fonctionner avec elles. Le processus ETL est un groupe de r¨¨gles m¨¦tier qui d¨¦terminent les sources de donn¨¦es utilis¨¦es pour extraire des donn¨¦es, les transformer dans un format sp¨¦cifique, puis les charger dans une base de donn¨¦es. Les donn¨¦es peuvent ¨ºtre structur¨¦es ou non, ou les deux.

Apr¨¨s le processus ETL, les donn¨¦es sont stock¨¦es dans un data warehouse o¨´ les administrateurs peuvent les g¨¦rer davantage. Les administrateurs responsables des bases de donn¨¦es stockant les donn¨¦es ETL g¨¨rent la journalisation, l¡¯audit et les sauvegardes. Les donn¨¦es de journal pour les ¨¦v¨¦nements ETL peuvent ¨¦galement passer par son propre pipeline de donn¨¦es avant d¡¯¨ºtre stock¨¦es dans un entrep?t de donn¨¦es ¨¤ des fins d¡¯analytique administrative.

Le processus ETL

L¡¯ETL se compose de trois ¨¦tapes?: extraire, transformer et charger. Les administrateurs de bases de donn¨¦es, les d¨¦veloppeurs et les architectes cloud con?oivent g¨¦n¨¦ralement le processus ETL ¨¤ l¡¯aide de r¨¨gles m¨¦tier et d¡¯exigences applicatives. La conception d¡¯un processus ETL se d¨¦roule en trois ¨¦tapes?:

  • Extraire?: Les donn¨¦es brutes ¨¤ extraire peuvent provenir d¡¯une ou plusieurs sources. Les sources peuvent provenir d¡¯une API, d¡¯un site Web, d¡¯une autre base de donn¨¦es, de journaux IoT, de fichiers, d¡¯e-mails ou de tout autre format de donn¨¦es ing¨¦rable. Comme les sources peuvent avoir diff¨¦rents formats, la premi¨¨re ¨¦tape de l¡¯ETL extrait les donn¨¦es d¡¯une source pour l¡¯¨¦tape suivante.
  • Transformer?: Les r¨¨gles m¨¦tier et l¡¯emplacement de stockage de destination d¨¦finissent la conception de la transformation. Les donn¨¦es doivent ¨ºtre format¨¦es, filtr¨¦es et valid¨¦es avant de pouvoir ¨ºtre envoy¨¦es au data warehouse. Les donn¨¦es en double peuvent fausser les r¨¦sultats analytiques, de sorte que les ¨¦l¨¦ments en double sont supprim¨¦s avant de les stocker. Les donn¨¦es sont format¨¦es pour pouvoir ¨ºtre stock¨¦es. Par exemple, un num¨¦ro de t¨¦l¨¦phone peut ¨ºtre stock¨¦ avec ou sans tirets, de sorte que le processus de transformation ajoute ou supprime des tirets avant d¡¯¨ºtre envoy¨¦ au stockage.
  • Charger?: Apr¨¨s la transformation, les donn¨¦es sont envoy¨¦es au data warehouse pour y ¨ºtre stock¨¦es. Les donn¨¦es doivent ¨ºtre conserv¨¦es et les doublons ¨¦vit¨¦s. L¡¯¨¦tape de chargement doit donc prendre en compte les modifications incr¨¦mentielles ¨¤ chaque ex¨¦cution du processus ETL. L¡¯ETL s¡¯ex¨¦cute souvent plusieurs fois par jour pour les grandes entreprises, de sorte que seules de nouvelles donn¨¦es sont ajout¨¦es sans affecter les donn¨¦es d¡¯application actuelles d¨¦j¨¤ stock¨¦es dans la base de donn¨¦es.

Avantages de l¡¯ETL

Une fois qu¡¯un processus ETL est con?u, il s¡¯ex¨¦cute automatiquement tout au long de la journ¨¦e. Certains processus ETL peuvent ¨ºtre hebdomadaires ou mensuels, et la plupart des moteurs de base de donn¨¦es proposent un planificateur qui s¡¯ex¨¦cute sur le serveur pour ex¨¦cuter des t?ches ¨¤ un moment d¨¦fini. Un processus ETL bien con?u ne n¨¦cessite pas beaucoup de modifications et peut importer des donn¨¦es provenant de diverses sources sans interaction manuelle.

Les donn¨¦es brutes sans aucune transformation sont g¨¦n¨¦ralement inutiles pour l¡¯analytique, en particulier si votre entreprise utilise des donn¨¦es similaires provenant de plusieurs sources. Par exemple, une entreprise qui travaille sur l¡¯analyse du trafic peut extraire des donn¨¦es de diff¨¦rentes sources gouvernementales. Il est fort probable que toutes les sources cr¨¦ent des enregistrements en double, mais un processus ETL r¨¦cup¨¨re les donn¨¦es, supprime les doublons et formate les donn¨¦es pour les applications analytiques internes. Les entreprises peuvent extraire des donn¨¦es de nombreux sites et les pr¨¦parer automatiquement ¨¤ l¡¯analytique interne, ce qui alimente ¨¦galement les d¨¦cisions commerciales futures et les lancements de produits.

ETL acc¨¦l¨¨re la mise ¨¤ jour des donn¨¦es, ce qui profite aux entreprises qui ont besoin de travailler avec des donn¨¦es actuelles ou en temps r¨¦el. Traditionnellement, les importations de donn¨¦es ¨¦taient group¨¦es et ETL ¨¦tait lent. Les entreprises peuvent ne pas constater de modifications des donn¨¦es pendant plusieurs heures, mais la technologie ETL actuelle fournit des mises ¨¤ jour des donn¨¦es afin que l¡¯analytique puisse refl¨¦ter les changements r¨¦cents des tendances.

Outils et technologies ETL

Pour les pipelines de donn¨¦es volumineux, la plupart des organisations utilisent des outils et des scripts personnalis¨¦s pour ETL. Les moteurs de base de donn¨¦es sont souvent dot¨¦s de leurs propres fonctionnalit¨¦s ETL, ce qui permet aux entreprises d¡¯importer des donn¨¦es. La mani¨¨re dont vous stockez les donn¨¦es d¨¦pend de votre besoin de donn¨¦es non structur¨¦es ou structur¨¦es. Les donn¨¦es structur¨¦es n¨¦cessitent davantage de formatage que les donn¨¦es non structur¨¦es, de sorte que tous les outils pr¨ºts ¨¤ l¡¯emploi doivent s¡¯int¨¦grer ¨¤ la plateforme de base de donn¨¦es que vous avez choisie.

Quelques outils pour ETL?:

  • ?: Offre une interface graphique open source pour l¡¯int¨¦gration de pipelines de donn¨¦es par glisser-d¨¦poser
  • Informatica PowerCenter?: Donne aux utilisateurs finaux les outils n¨¦cessaires pour importer des donn¨¦es et concevoir leurs propres pipelines de donn¨¦es pour les projets commerciaux
  • ?: Vous permet de concevoir ETL ¨¤ partir de donn¨¦es non structur¨¦es et structur¨¦es pour le stockage sur des compartiments S3
  • ?: Vous permet de cr¨¦er des processus ETL sans serveur pour stocker des donn¨¦es sur Google Cloud Platform (GCP)

Bonnes pratiques pour la mise en ?uvre d¡¯ETL

La cl¨¦ d¡¯une bonne conception ETL r¨¦side dans les performances et la pr¨¦cision. Les performances reposent souvent sur une infrastructure sous-jacente. Il est donc important de disposer d¡¯un data warehouse capable d¡¯¨¦voluer et de s¡¯adapter ¨¤ l¡¯augmentation des charges. Les donn¨¦es structur¨¦es prennent souvent plus de temps ¨¤ se transformer en raison des nombreuses contraintes li¨¦es aux tables, mais les solutions telles que FlashArray? sont con?ues pour les importations de donn¨¦es volumineuses et garantissent le bon fonctionnement des pipelines sur site.

Concevez toujours des processus ETL adapt¨¦s ¨¤ l¡¯¨¦volution et ¨¤ l¡¯inconnu. Il est fort possible que vous importiez un enregistrement qui ne peut pas ¨ºtre transform¨¦. Toutes les erreurs doivent ¨ºtre consign¨¦es et les enregistrements stock¨¦s pour un examen plus approfondi. Cela peut signifier qu¡¯il y a un bogue dans votre ETL ou que la conception manque un cas de p¨¦riph¨¦rie qui peut ¨ºtre corrig¨¦ en modifiant le code ETL.

Tous les processus ETL ne fonctionnent pas avec des serveurs physiques, c¡¯est pourquoi les solutions telles que Portworx? g¨¨rent les bases de donn¨¦es et les analyses virtualis¨¦es et conteneuris¨¦es. Les services conteneuris¨¦s doivent ¨¦voluer au fur et ¨¤ mesure que de plus en plus de donn¨¦es sont import¨¦es et fonctionner avec des outils d¡¯orchestration courants. Portworx s¡¯int¨¨gre aux outils d¡¯orchestration, notamment Kubernetes, pour des pipelines dynamiques et mis ¨¤ jour de mani¨¨re coh¨¦rente.

Les d¨¦fis et les solutions de l¡¯ETL

Comme les sources de donn¨¦es et les besoins m¨¦tier ¨¦voluent en permanence, les administrateurs charg¨¦s de concevoir l¡¯ETL rencontrent des difficult¨¦s en mati¨¨re d¡¯¨¦volutivit¨¦, de mises ¨¤ jour et de contr?le qualit¨¦. Les difficult¨¦s li¨¦es ¨¤ l¡¯¨¦volution sont g¨¦n¨¦ralement dues aux limitations de l¡¯espace de stockage, ce qui permet aux administrateurs de r¨¦soudre ce probl¨¨me avec un stockage qui ¨¦volue avec l¡¯augmentation des besoins en stockage de donn¨¦es.

Les difficult¨¦s li¨¦es ¨¤ l¡¯¨¦volution des exigences m¨¦tier rel¨¨vent souvent de la maintenance. Une source de donn¨¦es peut modifier la fa?on dont les donn¨¦es sont stock¨¦es, ou les d¨¦veloppeurs peuvent apporter des modifications ¨¤ une application n¨¦cessitant des modifications ¨¤ la transformation ou aux structures de charge. Sans documentation provenant de sources de donn¨¦es tierces pour alerter les administrateurs, les modifications apport¨¦es au stockage de donn¨¦es ou aux exigences de charge ne se pr¨¦sentent pas tant que le processus ETL n¡¯est pas erron¨¦. La journalisation et les alertes aident les administrateurs ¨¤ identifier rapidement les probl¨¨mes afin qu¡¯ils puissent apporter des modifications au codage ETL. Les changements pr¨¦coces r¨¦duisent l¡¯impact des erreurs sur la productivit¨¦ et le chiffre d¡¯affaires de l¡¯entreprise.

La conception d¡¯un processus ETL est l¡¯une des t?ches les plus difficiles, mais il peut ¨ºtre plus facile pour les administrateurs de parler aux parties prenantes et de s¡¯assurer que les r¨¨gles m¨¦tier sont incluses. La refonte et le remaniement d¡¯une conception ETL peuvent retarder le d¨¦ploiement et ajouter des frais inutiles. Documentez toutes les r¨¨gles m¨¦tier afin que chaque cas puisse ¨ºtre inclus dans une conception ETL pour ¨¦viter des r¨¦¨¦critures excessives.

Gardez diff¨¦rents processus ETL s¨¦par¨¦s et ind¨¦pendants les uns des autres. Cette solution garantit que l¡¯ensemble du processus ETL ne tombe pas en panne en cas de d¨¦faillance d¡¯un composant. Par exemple, si une API externe tombe en panne, l¡¯extraction des donn¨¦es de toutes les autres sources se poursuit jusqu¡¯¨¤ ce que l¡¯API soit ¨¤ nouveau disponible. Il est ¨¦galement possible de cr¨¦er plusieurs planifications ETL si n¨¦cessaire. Si vous travaillez avec plusieurs plateformes cloud, le stockage cloud É«¿Ø´«Ã½ prend en charge AWS , Azure , GCP et d¡¯autres plateformes majeures.

ETL ou ELT?

Il est important de noter que l¡¯ETL peut n¨¦cessiter beaucoup de ressources et introduire une certaine latence dans la disponibilit¨¦ des donn¨¦es, en particulier lorsqu¡¯il s¡¯agit de jeux de donn¨¦es volumineux. Si le traitement des donn¨¦es en temps r¨¦el ou quasi r¨¦el est une exigence critique, d¡¯autres m¨¦thodes d¡¯int¨¦gration des donn¨¦es, comme la capture des donn¨¦es modifi¨¦es (CDC) ou les pipelines de donn¨¦es en streaming, peuvent ¨ºtre plus adapt¨¦es.

De plus, ces derni¨¨res ann¨¦es, l¡¯ELT (extraction, chargement, transformation) est devenue une alternative populaire ¨¤ l¡¯ETL, en particulier dans les environnements de donn¨¦es bas¨¦s sur le cloud o¨´ la transformation des donn¨¦es peut ¨ºtre effectu¨¦e dans le syst¨¨me de stockage de donn¨¦es cible. L¡¯ELT peut ¨ºtre plus ¨¦conomique et ¨¦volutive pour certains cas d¡¯utilisation, mais le choix entre ETL et ELT d¨¦pend de vos besoins sp¨¦cifiques et des technologies que vous utilisez.

Conclusion

La conception d¡¯une solution ETL prend du temps, mais n¡¯oubliez pas de cr¨¦er un syst¨¨me qui ¨¦volue avec l¡¯augmentation du stockage de donn¨¦es. L¡¯un des d¨¦fis les plus simples ¨¤ r¨¦soudre est la capacit¨¦ de stockage de donn¨¦es, et les solutions É«¿Ø´«Ã½ sont con?ues pour l¡¯entreposage de donn¨¦es pour les donn¨¦es non structur¨¦es et structur¨¦es.

D¡¯autres d¨¦fis peuvent ¨ºtre r¨¦solus gr?ce ¨¤ des normes de conception, une documentation et des tests d¡¯assurance qualit¨¦ de bonne qualit¨¦. Vous constaterez peut-¨ºtre que certains outils peuvent faciliter la conception, mais l¡¯ETL est souvent personnalis¨¦ pour l¡¯entreprise. Testez un petit ¨¦chantillon de donn¨¦es dans un environnement de pr¨¦production, et pr¨¦voyez de maintenir en permanence le codage ETL ¨¤ mesure que de nouvelles exigences commerciales seront introduites.

Nous vous recommandons ¨¦galement¡­

06/2025
Maximizing the DICOM Standard for Digital Pathology Routing, Ingesting, and Storing
The routing functionality of the Dicom Systems Unifier?? platform and the management of the digitized pathology DICOM slides on É«¿Ø´«Ã½.
Livre blanc
11 pages

Parcourez les ressources cl¨¦s et les ¨¦v¨¦nements

LEADERSHIP ?CLAIR?
La course ¨¤ l¡¯innovation

Les derni¨¨res informations strat¨¦giques et perspectives fournies par des leaders du secteur, pionniers de l¡¯innovation en mati¨¨re de stockage.

En savoir plus
RAPPORT D¡¯ANALYSTE
Pr¨¦parer votre cyber-r¨¦silience future

D¨¦couvrez des strat¨¦gies de collaboration qui vous aideront ¨¤ tirer le meilleur parti de vos investissements dans la cybers¨¦curit¨¦ et ¨¤ garantir une r¨¦action et une r¨¦cup¨¦ration rapides.

Lire le rapport
RESSOURCE
L¡¯avenir du stockage?: les nouvelles r¨¨gles de l¡¯¨¨re de l¡¯IA

D¨¦couvrez comment les nouveaux d¨¦fis comme l¡¯IA transforment les besoins de stockage des donn¨¦es et n¨¦cessitent de repenser les processus et d¡¯adopter une approche moderne pour r¨¦ussir.

Obtenir l¡¯e-book
RESSOURCE
D¨¦laisser l¡¯achat de stockage pour favoriser l¡¯adoption de plateformes

D¨¦couvrez les besoins, les composants et le processus de s¨¦lection des plateformes de stockage d¡¯entreprise.

Lire le rapport
Votre navigateur n¡¯est plus pris en charge !

Les anciens navigateurs pr¨¦sentent souvent des risques de s¨¦curit¨¦. Pour profiter de la meilleure exp¨¦rience possible sur notre site, passez ¨¤ la derni¨¨re version de l¡¯un des navigateurs suivants.