É«¿Ø´«Ã½

Skip to Content

Qu¡¯est-ce que l¡¯ETL??

L¡¯extraction, la transformation et la charge (ETL) est un processus important dans l¡¯entreposage de donn¨¦es lorsque les entreprises doivent extraire des donn¨¦es de plusieurs sources et les stocker dans un emplacement centralis¨¦. La logique du processus et la conception de l¡¯infrastructure d¨¦pendront des besoins m¨¦tier, des donn¨¦es stock¨¦es et du caract¨¨re structur¨¦ ou non structur¨¦ du format.

Qu¡¯est-ce que l¡¯ETL??

Les donn¨¦es extraites de diff¨¦rentes sources doivent ¨ºtre stock¨¦es sous une forme sp¨¦cifique pour permettre aux applications, ¨¤ l¡¯apprentissage machine, ¨¤ l¡¯intelligence artificielle et ¨¤ l¡¯analytique de fonctionner avec elles. Le processus ETL est un groupe de r¨¨gles m¨¦tier qui d¨¦terminent les sources de donn¨¦es utilis¨¦es pour extraire des donn¨¦es, les transformer dans un format sp¨¦cifique, puis les charger dans une base de donn¨¦es. Les donn¨¦es peuvent ¨ºtre structur¨¦es ou non, ou les deux.

Apr¨¨s le processus ETL, les donn¨¦es sont stock¨¦es dans un data warehouse o¨´ les administrateurs peuvent les g¨¦rer davantage. Les administrateurs responsables des bases de donn¨¦es stockant les donn¨¦es ETL g¨¨rent la journalisation, l¡¯audit et les sauvegardes. Les donn¨¦es de journal pour les ¨¦v¨¦nements ETL peuvent ¨¦galement passer par son propre pipeline de donn¨¦es avant d¡¯¨ºtre stock¨¦es dans un entrep?t de donn¨¦es ¨¤ des fins d¡¯analytique administrative.

Le processus ETL

L¡¯ETL se compose de trois ¨¦tapes?: extraire, transformer et charger. Les administrateurs de bases de donn¨¦es, les d¨¦veloppeurs et les architectes cloud con?oivent g¨¦n¨¦ralement le processus ETL ¨¤ l¡¯aide de r¨¨gles m¨¦tier et d¡¯exigences applicatives. La conception d¡¯un processus ETL se d¨¦roule en trois ¨¦tapes?:

  • Extraire?: Les donn¨¦es brutes ¨¤ extraire peuvent provenir d¡¯une ou plusieurs sources. Les sources peuvent provenir d¡¯une API, d¡¯un site Web, d¡¯une autre base de donn¨¦es, de journaux IoT, de fichiers, d¡¯e-mails ou de tout autre format de donn¨¦es ing¨¦rable. Comme les sources peuvent avoir diff¨¦rents formats, la premi¨¨re ¨¦tape de l¡¯ETL extrait les donn¨¦es d¡¯une source pour l¡¯¨¦tape suivante.
  • Transformer?: Les r¨¨gles m¨¦tier et l¡¯emplacement de stockage de destination d¨¦finissent la conception de la transformation. Les donn¨¦es doivent ¨ºtre format¨¦es, filtr¨¦es et valid¨¦es avant de pouvoir ¨ºtre envoy¨¦es au data warehouse. Les donn¨¦es en double peuvent fausser les r¨¦sultats analytiques, de sorte que les ¨¦l¨¦ments en double sont supprim¨¦s avant de les stocker. Les donn¨¦es sont format¨¦es pour pouvoir ¨ºtre stock¨¦es. Par exemple, un num¨¦ro de t¨¦l¨¦phone peut ¨ºtre stock¨¦ avec ou sans tirets, de sorte que le processus de transformation ajoute ou supprime des tirets avant d¡¯¨ºtre envoy¨¦ au stockage.
  • Charger?: Apr¨¨s la transformation, les donn¨¦es sont envoy¨¦es au data warehouse pour y ¨ºtre stock¨¦es. Les donn¨¦es doivent ¨ºtre conserv¨¦es et les doublons ¨¦vit¨¦s. L¡¯¨¦tape de chargement doit donc prendre en compte les modifications incr¨¦mentielles ¨¤ chaque ex¨¦cution du processus ETL. L¡¯ETL s¡¯ex¨¦cute souvent plusieurs fois par jour pour les grandes entreprises, de sorte que seules de nouvelles donn¨¦es sont ajout¨¦es sans affecter les donn¨¦es d¡¯application actuelles d¨¦j¨¤ stock¨¦es dans la base de donn¨¦es.

Avantages de l¡¯ETL

Une fois qu¡¯un processus ETL est con?u, il s¡¯ex¨¦cute automatiquement tout au long de la journ¨¦e. Certains processus ETL peuvent ¨ºtre hebdomadaires ou mensuels, et la plupart des moteurs de base de donn¨¦es proposent un planificateur qui s¡¯ex¨¦cute sur le serveur pour ex¨¦cuter des t?ches ¨¤ un moment d¨¦fini. Un processus ETL bien con?u ne n¨¦cessite pas beaucoup de modifications et peut importer des donn¨¦es provenant de diverses sources sans interaction manuelle.

Les donn¨¦es brutes sans aucune transformation sont g¨¦n¨¦ralement inutiles pour l¡¯analytique, en particulier si votre entreprise utilise des donn¨¦es similaires provenant de plusieurs sources. Par exemple, une entreprise qui travaille sur l¡¯analyse du trafic peut extraire des donn¨¦es de diff¨¦rentes sources gouvernementales. Il est fort probable que toutes les sources cr¨¦ent des enregistrements en double, mais un processus ETL r¨¦cup¨¨re les donn¨¦es, supprime les doublons et formate les donn¨¦es pour les applications analytiques internes. Les entreprises peuvent extraire des donn¨¦es de nombreux sites et les pr¨¦parer automatiquement ¨¤ l¡¯analytique interne, ce qui alimente ¨¦galement les d¨¦cisions commerciales futures et les lancements de produits.

ETL acc¨¦l¨¨re la mise ¨¤ jour des donn¨¦es, ce qui profite aux entreprises qui ont besoin de travailler avec des donn¨¦es actuelles ou en temps r¨¦el. Traditionnellement, les importations de donn¨¦es ¨¦taient group¨¦es et ETL ¨¦tait lent. Les entreprises peuvent ne pas constater de modifications des donn¨¦es pendant plusieurs heures, mais la technologie ETL actuelle fournit des mises ¨¤ jour des donn¨¦es afin que l¡¯analytique puisse refl¨¦ter les changements r¨¦cents des tendances.

Outils et technologies ETL

Pour les pipelines de donn¨¦es volumineux, la plupart des organisations utilisent des outils et des scripts personnalis¨¦s pour ETL. Les moteurs de base de donn¨¦es sont souvent dot¨¦s de leurs propres fonctionnalit¨¦s ETL, ce qui permet aux entreprises d¡¯importer des donn¨¦es. La mani¨¨re dont vous stockez les donn¨¦es d¨¦pend de votre besoin de donn¨¦es non structur¨¦es ou structur¨¦es. Les donn¨¦es structur¨¦es n¨¦cessitent davantage de formatage que les donn¨¦es non structur¨¦es, de sorte que tous les outils pr¨ºts ¨¤ l¡¯emploi doivent s¡¯int¨¦grer ¨¤ la plateforme de base de donn¨¦es que vous avez choisie.

Quelques outils pour ETL?:

  • ?: Offre une interface graphique open source pour l¡¯int¨¦gration de pipelines de donn¨¦es par glisser-d¨¦poser
  • Informatica PowerCenter?: Donne aux utilisateurs finaux les outils n¨¦cessaires pour importer des donn¨¦es et concevoir leurs propres pipelines de donn¨¦es pour les projets commerciaux
  • ?: Vous permet de concevoir ETL ¨¤ partir de donn¨¦es non structur¨¦es et structur¨¦es pour le stockage sur des compartiments S3
  • ?: Vous permet de cr¨¦er des processus ETL sans serveur pour stocker des donn¨¦es sur Google Cloud Platform (GCP)

Bonnes pratiques pour la mise en ?uvre d¡¯ETL

La cl¨¦ d¡¯une bonne conception ETL r¨¦side dans les performances et la pr¨¦cision. Les performances reposent souvent sur une infrastructure sous-jacente. Il est donc important de disposer d¡¯un data warehouse capable d¡¯¨¦voluer et de s¡¯adapter ¨¤ l¡¯augmentation des charges. Les donn¨¦es structur¨¦es prennent souvent plus de temps ¨¤ se transformer en raison des nombreuses contraintes li¨¦es aux tables, mais les solutions telles que FlashArray? sont con?ues pour les importations de donn¨¦es volumineuses et garantissent le bon fonctionnement des pipelines sur site.

Concevez toujours des processus ETL adapt¨¦s ¨¤ l¡¯¨¦volution et ¨¤ l¡¯inconnu. Il est fort possible que vous importiez un enregistrement qui ne peut pas ¨ºtre transform¨¦. Toutes les erreurs doivent ¨ºtre consign¨¦es et les enregistrements stock¨¦s pour un examen plus approfondi. Cela peut signifier qu¡¯il y a un bogue dans votre ETL ou que la conception manque un cas de p¨¦riph¨¦rie qui peut ¨ºtre corrig¨¦ en modifiant le code ETL.

Tous les processus ETL ne fonctionnent pas avec des serveurs physiques, c¡¯est pourquoi les solutions telles que Portworx? g¨¨rent les bases de donn¨¦es et les analyses virtualis¨¦es et conteneuris¨¦es. Les services conteneuris¨¦s doivent ¨¦voluer au fur et ¨¤ mesure que de plus en plus de donn¨¦es sont import¨¦es et fonctionner avec des outils d¡¯orchestration courants. Portworx s¡¯int¨¨gre aux outils d¡¯orchestration, notamment Kubernetes, pour des pipelines dynamiques et mis ¨¤ jour de mani¨¨re coh¨¦rente.

Les d¨¦fis et les solutions de l¡¯ETL

Comme les sources de donn¨¦es et les besoins m¨¦tier ¨¦voluent en permanence, les administrateurs charg¨¦s de concevoir l¡¯ETL rencontrent des difficult¨¦s en mati¨¨re d¡¯¨¦volutivit¨¦, de mises ¨¤ jour et de contr?le qualit¨¦. Les difficult¨¦s li¨¦es ¨¤ l¡¯¨¦volution sont g¨¦n¨¦ralement dues aux limitations de l¡¯espace de stockage, ce qui permet aux administrateurs de r¨¦soudre ce probl¨¨me avec un stockage qui ¨¦volue avec l¡¯augmentation des besoins en stockage de donn¨¦es.

Les difficult¨¦s li¨¦es ¨¤ l¡¯¨¦volution des exigences m¨¦tier rel¨¨vent souvent de la maintenance. Une source de donn¨¦es peut modifier la fa?on dont les donn¨¦es sont stock¨¦es, ou les d¨¦veloppeurs peuvent apporter des modifications ¨¤ une application n¨¦cessitant des modifications ¨¤ la transformation ou aux structures de charge. Sans documentation provenant de sources de donn¨¦es tierces pour alerter les administrateurs, les modifications apport¨¦es au stockage de donn¨¦es ou aux exigences de charge ne se pr¨¦sentent pas tant que le processus ETL n¡¯est pas erron¨¦. La journalisation et les alertes aident les administrateurs ¨¤ identifier rapidement les probl¨¨mes afin qu¡¯ils puissent apporter des modifications au codage ETL. Les changements pr¨¦coces r¨¦duisent l¡¯impact des erreurs sur la productivit¨¦ et le chiffre d¡¯affaires de l¡¯entreprise.

La conception d¡¯un processus ETL est l¡¯une des t?ches les plus difficiles, mais il peut ¨ºtre plus facile pour les administrateurs de parler aux parties prenantes et de s¡¯assurer que les r¨¨gles m¨¦tier sont incluses. La refonte et le remaniement d¡¯une conception ETL peuvent retarder le d¨¦ploiement et ajouter des frais inutiles. Documentez toutes les r¨¨gles m¨¦tier afin que chaque cas puisse ¨ºtre inclus dans une conception ETL pour ¨¦viter des r¨¦¨¦critures excessives.

Gardez diff¨¦rents processus ETL s¨¦par¨¦s et ind¨¦pendants les uns des autres. Cette solution garantit que l¡¯ensemble du processus ETL ne tombe pas en panne en cas de d¨¦faillance d¡¯un composant. Par exemple, si une API externe tombe en panne, l¡¯extraction des donn¨¦es de toutes les autres sources se poursuit jusqu¡¯¨¤ ce que l¡¯API soit ¨¤ nouveau disponible. Il est ¨¦galement possible de cr¨¦er plusieurs planifications ETL si n¨¦cessaire. Si vous travaillez avec plusieurs plateformes cloud, le stockage cloud É«¿Ø´«Ã½ prend en charge AWS , Azure , GCP et d¡¯autres plateformes majeures.

ETL ou ELT?

Il est important de noter que l¡¯ETL peut n¨¦cessiter beaucoup de ressources et introduire une certaine latence dans la disponibilit¨¦ des donn¨¦es, en particulier lorsqu¡¯il s¡¯agit de jeux de donn¨¦es volumineux. Si le traitement des donn¨¦es en temps r¨¦el ou quasi r¨¦el est une exigence critique, d¡¯autres m¨¦thodes d¡¯int¨¦gration des donn¨¦es, comme la capture des donn¨¦es modifi¨¦es (CDC) ou les pipelines de donn¨¦es en streaming, peuvent ¨ºtre plus adapt¨¦es.

De plus, ces derni¨¨res ann¨¦es, l¡¯ELT (extraction, chargement, transformation) est devenue une alternative populaire ¨¤ l¡¯ETL, en particulier dans les environnements de donn¨¦es bas¨¦s sur le cloud o¨´ la transformation des donn¨¦es peut ¨ºtre effectu¨¦e dans le syst¨¨me de stockage de donn¨¦es cible. L¡¯ELT peut ¨ºtre plus ¨¦conomique et ¨¦volutive pour certains cas d¡¯utilisation, mais le choix entre ETL et ELT d¨¦pend de vos besoins sp¨¦cifiques et des technologies que vous utilisez.

Conclusion

La conception d¡¯une solution ETL prend du temps, mais n¡¯oubliez pas de cr¨¦er un syst¨¨me qui ¨¦volue avec l¡¯augmentation du stockage de donn¨¦es. L¡¯un des d¨¦fis les plus simples ¨¤ r¨¦soudre est la capacit¨¦ de stockage de donn¨¦es, et les solutions É«¿Ø´«Ã½ sont con?ues pour l¡¯entreposage de donn¨¦es pour les donn¨¦es non structur¨¦es et structur¨¦es.

D¡¯autres d¨¦fis peuvent ¨ºtre r¨¦solus gr?ce ¨¤ des normes de conception, une documentation et des tests d¡¯assurance qualit¨¦ de bonne qualit¨¦. Vous constaterez peut-¨ºtre que certains outils peuvent faciliter la conception, mais l¡¯ETL est souvent personnalis¨¦ pour l¡¯entreprise. Testez un petit ¨¦chantillon de donn¨¦es dans un environnement de pr¨¦production, et pr¨¦voyez de maintenir en permanence le codage ETL ¨¤ mesure que de nouvelles exigences commerciales seront introduites.

Nous vous recommandons ¨¦galement¡­

05/2025
Five Reasons Why É«¿Ø´«Ã½ FlashArray File is Better
With FlashArray file, you don't have to go to the cloud for simplified file management -- we bring you the ease of a cloud-like experience on-premises.
±Ê°ù¨¦²õ±ð²Ô³Ù²¹³Ù¾±´Ç²Ô
3 pages

Parcourez les ressources cl¨¦s et les ¨¦v¨¦nements

LEADERSHIP ?CLAIR?
La course ¨¤ l¡¯innovation

Les derni¨¨res informations strat¨¦giques et perspectives fournies par des leaders du secteur, pionniers de l¡¯innovation en mati¨¨re de stockage.

En savoir plus
RAPPORT D¡¯ANALYSTE
Pr¨¦parer votre cyber-r¨¦silience future

D¨¦couvrez des strat¨¦gies de collaboration qui vous aideront ¨¤ tirer le meilleur parti de vos investissements dans la cybers¨¦curit¨¦ et ¨¤ garantir une r¨¦action et une r¨¦cup¨¦ration rapides.

Lire le rapport
RESSOURCE
L¡¯avenir du stockage?: les nouvelles r¨¨gles de l¡¯¨¨re de l¡¯IA

D¨¦couvrez comment les nouveaux d¨¦fis comme l¡¯IA transforment les besoins de stockage des donn¨¦es et n¨¦cessitent de repenser les processus et d¡¯adopter une approche moderne pour r¨¦ussir.

Obtenir l¡¯e-book
RESSOURCE
D¨¦laisser l¡¯achat de stockage pour favoriser l¡¯adoption de plateformes

D¨¦couvrez les besoins, les composants et le processus de s¨¦lection des plateformes de stockage d¡¯entreprise.

Lire le rapport
CONTACTEZ-NOUS
Des questions, des commentaires??

Vous avez des questions ou des commentaires concernant des produits ou certifications?Pure??? Nous sommes l¨¤ pour vous aider.

Planifier une d¨¦mo

Planifiez une d¨¦mo en direct et d¨¦couvrez comment Pure peut vous aider ¨¤ transformer vos donn¨¦es.?

°Õ¨¦±ô.?:?+33 1 89 96 04 00

Services M¨¦dias?:?pr@purestorage.com

?

É«¿Ø´«Ã½ France

32 rue Guersant

75017 Paris

info@purestorage.com

?

FERMER
Votre navigateur n¡¯est plus pris en charge !

Les anciens navigateurs pr¨¦sentent souvent des risques de s¨¦curit¨¦. Pour profiter de la meilleure exp¨¦rience possible sur notre site, passez ¨¤ la derni¨¨re version de l¡¯un des navigateurs suivants.