É«¿Ø´«Ã½

Skip to Content

?Qu¨¦ es ETL?

Extraer, transformar y cargar (ETL) es un proceso importante en el almacenamiento de datos cuando las empresas necesitan extraer datos de varias fuentes y almacenarlos en una ubicaci¨®n centralizada. La l¨®gica del proceso y el dise?o de la infraestructura depender¨¢n de los requisitos comerciales, los datos que se almacenen y si el formato est¨¢ estructurado o no.

?Qu¨¦ es ETL?

Los datos extra¨ªdos de varias fuentes deben almacenarse en una forma espec¨ªfica para permitir que las aplicaciones, el aprendizaje autom¨¢tico, la inteligencia artificial y el an¨¢lisis funcionen con ellos. El proceso de ETL es un grupo de reglas empresariales que determinan las fuentes de datos que se utilizan para extraer datos, transformarlos en un formato espec¨ªfico y luego cargarlos en una base de datos. Los datos pueden ser estructurados o no estructurados, o podr¨ªan ser ambos.

Despu¨¦s de que ocurre el proceso de ETL, los datos se almacenan en un almacenamiento de datos donde los administradores pueden administrarlos a¨²n m¨¢s. Los administradores responsables de las bases de datos que almacenan datos de ETL administran el registro, la auditor¨ªa y las copias de seguridad. Los datos de registro para los eventos de ETL tambi¨¦n podr¨ªan pasar por su propio proceso de datos antes de almacenarse en un almacenamiento de datos para el an¨¢lisis administrativo.

El proceso de ETL

ETL tiene tres pasos: extraer, transformar y cargar. Los administradores de bases de datos, los desarrolladores y los arquitectos de la nube generalmente dise?an el proceso de ETL utilizando reglas comerciales y requisitos de aplicaciones. El dise?o de un proceso de ETL aborda los siguientes tres pasos:

  • Extraer: Los datos sin procesar para la extracci¨®n podr¨ªan provenir de una o varias fuentes. Las fuentes pueden provenir de una API, un sitio web, otra base de datos, registros de IoT, archivos, correo electr¨®nico o cualquier otro formato de datos ingerible. Debido a que las fuentes podr¨ªan tener varios formatos, el primer paso en ETL extrae datos de una fuente para el siguiente paso.
  • Transformar: Las reglas comerciales y la ubicaci¨®n de almacenamiento de destino definen el dise?o de transformaci¨®n. Los datos se deben formatear, filtrar y validar antes de que se puedan enviar al almacenamiento de datos. Los datos duplicados pueden sesgar los resultados anal¨ªticos, por lo que los elementos de l¨ªnea duplicados se eliminan antes de almacenarlos. Los datos tienen un formato que permite almacenarlos. Por ejemplo, un n¨²mero de tel¨¦fono puede almacenarse con o sin guiones, por lo que el proceso de transformaci¨®n agrega o elimina guiones antes de ser enviado al almacenamiento.
  • Cargar: Despu¨¦s de la transformaci¨®n, los datos se env¨ªan al almacenamiento de datos para su almacenamiento. Se deben conservar los datos y evitar los duplicados, por lo que el paso de carga debe tener en cuenta los cambios incrementales cada vez que se ejecuta el proceso de ETL. ETL a menudo se ejecuta varias veces al d¨ªa para corporaciones m¨¢s grandes, por lo que solo se agregan datos nuevos sin afectar los datos de la aplicaci¨®n actual ya almacenados en la base de datos.

Beneficios de ETL

Una vez que se dise?a un proceso de ETL, se ejecuta autom¨¢ticamente a lo largo del d¨ªa. Algunos procesos de ETL podr¨ªan ser una ocurrencia semanal o mensual, y la mayor¨ªa de los motores de bases de datos ofrecen un programador que se ejecuta en el servidor para ejecutar tareas en un tiempo establecido. Un proceso de ETL bien dise?ado no necesita muchos cambios y puede importar datos de varias fuentes sin interacci¨®n manual.

Los datos sin procesar sin ninguna transformaci¨®n generalmente son in¨²tiles para el an¨¢lisis, especialmente si su empresa utiliza datos similares de varias fuentes. Por ejemplo, una empresa que trabaja con an¨¢lisis de tr¨¢fico podr¨ªa extraer datos de varias fuentes gubernamentales diferentes. Es muy probable que todas las fuentes creen registros duplicados, pero un proceso de ETL tomar¨¢ los datos, eliminar¨¢ los duplicados y dar¨¢ formato a los datos para aplicaciones de an¨¢lisis interno. Las empresas podr¨ªan extraer datos de varias ubicaciones y prepararlos autom¨¢ticamente para el an¨¢lisis interno, lo que tambi¨¦n potencia las decisiones comerciales futuras y el lanzamiento de productos.

ETL acelera las actualizaciones de datos, por lo que beneficia a las empresas que necesitan trabajar con datos actuales o en tiempo real. Tradicionalmente, las importaciones de datos eran por lotes y ETL era lento. Es posible que las empresas no vean cambios en los datos durante varias horas, pero la tecnolog¨ªa actual de ETL proporciona actualizaciones a los datos para que el an¨¢lisis pueda reflejar cambios recientes en las tendencias.

Herramientas y tecnolog¨ªas de ETL

Para grandes procesos de datos, la mayor¨ªa de las organizaciones utilizan herramientas y guiones personalizados para ETL. Los motores de bases de datos a menudo vienen con sus propias funciones de ETL para que las empresas puedan importar datos. La forma en que almacena los datos depende de si necesita datos no estructurados o estructurados. Los datos estructurados requieren m¨¢s formato que los datos no estructurados, por lo que cualquier herramienta lista para usar debe integrarse con la plataforma de base de datos elegida.

Algunas herramientas para ETL:

  • : Ofrece una interfaz gr¨¢fica de usuario de c¨®digo abierto para la integraci¨®n del proceso de datos de arrastrar y soltar
  • PowerCenter de Informatica: Proporciona a los usuarios finales las herramientas para importar datos y dise?ar sus propios procesos de datos para proyectos comerciales.
  • : Le permite dise?ar ETL a partir de datos no estructurados y estructurados para almacenar en cubos S3
  • : Le permite crear procesos ETL sin servidor para almacenar datos en la plataforma Google Cloud (GCP)

Mejores pr¨¢cticas para la implementaci¨®n de ETL

La clave para un buen dise?o ETL es el rendimiento y la precisi¨®n. El rendimiento a menudo depende de la infraestructura subyacente, por lo que es importante tener un almacenamiento de datos que pueda escalar y mantenerse al d¨ªa con las cargas crecientes. Los datos estructurados a menudo tardan m¨¢s tiempo en transformarse debido a las muchas limitaciones de la tabla, pero las soluciones como FlashArray ? est¨¢n dise?adas para grandes importaciones de datos y garantizan que los procesos en las instalaciones contin¨²en funcionando r¨¢pidamente.

Siempre dise?e procesos ETL para escala y lo desconocido. Es muy posible que eventualmente importe un registro que no se pueda transformar. Cualquier error debe registrarse y los registros deben almacenarse para una revisi¨®n adicional. Podr¨ªa significar que hay un error en su ETL o que el dise?o pierde un caso de borde que se puede corregir con cambios en el c¨®digo ETL.

No todos los procesos de ETL funcionan con servidores f¨ªsicos, por lo que las soluciones como Portworx ? manejan bases de datos y an¨¢lisis virtualizadas y en contenedores. Los servicios en contenedores deben escalar a medida que se importan m¨¢s datos y funcionan con herramientas de organizaci¨®n comunes. Portworx se integra con herramientas de organizaci¨®n que incluyen Kubernetes para procesos din¨¢micos y actualizados de manera consistente.

Desaf¨ªos y soluciones en ETL

Debido a que las fuentes de datos y los requisitos comerciales cambian continuamente, los administradores responsables de dise?ar ETL tienen desaf¨ªos asociados con la escala, las actualizaciones y el control de calidad. Los desaf¨ªos de escalamiento generalmente provienen de las limitaciones del espacio de almacenamiento, por lo que los administradores pueden solucionar este problema con el almacenamiento que escala con un aumento en los requisitos de almacenamiento de datos.

Los desaf¨ªos con los requisitos cambiantes del negocio suelen estar sujetos a mantenimiento. Una fuente de datos puede cambiar la forma en que se almacenan los datos, o los desarrolladores pueden realizar cambios en una aplicaci¨®n que requiera cambios en la transformaci¨®n o las estructuras de carga. Sin tener documentaci¨®n de fuentes de datos de terceros para alertar a los administradores, los cambios en los requisitos de almacenamiento de datos o carga no se presentan hasta que se producen errores en el proceso de ETL. El registro y las alertas ayudan a los administradores a identificar los problemas de forma temprana para que puedan realizar cambios en la codificaci¨®n ETL. Los primeros cambios reducen el impacto de los errores en la productividad y los ingresos del negocio.

El dise?o de un proceso de ETL es una de las tareas m¨¢s dif¨ªciles, pero puede ser m¨¢s f¨¢cil cuando los administradores hablan con las partes interesadas y se aseguran de que se incluyan las reglas comerciales. Redise?ar y refactorizar un dise?o de ETL puede retrasar la implementaci¨®n y agregar gastos generales innecesarios. Documente todas las reglas comerciales para que cada caso pueda incluirse en un dise?o de ETL para evitar reescrituras excesivas.

Mantenga varios procesos de ETL separados e independientes entre s¨ª. Esta soluci¨®n garantiza que todo el proceso de ETL no falle si falla un componente. Por ejemplo, si una API externa se bloquea, la extracci¨®n de datos de todas las dem¨¢s fuentes a¨²n se completa hasta que la API est¨¦ disponible nuevamente. Tambi¨¦n es posible crear varios cronogramas de ETL si es necesario. Si trabaja con varias plataformas en la nube, el almacenamiento en la nube de É«¿Ø´«Ã½ es compatible con AWS , Azure , GCP y otras plataformas importantes.

ETL frente a ELT?

Es importante tener en cuenta que ETL puede requerir muchos recursos y puede introducir cierta latencia en la disponibilidad de datos, especialmente cuando se trata de grandes conjuntos de datos. Si el procesamiento de datos en tiempo real o casi en tiempo real es un requisito cr¨ªtico, otros m¨¦todos de integraci¨®n de datos como la captura de datos de cambio (CDC) o los procesos de transmisi¨®n de datos pueden ser m¨¢s adecuados.

Adem¨¢s, en los ¨²ltimos a?os, ELT (extraer, cargar, transformar) se ha convertido en una alternativa popular a ETL, especialmente en entornos de datos basados en la nube donde la transformaci¨®n de datos se puede realizar dentro del sistema de almacenamiento de datos objetivo. ELT puede ser m¨¢s rentable y escalable para algunos casos de uso, pero la elecci¨®n entre ETL y ELT depende de sus requisitos espec¨ªficos y de las tecnolog¨ªas que est¨¦ utilizando.

Conclusiones

Dise?ar una soluci¨®n de ETL lleva tiempo, pero no olvide crear un sistema que se escale con el aumento del almacenamiento de datos. Uno de los desaf¨ªos m¨¢s f¨¢ciles de resolver es la capacidad de almacenamiento de datos, y las soluciones de É«¿Ø´«Ã½ est¨¢n dise?adas para el almacenamiento de datos para datos estructurados y no estructurados.

Se pueden resolver otros desaf¨ªos con buenos est¨¢ndares de dise?o, documentaci¨®n y pruebas de garant¨ªa de calidad. Es posible que descubra que algunas herramientas pueden ayudar con el dise?o, pero la ETL a menudo se personaliza para la empresa. Pruebe una peque?a muestra de datos en un entorno de almacenamiento provisional y espere mantener continuamente la codificaci¨®n ETL a medida que se introducen nuevos requisitos comerciales.

05/2025
Five Reasons Why É«¿Ø´«Ã½ FlashArray File is Better
With FlashArray file, you don't have to go to the cloud for simplified file management -- we bring you the ease of a cloud-like experience on-premises.
Resumen de la soluci¨®n
3 pages

Buscar recursos y eventos clave

LIDERAZGO DE PENSAMIENTO
La carrera de la innovaci¨®n.

Los ¨²ltimos conocimientos y perspectivas de l¨ªderes de la industria que est¨¢n a la vanguardia de la innovaci¨®n en almacenamiento.

M¨¢s informaci¨®n
INFORME DE ANALISTAS
Planifica tu futuro ciber-resiliente

Aprenda estrategias de colaboraci¨®n para maximizar las inversiones en ciberseguridad y garantizar una respuesta y recuperaci¨®n r¨¢pidas.

Lea el informe
RECURSO
El futuro del almacenamiento: Nuevos principios de la era de la AI

Aprenda c¨®mo nuevos desaf¨ªos como la AI est¨¢n transformando las necesidades de almacenamiento de datos, lo que requiere un nuevo enfoque y una aproximaci¨®n m¨¢s moderna para lograr el ¨¦xito.

Obtenga el libro electr¨®nico
RECURSO
Deje de comprar almacenamiento, en lugar de eso adopte plataformas

Explore las necesidades, los componentes y el proceso de selecci¨®n de plataformas de almacenamiento empresarial.

Lea el informe
CONT?CTENOS
?Preguntas, comentarios?

?Tiene alguna pregunta o comentario sobre los productos o las certificaciones de Pure?? Estamos aqu¨ª para ayudar.

Programe una demostraci¨®n

Programe una demostraci¨®n en vivo y compruebe usted mismo c¨®mo Pure puede ayudarlo a transformar sus datos en potentes resultados.?

³¢±ô¨¢³¾±ð²Ô´Ç²õ:?800-976-6494

Medios de comunicaci¨®n:?pr@purestorage.com

?

É«¿Ø´«Ã½.

2555 Augustine Dr.

Santa Clara, CA 95054

800-379-7873?(informaci¨®n general)

info@purestorage.com

CERRAR
?Su navegador ya no es compatible!

Los navegadores m¨¢s antiguos a menudo representan riesgos de seguridad. Para brindar la mejor experiencia posible al utilizar nuestro sitio, actualice a cualquiera de estos navegadores m¨¢s recientes.