É«¿Ø´«Ã½

Skip to Content

?Qu¨¦ es ETL?

La extracci¨®n, la transformaci¨®n y la carga (ETL) es un proceso importante en el almacenamiento de datos cuando las empresas necesitan extraer datos de m¨²ltiples fuentes y almacenarlos en una ubicaci¨®n centralizada. La l¨®gica del proceso y el dise?o de la infraestructura depender¨¢n de los requisitos de la empresa, de los datos que se almacenan y de si el formato est¨¢ estructurado o no.

?Qu¨¦ es ETL?

Los datos extra¨ªdos de varias fuentes deben almacenarse de una forma espec¨ªfica para permitir que las aplicaciones, el aprendizaje autom¨¢tico, la inteligencia artificial y los an¨¢lisis trabajen con ellos. El proceso ETL es un grupo de reglas empresariales que determinan las fuentes de datos utilizadas para extraer datos, transformarlos en un formato espec¨ªfico y luego cargarlos en una base de datos. Los datos pueden ser estructurados o no estructurados, o pueden ser ambos.

Una vez que se produce el proceso ETL, los datos se almacenan en un almac¨¦n de datos donde los administradores pueden gestionarlos a¨²n m¨¢s. Los administradores responsables de las bases de datos que almacenan los datos ETL gestionan los registros, las auditor¨ªas y las copias de seguridad. Los datos de registro de los eventos ETL tambi¨¦n pueden pasar por su propio pipeline de datos antes de almacenarse en un almac¨¦n de datos para realizar an¨¢lisis administrativos.

El proceso ETL

ETL tiene tres pasos: extraer, transformar y cargar. Los administradores de bases de datos, los desarrolladores y los arquitectos de la nube suelen dise?ar el proceso ETL usando reglas empresariales y requisitos de aplicaci¨®n. El dise?o de un proceso ETL aborda los tres pasos siguientes:

  • Extraer: Los datos brutos para la extracci¨®n pueden provenir de una o varias fuentes. Las fuentes pueden ser de una API, un sitio web, otra base de datos, registros de IoT, archivos, correo electr¨®nico o cualquier otro formato de datos ingerible. Debido a que las fuentes pueden tener varios formatos, el primer paso en ETL extrae los datos de una fuente para el siguiente paso.
  • Transformar: Las reglas empresariales y la ubicaci¨®n de almacenamiento de destino definen el dise?o de la transformaci¨®n. Los datos deben formatearse, filtrarse y validarse antes de poder enviarlos al almac¨¦n de datos. Los datos duplicados pueden sesgar los resultados anal¨ªticos, por lo que los elementos de l¨ªnea duplicados se eliminan antes de almacenarlos. Los datos tienen un formato que permite almacenarlos. Por ejemplo, un n¨²mero de tel¨¦fono puede almacenarse con o sin guiones, por lo que el proceso de transformaci¨®n a?ade o elimina guiones antes de enviarlo al almacenamiento.
  • Cargar: Despu¨¦s de la transformaci¨®n, los datos se env¨ªan al almac¨¦n de datos para su almacenamiento. Los datos deben conservarse y evitarse los duplicados, por lo que el paso de carga debe tener en cuenta los cambios incrementales cada vez que se ejecuta el proceso ETL. ETL suele ejecutarse varias veces al d¨ªa para las grandes empresas, por lo que solo se a?aden nuevos datos sin afectar a los datos de las aplicaciones actuales que ya est¨¢n almacenados en la base de datos.

Ventajas de ETL

Una vez dise?ado un proceso ETL, se ejecuta autom¨¢ticamente a lo largo del d¨ªa. Algunos procesos ETL pueden ser semanales o mensuales y la mayor¨ªa de los motores de bases de datos ofrecen un programador que se ejecuta en el servidor para ejecutar tareas a una hora determinada. Un proceso ETL bien dise?ado no necesita muchos cambios y puede importar datos de varias fuentes sin interacci¨®n manual.

Los datos brutos sin ninguna transformaci¨®n suelen ser in¨²tiles para los an¨¢lisis, sobre todo si su empresa utiliza datos similares de varias fuentes. Por ejemplo, una empresa que trabaja con an¨¢lisis de tr¨¢fico puede extraer datos de varias fuentes gubernamentales diferentes. Es muy probable que todas las fuentes creen registros duplicados, pero un proceso ETL tomar¨¢ los datos, eliminar¨¢ los duplicados y formatee los datos para las aplicaciones anal¨ªticas internas. Las empresas pueden extraer datos de numerosas ubicaciones y prepararlos autom¨¢ticamente para los an¨¢lisis internos, lo que tambi¨¦n impulsa las decisiones empresariales futuras y los lanzamientos de productos.

ETL acelera las actualizaciones de datos, por lo que beneficia a las empresas que necesitan trabajar con datos actuales o en tiempo real. Tradicionalmente, las importaciones de datos eran por lotes y ETL era lenta. Es posible que las empresas no vean cambios en los datos durante varias horas, pero la tecnolog¨ªa ETL actual proporciona actualizaciones a los datos para que los an¨¢lisis puedan reflejar los cambios recientes en las tendencias.

Herramientas y tecnolog¨ªas ETL

Para los pipelines de datos grandes, la mayor¨ªa de las organizaciones utilizan herramientas y scripts personalizados para ETL. Los motores de bases de datos suelen incluir sus propias caracter¨ªsticas ETL para que las empresas puedan importar datos. La manera de almacenar los datos depende de si necesita datos no estructurados o estructurados. Los datos estructurados requieren m¨¢s formato que los datos no estructurados, por lo que cualquier herramienta lista para usar debe integrarse con la plataforma de base de datos elegida.

Unas pocas herramientas para ETL:

  • : Ofrece una interfaz gr¨¢fica de usuario de c¨®digo abierto para la integraci¨®n de los pipelines de datos de arrastrar y soltar.
  • Informatica PowerCenter: Proporciona a los usuarios finales las herramientas para importar datos y dise?ar sus propios pipelines de datos para proyectos empresariales.
  • Le permite dise?ar ETL a partir de datos no estructurados y estructurados para almacenarlos en cubos S3.
  • Le permite crear procesos ETL sin servidor para almacenar datos en la Google Cloud Platform (GCP).

Mejores pr¨¢cticas para la implementaci¨®n de ETL

La clave para un buen dise?o ETL es el rendimiento y la precisi¨®n. El rendimiento suele depender de la infraestructura subyacente, por lo que es importante tener un almac¨¦n de datos que pueda escalarse y seguir el ritmo de las cargas crecientes. Los datos estructurados suelen tardar m¨¢s tiempo en transformarse debido a las numerosas limitaciones de la tabla, pero las soluciones como FlashArray ? se han creado para las grandes importaciones de datos y garantizan que los pipelines locales sigan funcionando r¨¢pidamente.

Dise?e siempre procesos ETL para escala y lo desconocido. Es muy posible que con el tiempo importe un registro que no pueda transformarse. Cualquier error debe registrarse y los registros deben almacenarse para su posterior revisi¨®n. Puede significar que hay un error en su ETL o que el dise?o no tiene un caso perimetral que pueda solucionarse con cambios en el c¨®digo ETL.

No todos los procesos ETL funcionan con servidores f¨ªsicos, por lo que soluciones como Portworx ? manejan bases de datos y anal¨ªticas virtualizadas y contenedorizadas. Los servicios contenedorizados deben escalarse a medida que se importan m¨¢s datos y trabajar con herramientas de orquestaci¨®n comunes. Portworx se integra con herramientas de orquestaci¨®n, como Kubernetes, para crear pipelines din¨¢micos y actualizados de manera constante.

Retos y soluciones en ETL

Debido a que las fuentes de datos y los requisitos empresariales cambian continuamente, los administradores responsables del dise?o de ETL tienen problemas asociados con la escala, las actualizaciones y el control de calidad. Los problemas de escalamiento suelen deberse a las limitaciones del espacio de almacenamiento, por lo que los administradores pueden solucionar este problema con un almacenamiento que se escala con un aumento de los requisitos de almacenamiento de datos.

Los retos que plantean los requisitos cambiantes de la empresa suelen estar bajo mantenimiento. Una fuente de datos puede cambiar la forma en que se almacenan los datos o los desarrolladores pueden realizar cambios en una aplicaci¨®n que requiera cambios en las estructuras de transformaci¨®n o carga. Sin tener ninguna documentaci¨®n de fuentes de datos de terceros para alertar a los administradores, los cambios en los requisitos de almacenamiento o carga de datos no se presentan hasta que se producen errores en el proceso ETL. El registro y las alertas ayudan a los administradores a identificar los problemas de manera temprana, para que puedan realizar cambios en la codificaci¨®n ETL. Los primeros cambios reducen el impacto de los errores en la productividad y los ingresos de la empresa.

El dise?o de un proceso de ETL es una de las tareas m¨¢s dif¨ªciles, pero puede ser m¨¢s f¨¢cil cuando los administradores hablan con las partes interesadas y se aseguran de que se cumplan las normas empresariales. El redise?o y la refactorizaci¨®n de un dise?o ETL pueden retrasar el despliegue y a?adir sobrecargas innecesarias. Documente todas las reglas de la empresa para que cada caso pueda incluirse en un dise?o ETL para evitar reescrituras excesivas.

Mantenga varios procesos ETL separados e independientes entre s¨ª. Esta soluci¨®n garantiza que todo el proceso ETL no falle si falla un componente. Por ejemplo, si una API externa falla, la extracci¨®n de datos de todas las otras fuentes sigue completando hasta que la API est¨¦ disponible de nuevo. Tambi¨¦n es posible crear m¨²ltiples programas ETL si es necesario. Si trabaja con m¨²ltiples plataformas en la nube, el almacenamiento en la nube de É«¿Ø´«Ã½ admite AWS , Azure , GCP y otras plataformas importantes.

ETL frente a ELT?

Es importante tener en cuenta que la ETL puede consumir muchos recursos y puede introducir cierta latencia en la disponibilidad de los datos, especialmente cuando se trata de grandes conjuntos de datos. Si el procesamiento de datos en tiempo real o casi en tiempo real es un requisito cr¨ªtico, otros m¨¦todos de integraci¨®n de datos, como la captura de datos de cambio (CDC) o los pipelines de datos de transmisi¨®n, pueden ser m¨¢s adecuados.

Adem¨¢s, en los ¨²ltimos a?os, el ELT (extraer, cargar, transformar) se ha convertido en una alternativa popular al ETL, sobre todo en entornos de datos basados en la nube, en los que la transformaci¨®n de datos puede realizarse dentro del sistema de almacenamiento de datos de destino. El ELT puede ser m¨¢s rentable y escalable para algunos casos de uso, pero la elecci¨®n entre ETL y ELT depende de sus requisitos espec¨ªficos y de las tecnolog¨ªas que est¨¦ usando.

°ä´Ç²Ô³¦±ô³Ü²õ¾±¨®²Ô

El dise?o de una soluci¨®n ETL lleva tiempo, pero no olvide crear un sistema que se escale con el aumento del almacenamiento de datos. Uno de los retos m¨¢s f¨¢ciles de resolver es la capacidad de almacenamiento de datos y las soluciones de É«¿Ø´«Ã½ se han creado para el almacenamiento de datos para los datos no estructurados y estructurados.

Otros retos pueden resolverse con unos buenos est¨¢ndares de dise?o, documentaci¨®n y pruebas de garant¨ªa de calidad. Es posible que algunas herramientas le ayuden con el dise?o, pero el ETL suele personalizarse para la empresa. Pruebe una peque?a muestra de datos en un entorno de ensayo y espere mantener continuamente la codificaci¨®n ETL a medida que se introducen nuevos requisitos empresariales.

08/2025
Layered Resilience
Layered resilience ensures cyber recovery with immutable snapshots, automation, and secure storage to maintain availability and integrity amid any threat.
Resumen de la soluci¨®n
4 pages

Explore los recursos y eventos clave

EVENTOS PURE//ACCELERATE
Vamos a estar en una ciudad cerca de usted. Descubra d¨®nde.

Experimente lo que la plataforma de almacenamiento de datos m¨¢s avanzada del mundo y una nube de datos empresariales pueden hacer, por usted.

Reg¨ªstrese ahora
V?DEO
Ver: El valor de Enterprise Data Cloud.

Charlie Giancarlo explica por qu¨¦ la gesti¨®n de los datos ¡ªy no del almacenamiento¡ª es el futuro. Descubra c¨®mo un enfoque unificado transforma las operaciones de TI de la empresa.

Ver ahora
RECURSO
El almacenamiento tradicional no puede impulsar el futuro.

Las cargas de trabajo modernas exigen velocidad, seguridad y escala preparadas para la IA. ?Su stack est¨¢ listo?

Realice la evaluaci¨®n
DEMOS DE PURE360
Explore, aprenda y experimente É«¿Ø´«Ã½.

Acceda a v¨ªdeos y demostraciones bajo demanda para ver lo que É«¿Ø´«Ã½ puede hacer.

Ver las Demos
Your Browser Is No Longer Supported!

Older browsers often represent security risks. In order to deliver the best possible experience when using our site, please update to any of these latest browsers.