É«¿Ø´«Ã½

Skip to Content
³Ò³Ü¨ª²¹

La gu¨ªa para principiantes sobre big data

?Qu¨¦ es Big Data y c¨®mo funciona? ?nase a nosotros en un an¨¢lisis profundo de Big Data y las tecnolog¨ªas que necesita para obtener resultados ¨²tiles para su organizaci¨®n.

?Qu¨¦ es Big?data?

Las empresas de hoy en d¨ªa recopilan enormes cantidades de datos de diversas fuentes, datos que suelen tener que analizarse en tiempo real. El t¨¦rmino big?data hace referencia a los datos que son demasiado grandes, r¨¢pidos o complejos para procesarse mediante las t¨¦cnicas tradicionales. Pero tambi¨¦n consta de varias tecnolog¨ªas y estrategias que son posibles gracias a big data como campos de generaci¨®n de inteligencia, por ejemplo an¨¢lisis predictivo, internet de las cosas, inteligencia artificial, y m¨¢s.

que se espera que el mercado de big data alcance los $156?mil millones para el 2026, y que las empresas tienen muchas buenas razones para sumarse. Aqu¨ª repasaremos sobre lo que es big data, de d¨®nde proviene, para qu¨¦ puede usarse y de qu¨¦ forma las empresas pueden preparar sus infraestructuras de TI para el ¨¦xito de big data.

Art¨ªculos relacionados

Las tres?V de big?data

Si bien el concepto de big?data existe hace mucho tiempo, el analista de la industria Doug?Laney fue el primero en acu?ar las tres?V de big?data en el 2001. Las tres V son las siguientes:

  • Volumen: La cantidad de datos que deben procesarse (suelen ser grandes cantidades, gigabytes, exabytes o mayores).
  • Variedad: La amplia gama de tipos de datos, tanto estructurados como no estructurados, procedentes de diversas fuentes.
  • Velocidad: La velocidad en la que los nuevos datos se transmiten al sistema.

Algunos expertos en datos ampl¨ªan este concepto a cuatro, cinco o m¨¢s V. La cuarta y la quinta V son las siguientes:

  • Veracidad: la calidad de los datos en relaci¨®n con su exactitud, precisi¨®n y confiabilidad.
  • Valor: El valor que proporcionan los datos, ?qu¨¦ valor tienen para su negocio?

La lista puede llegar hasta las; sin embargo, las cinco que mencionamos aqu¨ª son las m¨¢s utilizadas a la hora de definir el concepto de big?data.

Tambi¨¦n existen dos ideas diferentes de big data, que se diferencian en la forma en que est¨¢n procesadas y a qu¨¦ tipos de preguntas y consultas responden.

  • Procesamiento por lote se usa generalmente con una gran cantidad de datos hist¨®ricos almacenados para informar las estrategias a largo plazo o la respuesta a grandes preguntas. Piense en: gran cantidad de datos con an¨¢lisis complejo y detallado.
  • Datos de transmisi¨®n hace menos referencia a responder grandes preguntas que a obtener informaci¨®n inmediata y en tiempo real para objetivos sobre la marcha, como mantener la precisi¨®n de un proceso de fabricaci¨®n. Generalmente, se usa con grandes cantidades de datos que se mueven a un paso veloz. Piense en: grandes cantidades de datos a gran velocidad con an¨¢lisis menos complejo pero extremadamente r¨¢pido.

Obtenga m¨¢s informaci¨®n sobre la diferencia entre big data y datos tradicionales.

?De d¨®nde proviene big data?

Big data est¨¢ realmente destinado a describir todos los datos modernos y no estructurados que se recopilan hoy y c¨®mo se usan para la inteligencia y el conocimiento detallado. Estas fuentes generalmente incluyen:

  • Internet de las cosas y datos de miles de millones de dispositivos y sensores.
  • Datos de registros generados por computadora para el an¨¢lisis de los registros.
  • Software, plataformas y aplicaciones empresariales.
  • Humanos: redes sociales, transacciones, clics en l¨ªnea, registros de salud, consumo de recursos naturales, etc.
  • Datos de investigaci¨®n de la comunidad cient¨ªfica y otras organizaciones.

Tipos de big data: Estructurados frente a no estructurados

Diferentes tipos de datos requieren diferentes tipos de almacenamiento. Este es el caso con los datos estructurados y no estructurados, que requieren diferentes tipos de bases de datos, procesamiento, almacenamiento y an¨¢lisis.

Los datos estructurados son datos tradicionales que pueden ajustarse de forma ordenada en tablas. Los datos estructurados por lo general pueden categorizarse y organizarse de forma f¨¢cil en entradas con valores est¨¢ndar como precios, fechas, horas, etc.

Los datos no estructurados son datos modernos que generalmente no son tan f¨¢ciles de adaptar en una tabla. En la actualidad, el concepto de datos no estructurados, por lo general, es sin¨®nimo de big data y representar¨¢ un estimado del 80?% de los datos en los pr¨®ximos a?os. Incluye todos los datos generados por las redes sociales, IoT, creadores de contenido, vigilancia y m¨¢s. Puede incluir texto, im¨¢genes, sonido y videos. Es la fuerza motora que hay detr¨¢s de las nuevas categor¨ªas de almacenamiento como los objetos y archivos r¨¢pidos unificados (UFFO) FlashBlade?. Para usar los datos no estructurados, las empresas necesitan almacenamiento, m¨¢s poder de procesamiento y mejor consolidaci¨®n de varios tipos de datos.

Obtenga m¨¢s informaci¨®n sobre datos estructurados frente a no estructurados.

?C¨®mo se ve el ciclo de vida de big data?

El ciclo de vida de big data puede incluir, entre otros, lo siguiente:

  1. Se extraen y recopilan los datos. Los datos pueden provenir de una variedad de fuentes, incluidos los sistemas de planificaci¨®n de recursos empresariales, sensores de IoT, software como aplicaciones de marketing o puntos de venta, datos de transmisi¨®n a trav¨¦s de API, y m¨¢s. Los resultados de estos datos variar¨¢n, esto har¨¢ que la incorporaci¨®n sea un pr¨®ximo paso importante. Por ejemplo, los datos que provienen del mercado de valores ser¨¢n muy diferentes a los datos de registro de los sistemas internos.
  2. Se incorporan los datos. Los procesos de extraer, transformar y cargar (ETL) transforman los datos en el formato correcto. Ya sea que apunte a una base de datos de SQL o a una herramienta de visualizaci¨®n de datos, estos deben ser transformados en un formato que la herramienta pueda comprender. Por ejemplo, los nombres pueden encontrarse en formatos inconsistentes. En este punto, los datos est¨¢n listos para el an¨¢lisis.
  3. Los datos se cargan en el almacenamiento para ser procesados. Luego, los datos se almacenan en alg¨²n lugar, ya sea en un almacenamiento de datos basado en la nube o almacenamiento on-premises. Esto puede suceder de diferentes modos, dependiendo de si los datos est¨¢n cargados en lotes o si la transmisi¨®n basada en eventos ocurre en todo momento. (Nota: este paso se puede dar antes del paso de transformaci¨®n, dependiendo de las necesidades comerciales).

    M¨¢s informaci¨®n: ?Qu¨¦ es el almacenamiento de datos?

  4. Se consultan y analizan los datos. Las herramientas inform¨¢ticas modernas basadas en la nube, procesamiento y almacenamiento tienen un gran impacto en la evoluci¨®n del ciclo de vida de big data. (Nota: ciertas herramientas modernas como Amazon Redshift pueden evitar los procesos de ETL y permitirle consultar datos de forma mucho m¨¢s r¨¢pida).?
  5. Se archivan los datos. Ya sea que se almacenen por un largo tiempo en el almacenamiento de datos inactivos, o que se mantengan disponibles en un almacenamiento m¨¢s accesible, los datos urgentes que han cumplido su prop¨®sito ir¨¢n al almacenamiento. Si no se requiere un acceso inmediato, el almacenamiento de datos inactivos es una forma accesible para el uso eficiente de datos, en especial si se debe cumplir requisitos o informar una toma de decisiones estrat¨¦gica a largo plazo. Esto tambi¨¦n reduce los impactos sobre el rendimiento de conservar petabytes de datos inactivos en un servidor que tambi¨¦n contiene datos activos.

?Qu¨¦ pueden hacer las empresas con big data?

Hay varios usos interesantes y efectivos para big data. Su valor yace en la innovaci¨®n empresarial que los conocimientos sobre big data pueden ayudar a generar. Los objetivos y las aplicaciones de big data por lo general incluyen:

  • Informaci¨®n e inteligencia en tiempo real y sobre la marcha a partir del an¨¢lisis de datos de transmisi¨®n para disparar alertas e identificar anomal¨ªas.
  • An¨¢lisis predictivo.
  • Inteligencia empresarial.
  • Aprendizaje autom¨¢tico (Machine Learning).
  • An¨¢lisis de riesgos para ayudar a prevenir el fraude y la filtraci¨®n de informaci¨®n, y reducir los riesgos de seguridad.
  • Inteligencia artificial, incluido el reconocimiento de im¨¢genes, el procesamiento natural del idioma y las redes neurales.
  • Mejora de la experiencia del usuario y las interacciones del cliente a trav¨¦s de motores de recomendaciones y asistencia predictiva.
  • Reducci¨®n de costos e ineficiencias en los procesos (internos, de fabricaci¨®n, etc.).
  • Marketing y comunicaciones generados por datos, con el an¨¢lisis de millones de redes sociales, consumidores y puntos de datos de publicidad digital creada en tiempo real.

Ver m¨¢s aplicaciones y casos de uso de big data espec¨ªficos a la industria.

?De qu¨¦ forma se almacena big data?

Big data tiene demandas ¨²nicas, en especial en t¨¦rminos de almacenamiento de datos. Se escriben pr¨¢cticamente de forma constante a una base de datos (como es el caso de los datos de transmisi¨®n en tiempo real) y contienen una gran variedad de formatos. Como resultado, big data se almacena de mejor modo en un entorno sin esquema (no estructurado) para comenzar en un sistema de archivos distribuidos de tal manera que pueda darse el procesamiento en paralelo a trav¨¦s de conjuntos de datos masivos. Esto lo hace excelente para una plataforma de almacenamiento no estructurado que pueda unificar los archivos y datos de objetos.

Obtenga m¨¢s informaci¨®n sobre la diferencia entre hub de datos y data lake.

De qu¨¦ modo la computaci¨®n frontera impulsa la demanda de big data

El surgimiento de internet de las cosas (IoT) gener¨® un incremento en el volumen de los datos que debe administrarse a trav¨¦s de flotas de los dispositivos distribuidos.?

En lugar de esperar a que los datos de IoT se transfieran o procesen de forma remota en una ubicaci¨®n centralizada como el data center, la computaci¨®n frontera es una topolog¨ªa de computaci¨®n distribuida en que la informaci¨®n es procesada de forma local en la ¡°frontera¡±: la intersecci¨®n entre las personas y los dispositivos, donde se crean nuevos datos.?

La computaci¨®n frontera no solo ahorra dinero y banda ancha de las empresas, tambi¨¦n les permite desarrollar aplicaciones m¨¢s eficientes y en tiempo real que ofrezcan una experiencia de usuario superior para sus clientes. Esta tendencia solo se acelerar¨¢ en los pr¨®ximos a?os con el lanzamiento de las nuevas tecnolog¨ªas inal¨¢mbricas, como el 5G.

Como cada vez m¨¢s dispositivos est¨¢n conectados a internet, se espera un aumento en la cantidad de datos que se debe procesar en tiempo real y en la frontera. Entonces, ?c¨®mo proporciona almacenamiento de datos lo suficientemente distribuido y ¨¢gil como para cumplir con las crecientes demandas de almacenamiento de datos de la computaci¨®n frontera? La respuesta corta es almacenamiento de datos nativo en contenedores.?

Cuando observamos plataformas frontera existentes, como AWS Snowball, Microsoft Azure Stack y Google Anthos, vemos que est¨¢n todas basadas en Kubernetes, una plataforma de organizaci¨®n de contenedores popular. Los Kubernetes permiten que estos entornos ejecuten cargas de trabajo para la incorporaci¨®n de datos, el almacenamiento, el procesamiento, las t¨¦cnicas de an¨¢lisis y el aprendizaje autom¨¢tico en la frontera.?

Un cl¨²ster de Kubernetes multinodo que se ejecute en la frontera necesita de un eficiente que se encargue de las necesidades espec¨ªficas de las cargas de trabajo centradas en los datos. En otras palabras, las aplicaciones en contenedor que se ejecutan en la frontera requieren de la administraci¨®n de almacenamiento granular en contenedores. Portworx? es una plataforma de servicios de datos que ofrece una estructura sin p¨¦rdida de estado para administrar vol¨²menes de datos que tienen en cuenta el SLA de los contenedores.

Obtenga m¨¢s informaci¨®n sobre la relaci¨®n entre big data e IoT.

Almacenamiento de datos en flash escalable para todas sus necesidades de big data

Los beneficios de alojar big?data en matrices basadas ¨ªntegramente en tecnolog¨ªa flash incluyen:

  • Velocidades m¨¢s altas (55-180?IOPS para HDD frente a 3K-40K?IOPS para SDD).
  • Paralelismo masivo, con colas de m¨¢s de 64K para operaciones de entrada/salida (E/S).
  • El rendimiento y la confiabilidad de NVMe.

?Por qu¨¦ elegir Pure?Storage? para sus necesidades de big?data?

El volumen, la variedad y la velocidad relativos de big?data cambian de forma constante. Si desea mantener grandes cantidades de datos, y que sean r¨¢pidos, deber¨¢ asegurarse de invertir sistem¨¢ticamente en las nuevas tecnolog¨ªas de almacenamiento. Los avances en la memoria flash han permitido ofrecer soluciones personalizadas de almacenamiento basado ¨ªntegramente en tecnolog¨ªa flash para todos sus niveles de datos. A continuaci¨®n, le mostramos c¨®mo Pure?puede ayudar a impulsar sus procesos de t¨¦cnicas de an¨¢lisis de big?data:

  • Cuenta con todos los beneficios de las matrices basadas ¨ªntegramente en tecnolog¨ªa flash.
  • Est¨¢ consolidado en un hub de datos unificado y de alto rendimiento que es capaz de manejar una alta tasa de transferencia de datos provenientes de diversas fuentes.
  • Actualizaciones del programa Evergreen? que realmente no tiene interrupciones, en las que no hay tiempo de inactividad ni migraci¨®n de datos.
  • Un sistema simplificado de administraci¨®n de datos, que combina econom¨ªa de la nube con control y eficiencia en las instalaciones.

Almacenamiento flash de escalabilidad horizontal, r¨¢pida y eficiente, con FlashBlade.

11/2024
Enhance Data Lakehouse Infrastructure
É«¿Ø´«Ã½? has partnered with Dremio, the unified data lakehouse platform, to help enterprises build a future-proof, scalable, and efficient data infrastructure.
Resumen de la soluci¨®n
3 pages

Buscar recursos y eventos clave

LIDERAZGO DE PENSAMIENTO
La carrera de la innovaci¨®n.

Los ¨²ltimos conocimientos y perspectivas de l¨ªderes de la industria que est¨¢n a la vanguardia de la innovaci¨®n en almacenamiento.

M¨¢s informaci¨®n
INFORME DE ANALISTAS
Planifica tu futuro ciber-resiliente

Aprenda estrategias de colaboraci¨®n para maximizar las inversiones en ciberseguridad y garantizar una respuesta y recuperaci¨®n r¨¢pidas.

Lea el informe
RECURSO
El futuro del almacenamiento: Nuevos principios de la era de la AI

Aprenda c¨®mo nuevos desaf¨ªos como la AI est¨¢n transformando las necesidades de almacenamiento de datos, lo que requiere un nuevo enfoque y una aproximaci¨®n m¨¢s moderna para lograr el ¨¦xito.

Obtenga el libro electr¨®nico
RECURSO
Deje de comprar almacenamiento, en lugar de eso adopte plataformas

Explore las necesidades, los componentes y el proceso de selecci¨®n de plataformas de almacenamiento empresarial.

Lea el informe
CONT?CTENOS
?Preguntas, comentarios?

?Tiene alguna pregunta o comentario sobre los productos o las certificaciones de Pure?? Estamos aqu¨ª para ayudar.

Programe una demostraci¨®n

Programe una demostraci¨®n en vivo y compruebe usted mismo c¨®mo Pure puede ayudarlo a transformar sus datos en potentes resultados.?

³¢±ô¨¢³¾±ð²Ô´Ç²õ:?800-976-6494

Medios de comunicaci¨®n:?pr@purestorage.com

?

É«¿Ø´«Ã½.

2555 Augustine Dr.

Santa Clara, CA 95054

800-379-7873?(informaci¨®n general)

info@purestorage.com

CERRAR
?Su navegador ya no es compatible!

Los navegadores m¨¢s antiguos a menudo representan riesgos de seguridad. Para brindar la mejor experiencia posible al utilizar nuestro sitio, actualice a cualquiera de estos navegadores m¨¢s recientes.