Trois grands d¨¦fis du Big Data (et comment les relever)
Le Big Data pr¨¦sente de nombreuses qualit¨¦s?: il se compose de donn¨¦es non structur¨¦es, dynamiques et complexes. Mais surtout, le Big Data, comme son nom l¡¯indique, est volumineux. Les humains et les capteurs IoT produisent chaque ann¨¦e des billions de gigaoctets de donn¨¦es. Et il s¡¯agit bien de donn¨¦es modernes, dans des formats de plus en plus divers, et provenant de sources toujours plus vari¨¦es.?
Mais de ce fait, le foss¨¦ entre les donn¨¦es actuelles et les syst¨¨mes d¡¯hier ne cesse de s¡¯agrandir. Par leur volume et leur ¨¦tendue, mais aussi par leur rapidit¨¦ et leur complexit¨¦, les donn¨¦es exercent une pression croissante sur les syst¨¨mes traditionnels de stockage des donn¨¦es. Souvent mal ¨¦quip¨¦es, les organisations qui souhaitent exploiter cette mine de donn¨¦es foncent dans le mur.?
Pourquoi?? Quels sont les principaux d¨¦fis li¨¦s au Big Data?? Si vous souhaitez tirer profit du Big Data, vos solutions de stockage seront-elles capables de faire face??
1.?Le Big Data est trop volumineux pour le stockage traditionnel
Le d¨¦fi le plus ¨¦vident du Big Data tient sans doute ¨¤ son gigantisme. Le Big Data se mesure g¨¦n¨¦ralement en p¨¦taoctets (un p¨¦taoctet correspond ¨¤ 1024?t¨¦raoctets ou 1?048?576?gigaoctets).
Pour avoir une id¨¦e des volumes que peut atteindre le Big Data, sachez que les t¨¦l¨¦chargent au moins 14,58?millions de photos toutes les heures. Chaque photo g¨¦n¨¨re des interactions qui seront ¨¦galement stock¨¦es avec elle, par exemple des ??J¡¯aime?? et des commentaires. Les utilisateurs en sont d¨¦j¨¤ ¨¤ plus d¡¯un billion de posts, de commentaires et autres points de donn¨¦es ??aim¨¦s??.?
Mais les ??Big Tech?? comme Facebook ne sont pas les seuls ¨¤ stocker et analyser d¡¯¨¦normes volumes de donn¨¦es. M¨ºme une petite entreprise qui collecte quelques informations sur les r¨¦seaux sociaux, par exemple pour savoir ce qui se dit sur sa marque, a besoin d¡¯une architecture de stockage de donn¨¦es de grande capacit¨¦.
Les syst¨¨mes de stockage de donn¨¦es traditionnels peuvent, en th¨¦orie, g¨¦rer de gros volumes de donn¨¦es. Mais pour ce qui est de l¡¯efficacit¨¦ et des insights, beaucoup sont incapables de faire face aux exigence des donn¨¦es modernes.
Le casse-t¨ºte des bases donn¨¦es relationnelles
Les bases de donn¨¦es relationnelles SQL sont des m¨¦thodes utilis¨¦es de longue date pour h¨¦berger, lire et enregistrer des donn¨¦es. Mais ces bases de donn¨¦es ont parfois du mal ¨¤ fonctionner avec efficacit¨¦, m¨ºme sans avoir atteint leur capacit¨¦ maximale. Plusieurs raisons peuvent expliquer qu¡¯une base de donn¨¦es relationnelle contenant de gros volumes de donn¨¦es ralentisse. Par exemple, chaque fois que l¡¯une de ces bases de donn¨¦es re?oit un nouvel enregistrement, l¡¯index doit se mettre ¨¤ jour. Et l¡¯op¨¦ration prend de plus en plus de temps ¨¤ mesure que le nombre d¡¯enregistrements augmente. L¡¯insertion, la mise ¨¤ jour, la suppression et l¡¯ex¨¦cution d¡¯autres op¨¦rations peuvent demander davantage de temps, selon le nombre de relations avec d¡¯autres tables.?
Pour dire les choses simplement, plus le nombre de donn¨¦es dans une base de donn¨¦es relationnelle est ¨¦lev¨¦, plus il faut de temps pour chaque op¨¦ration.
Scale-up et scale-out
Il est ¨¦galement possible de faire ¨¦voluer des syst¨¨mes de stockage de donn¨¦es traditionnels pour en am¨¦liorer les performances. Mais comme ces syst¨¨mes sont centralis¨¦s, l¡¯¨¦volution ne peut ¨ºtre que de type ??scale-up?? et non ??scale-out??.
L¡¯¨¦volution ??scale-up?? ne permet pas d¡¯utiliser les ressources aussi efficacement que le ??scale-out??, car elle oblige ¨¤ ajouter de nouveaux syst¨¨mes, ¨¤ migrer les donn¨¦es, puis ¨¤ g¨¦rer la charge sur plusieurs syst¨¨mes. L¡¯architecture traditionnelle de stockage de donn¨¦es devient vite tentaculaire et difficile ¨¤ g¨¦rer correctement.
Toute tentative d¡¯utilisation d¡¯une architecture de stockage traditionnelle pour du Big Data est vou¨¦e ¨¤ l¡¯¨¦chec, notamment parce que la quantit¨¦ de donn¨¦es ne permet pas une ¨¦volutivit¨¦ suffisante en mode scale-up. Une op¨¦ration de ??scale-out?? devient alors la seule option r¨¦aliste. Avec une architecture de stockage distribu¨¦e, vous pouvez ajouter de nouveaux n?uds ¨¤ un cluster lorsqu¡¯une certaine capacit¨¦ est atteinte, et vous pouvez recommencer cette op¨¦ration presque ind¨¦finiment.