3 Big Data-uitdagingen (en hoe ze te overwinnen)
Big data hebben veel eigenschappen: ze zijn ongestructureerd, dynamisch en complex. Maar, misschien wel het belangrijkste: Big data zijn groot. Mensen en IoT-sensoren produceren jaarlijks triljoenen gigabytes aan data. Maar dit zijn niet de data van gisteren, maar moderne data, in een steeds diverser scala van formaten en uit een steeds grotere verscheidenheid van bronnen.?
Dit leidt tot een kloof tussen de data van vandaag en de systemen van gisteren. De enorme omvang en schaal, samen met de snelheid en complexiteit ervan, zetten traditionele dataopslagsystemen onder een nieuw soort druk. Velen zijn gewoon slecht toegerust, en organisaties die gebruik willen maken van deze goudmijn aan data stuiten op hindernissen.?
Waarom gebeurt dit? Wat zijn de belangrijkste big data-uitdagingen om te weten? Als u de kracht van big data wilt benutten, zijn uw opslagoplossingen dan voldoende?
1.?Big Data is te groot voor traditionele opslag
De meest voor de hand liggende uitdaging voor big data is wellicht de enorme schaal. We meten het meestal in petabytes (dat is dus 1.024 terabytes of 1.048.576 gigabytes).
Om u een idee te geven van hoe big data kunnen worden, volgt hier een voorbeeld:??uploaden minstens 14,58 miljoen foto's per uur. Bij elke foto worden interacties opgeslagen, zoals likes en commentaren. Gebruikers hebben minstens een triljoen berichten, commentaren en andere datapunten "geliked".?
Maar het zijn niet alleen techreuzen als Facebook die enorme hoeveelheden data opslaan en analyseren. Zelfs een klein bedrijf dat een stukje van de informatie uit de sociale media neemt - bijvoorbeeld om te zien wat mensen over zijn merk zeggen - heeft een krachtige dataopslagarchitectuur nodig.
Traditionele dataopslagsystemen kunnen in theorie grote hoeveelheden data aan. Maar wanneer ze de effici?ntie en inzichten moeten leveren die we nodig hebben, kunnen velen de eisen van moderne data gewoon niet bijhouden.
Het raadsel van de relationele database
Relationele SQL-databases zijn vertrouwde, aloude methoden om data te bewaren, te lezen en te schrijven. Maar deze databases kunnen moeite hebben om effici?nt te werken, zelfs voordat ze hun maximale capaciteit hebben bereikt. Een relationele database met grote hoeveelheden data kan om vele redenen traag worden. Telkens wanneer u bijvoorbeeld een record invoegt in een relationele database, moet de index zichzelf bijwerken. Deze operatie duurt langer naarmate het aantal records toeneemt. Het invoegen, bijwerken, verwijderen en uitvoeren van andere bewerkingen kan langer duren, afhankelijk van het aantal relaties met andere tabellen.?
Simpel gezegd: Hoe meer data er in een relationele database staan, hoe langer elke bewerking duurt.
Scale-up vs. Scale-out
Het is ook mogelijk om traditionele dataopslagsystemen te schalen om de prestaties te verbeteren. Maar omdat traditionele dataopslagsystemen gecentraliseerd zijn, moet u eerder gaan voor scale “up” dan voor scale “out”.
Scaling up is minder effici?nt dan scaling out, omdat u dan nieuwe systemen moet toevoegen, data moet migreren en de belasting over meerdere systemen moet beheren. De traditionele dataopslagarchitectuur wordt al snel te omvangrijk en te log om goed te kunnen beheren.
Pogingen om traditionele opslagarchitectuur te gebruiken voor big data zijn gedoemd te mislukken, deels omdat de hoeveelheid data het onrealistisch maakt om voldoende op te schalen. Dit maakt schaalvergroting de enige realistische optie. Met een gedistribueerde opslagarchitectuur kunt u nieuwe knooppunten toevoegen aan een cluster zodra u een bepaalde capaciteit bereikt, en dat kunt u vrijwel onbeperkt doen.