Too Big to Ignore.

Met zijn allen genereren we tegenwoordig ontzettend veel data. Een deel van deze data is gestructureerde data en wordt opgeslagen in relationele databases zoals Oracle en SQL Server. Deze data wordt gebruikt ter ondersteuning van de dagelijkse werkzaamheden, voor informatievoorziening aan bijvoorbeeld het management en voor wetenschappelijk onderzoek

Een ander aanzienlijk deel van de gegenereerde data is ongestructureerd of semigestructureerd. Je kunt daarbij denken aan bijvoorbeeld video, xml, tekstdocumenten, e-mails etc. Deze data bevat waarschijnlijk veel informatie. Op dit moment wordt echter nog niet veel gedaan om deze data te analyseren. Verschillende datatypes, gestructureerd, semi- of ongestructureerd is een kenmerk van Big Data. Data moet aan nog enkele kenmerken voldoen wil het als Big Data aangemerkt kunnen worden. Deze kenmerken worden ook wel de 5 V’s van Big Data genoemd.

De te verwerken data is veelal afkomstig uit verschillende bronnen en kan gestructureerd, semi- en ongestructureerd zijn (variety). De hoeveelheid data, terabytes of meer, die verwerkt moet worden is erg groot (volume). In hele korte tijd wordt deze data aangeboden en in korte tijd moet deze data verwerkt en geanalyseerd (velocity)worden. De kwaliteit van de data moet hoog zijn om er betrouwbare informatie uit te kunnen halen (veracity) en tot slot moet uit de data bruikbare waarde (value) gecreëerd kunnen worden voor de business .

Het verwerken van die enorme hoeveelheid data vereist een gedistribueerde/ parallelle verwerkingsomgeving. Een voorbeeld van zo’n omgeving is het Hadoop Big Data platform. Hadoop is een open-source framework geschreven in Java. Hadoop biedt de mogelijkheid om enorme hoeveelheden data gedistribueerd op te slaan en parallel te verwerken waarbij gebruik gemaakt wordt van de verschillende onderdelen waaruit het framework bestaat. De belangrijkste zijn de storage device (HDFS) voor de gedistribueerde opslag van de te verwerken data, de processing engine (MapReduce) voor parallelle verwerking van de gedistribueerde data en de resource manager (Yarn) die o.a. zorgdraagt voor het toewijzen van resources en het uitvoeren van jobs. Het framework bevat verder nog o.a. een query engine (Hive, Pig) en een analytics engine (Mahout).

De data wordt eerst opgeslagen en geschoond voordat er analyses op uitgevoerd kunnen worden. Het doel van de analyse is om inzicht te krijgen wat vervolgens moet resulteren in slimmere beslissingen en betere resultaten.

Deze analyses zijn onder te verdelen in een viertal types. Met behulp van Descriptive en Diagnostic Analytics worden verbanden gelegd tussen de beschikbare uit het verleden afkomstige data. Dit is de meest simpele vorm van analyse. Je kunt daarbij denken aan de rapportages die in Cognos staan. Bij Predictive Analytics probeert men op basis van het verleden een voorspelling te doen over de toekomst. Prescriptive Analytics geeft tenslotte aan hoe we op deze voorspellingen in kunnen spelen.

Uitgaande van de hoeveelheid data die nu al gegenereerd wordt, de verwachte sterke stijging van de hoeveelheid data in de nabije toekomst en de mogelijkheden die deze data biedt is Big Data “Too Big To Ignore”.