Big data? Nee, Big content!

Big data is een onderwerp dat sinds enkele jaren geleden aandacht heeft. Voor diegenen van jullie die alerts hebben lopen op dit onderwerp is het duidelijke dat er zeer veel over dit onderwerp wordt geschreven. De eerdere problemen van Big Data zijn inmiddels opgelost (vergaring, opslag). Het wordt tijid dat we aandacht schenken aan het gebruik ervan en het in perspectief zetten.

In dit artikel wil ik aandacht besteden aan twee aspecten van big data:

  1. Big content
  2. Search technology

1. Big Content

Organisaties zijn inmiddels gewend geraakt aan het verwerken van grote hoeveelheiden data. Er is veel over geschreven en er zijn veel oplossingen voorhanden om de drie V’s aan te pakken: Volume, Velocity, Variety.

Echter, deze oplossingen gaan meestal over het verwerken van “records”: gestructureerde informatie in een field/value formaat.

Zoals wij weten bestaat een groot deel van de informatie binnen organisaties uit ongestructureerde informatie: documenten en e-mail. 

Kijk eens in je directe digitale omgeving. Je maakt dagelijks gebruik van e-mail om grote hoeveelheden informatie tot je te nemen en te distribueren.  Kijk eens in je “verkenner” en zie de grote hoeveelheid shares waarop documenten worden opgeslagen. Uiteraard zit daarbij ook je “persoonlijke” opslag bij (is dat wel allemaal zo persoonlijk?).

En wat te denken van Facebook en LinkedIn? Zij hebben iedere dag te maken met zeer grote hoeveelheiden informatie in de vorm van ongestuctureerde teksten die moeten worden gebruikt om mensen met elkaar te verbinden.

Het is duidelijk dat conventionele database-oplossingen geen oplossing bieden voor dit vraagstuk. Grote hoeveelheden tekst zijn immers geen onderdelen die hiermee kunnen worden verwerkt en nog belangrijker, kunnen worden ge-analyseerd.

Gartner is inmiddels aan het onderzoeken hoe Big Data technologieën en technieken kunnen worden toegepast op ongestructureerde informatiebronnen.

2. Search Technologie

De afgelopen jaren hebben de “data-centric” leveranciers sterk geïnvesteerd in het opkopen van “enterprise search” leveranciers. Zij zien ook dat het bruikbaar maken van ongestructureerde informatie een belangrijk onderdeel is van het oplossen van het Big Data/Big Content probleem.

Zoektechnologie heeft zich vanaf 1996 bewezen als de oplossing om ongestructureerde informatie bruikbaar te maken. Verity was één van de eerste “enterprise search”  oplossingen die dit gebied in kaart heeft gebracht én heeft ontgonnen met zeer sterke content analytics oplossingen.

In de jaren daarna zijn leveranciers als Autonomy, FAST, Endeca en Google bezig geweest met het probleem van het opslaan én vindbaar/bruikbaar maken van tekstgebaseerde informatie.
De afgelopen jaren heeft de open source community hier ook een zeer belangrijke bijdrage aan geleverd via Solr/Lucene.

Zoektechnologie is nu in staat om niet alleen via het zoeken naar en vinden van “keywords” relevante docmenten te vinden. Via entiteitherkenning en semantische relaties kan gestructureerde en ongestructeerde informatie worden verbonden om inzicht te geven in belangrijke verbanden.

Dit kan heel praktisch zijn in customer call centers maar ook in “intelligence” omgevingen. Denk daarbij aan het herkennen van “patronen” die een mens alleen zou kunnen zien door alle verslagen en documenten zelf te moeten lezen.

Conclusie

De werkelijke waarde van Big Data / Big Content ligt in het verbinden van gestructureerde en ongestructueerde informatie. Het gaat om het kunnen identificeren van entiteiten, onderwerpen die aanwezig zijn in gestructureerde database records zodat deze kunnen worden gerelateerd aan diezelfde entiteiten en concepten die zich in ongestructureerde informatie en teksten bevinden.

Dit zal ons helpen inzicht te geven en ons op het pad te zetten van zaken waarvan we eerder niet wisten dat er verbanden bestonden en hier kennis uit te verkrijgen.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

De volgende HTML-tags en -attributen zijn toegestaan: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>