StateofEnterpriseSearch.nl presenteert: Webinar

Afgelopen week heb ik een webinar bijgewoond getiteld: “The State of Enterprise Search“.

Dit webinar is georganiseerd door BA insight.

In een soort “round table” setting werd door zeer bekende personen in het vakgebied “Enterprise Search” gediscussieerd over onderwerpen die door de moderator werden ingebracht. De deelnemers waren:

  • Martin White
  • Sue Feldman
  • Jeff Fried

De webinar is opgenomen en kan worden teruggeluisterd op: http://vimeo.com/78551770.

BA insight heeft de afgelopen weken ook twee rapporten opgeleverd: State of Search in the Enterprise: Part 1 & Part 2

Veel luister en leesplezier!

Folders of metadata? AUB allebei.

Deze week verscheen een artikel van AIIM getiteld “Are folders still necessary“?

Het gaat over het opslaan van informatie (en meestal documenten) in een directorystructuur of het gebruik van metadata die deze “oude manier van werken” overbodig maakt.

Het is misschien flauw om te zeggen, maar ik ben ervan overtuigd dat beide manieren nog heel lang moeten worden ondersteund.

Het gaat hier om het verschil tussen:

  • Browsen/navigeren versus zoeken
  • Archiveren versus vinden

Het is heel gebruikelijk en noodzakelijk om documenten op te slaan in een locatie die nodig is om binnen de organisatie-/processtructuur en archiefrichtlijnen te passen. Duurzame opslag dwingt ons om een keuze te maken.
Het is ook zeer moeilijk om mensen te dwingen om te denken in “tags” in plaats van fysieke locaties. Wat als je werkt met een file-based opslagsysteem? Je moet dan een keuze maken waar je iets opslaat.

Uiteraard zijn er oplossingen (DMS-sen en CMS-sen) waar de locatie eigenlijk niet van belang is, maar daar werken we in de praktijk slechts ten dele in. Dit geldt meestal alleen voor de “officiële” informatie die moet worden geregistreerd vanwege archiveringsdoeleinden. Er is echter zoveel meer informatie waar we dagelijks mee werken.

Ik ben ervan overtuigd dat we beide manieren van opslag / ontsluiting moeten blijven ondersteunen. Ik zie nl. twee gebruikers-/doelgroepen:

  • Producenten van informatie
  • Consumenten van informatie

De producenten van informatie zitten in een bepaald informatieproces en willen duidelijke richtlijnen om te bepalen “waar” hun documenten moeten worden opgeslagen.
Deze behoefte komt voort uit het werkproces maar ook uit het mentale model: Iets moet nou eenmaal een duidelijke plaats hebben.
De consumenten van informatie weten niet “waar” iets is opgeslagen, maar willen wel toegang krijgen tot die documenten via bijvoorbeeld een zoekfunctie. Soms kennen die gebruikers ook de fysieke opslagstructuur en zullen daar dan ook gebruik van maken.

Het antwoord voor deze problematiek ligt in een duidelijke informatie-architectuur en duidelijke (en met name simpele en voorspelbare) afspraken over waar iets moet worden opgeslagen.
De informatie-architectuur en -governance moet voorzien in een model waarbij zowel de keuzes voor opslagstructuren (éénduidige bepaling van waar iets hoort te “staan”) als de keuzes voor vindbaarheid (“iss-ness” / about-ness”: waar gaat iets over en hoe kan een document worden geclassificeerd) worden ondersteund.

Metadatering van informatie blijft een belangrijk punt om de juiste informatie bij de juiste personen te krijgen.

Zoektechnologie kan vervolgens worden gebruikt om de aanwezige structuren (opslag en metadatering)  te gebruiken om informatie ook vindbaar te maken via filters en navigatie.

 

De huidige populaire zoekmachines op internet doen goed werk voor het zoeken en vinden van populaire informatie. We maken er met zijn honderden miljoenen dagelijks gebruik om “feitjes” en oplossingen te vinden. We weten echter ook dat deze zoekmachines drijven op advertenties én dat de ranking van resultaten na het zoeken sterk worden beïnvloed door het leveren van zoveel mogelijk “clicks”.

Het objectieve algoritme van een zoekmachine zou gebaseerd moeten zijn op de principes van “precision”/”precisie” en “recall”/”vangst” om objectief betrouwbaar te zijn:

  • Precision
    Precisie is de verhouding tussen het aantal relevante resultaten (documenten, treffers), en het totaal aantal resultaten dat door het systeem is teruggeven.

  • Recall
    Vangst is de verhouding tussen het aantal relevante gevonden documenten, en het totaal aantal relevante documenten dat er mogelijk zijn. Dit laatste is een van tevoren opgesteld ‘wensenlijstje’, vaak ‘ground truth’ of ‘gouden standaard’ genoemd.

Ter zijde:
Op het internet gelden commerciële drivers, maar er kan ook gebruik worden gemaakt van “polulariteitsindicatoren” en “linkdichtheid” om de meeste relevante antwoorden te bepalen.
Binnen de bedrijfsmuren zijn deze drivers en indicatoren veel minder of zelfs niet aanwezig.
Een “enterprise search” oplossing moet derhalve veel sterker leunen op de informatie-statistische algoritmes die ten grondslag liggen aan de information retrieval principes van precision and recall.

Maar wat nu als je op zoek bent naar inzichten in relaties of achtergrondinformatie die een Google, Bing of Yahoo niet kan leveren?

In dit artikel wil ik jullie wijzen op het bestaan van Cluuz.com. Zoek eens op Google en daarna op Cluuz.com naar Edward Snowden. Hoewel Google goede resultaten boekt met zijn “knowledge graph” levert Cluuz een “relation ship” diagram. Daarnaast identificeert Cluuz entiteiten die een relatie hebben met Snowden. 

Daarnaast is Cluuz een “meta-zoekmachine” die meerdere openbare zoekmachines raadpleegt voor relevante resultaten. Dit levert een meer objectief beeld op.

Als we kijken naar de “Top linked entities” dan zien we namen die binnen het zoekresultaat van Google totaal niet voorkomen, zoals “Glenn Greenwald”. Een persoon die ook gerelateerd is aan het openbaar maken van geclassificeerde informatie. Cluuz.com is één van de uitdagers van de populaire zoekmachines zoals Google.

De strekking van dit artikel?
Verlaat je niet alleen op “one size fitss all” zoekmachines op internet als je op zoek bent naar achtergrondinformatie. Blijf speuren naar nieuwe en uitdagende oplossingen zoals Cluuz.com.