De evolutie van “Search” deel 1

Iedereen is bekend met het zoeken naar informatie op het internet via Google.com. Generaliseren is meestal niet goed, maar deze stelling durf ik wel te doen (zeer jonge kinderen en zeer oude personen daargelaten).
We worden ook dagelijks geconfronteerd met zoekfuncties wanneer we aankopen willen doen op de commerciële sites zoals Amazon, Bol.com, Wehkamp.nl etc.
Zoeken zit diep in ons wezen. Iedereen zoekt iedere dag wel naar iets. Zelfs onze pre-historische voorouders zochten iedere dag… naar eten.

Er zijn verschillende redenen waarom wij zoeken. Meestal ben je op zoek naar iets specifieks en weet je dat het ergens moet liggen zoals wanneer je op zoek bent naar je autosleutels. Een andere keer ben je op zoek naar iets, maar weet je niet precies wat, zoals bij het zoeken naar een geschikt kledingstuk. Je neust dan wat door de rekken totdat je hebt gevonden wat je zocht. Een andere manier van zoeken is als je iets nog niet weet, maar waarvan je wel iets wilt weten, zoals de feiten van een historische gebeurtenis, een geboortedag van iemand of een bepaald onderwerp zoals een vakantieland. Het kan echter ook voorkomen dat we zoeken naar informatie over een bepaald onderwerp en daarbij worden gewezen op verbanden of gerelateerde onderwerpen waarvan we niet eens wisten dat er een relatie bestaat.

Zoeken naar informatie waarbij we worden ondersteund door technologische hulpmiddelen, zien we sinds het “digitale tijdperk” steeds veranderen en beter worden.
In dit artikel wil ik jullie meenemen in de evolutie van deze digitale hulpmiddelen en dan met name de gebruikersgerichte oplossingen die wij in ons dagelijks werk tegenkomen.

Fase 1a: zoeken binnen “velden”

 

Nog niet zolang geleden was dit de manier waarop je naar bestanden kon zoeken. De zoekopdracht werd beperkt tot één veld, hier de bestandsnaam, en één informatiesysteem of bron.

In andere applicaties zoals bibliotheeksystemen was deze manier van zoeken ook gemeengoed. De medewerker kon zoeken binnen één veld tegelijk, bijvoorbeeld de titel van een document of record. Sorteren of op de een of andere manier filteren van de resultaten was niet mogelijk. Je moest van tevoren weten welke woorden in de verschillende velden werden gebruikt om een document of bestand terug te vinden. Alleen specialisten of mensen die de “content” kenden waren zo in staat om informatie te vinden.

 

 

 

Fase 1b: full-text search over meerdere velden

De volgende stap voorwaarts bestond uit de mogelijkheid om “full-text” (volledige teksten worden doorzocht op het voorkomen van de termen in de zoekvraag) te zoeken. In deze oplossing werden alle velden die aan een document of bestand zijn gekoppeld (metadata) doorzocht.  Ook hier gold weer de beperking dat ieder informatiesysteem apart moest worden doorzocht.

In het voorbeeld is binnen een bepaald systeem gezocht naar de term “Brookline”. In bepaalde resultaten is deze term ook terug te zien, zoals in de titel of in de beschrijving. De gegevens van de resultaten die werden gepresenteerd stonden vast. Omdat de zoekopdracht over alle velden van de documenten ging, ontstond de situatie dat de velden die voor de zoekresultaten werden gepresenteerd deze zoektermen niet hoefden te bevatten.
Dit maakt het voor de gebruiker zeer lastig om te bepalen waarom een bepaald resultaat wordt getoond.

 

Fase 1c: full-text search over meerdere bronnen

De tijd van de grote internet zoekmachines brak aan. Altavista, Hotbot, Yahoo en… Google. Voor het eerste konden mensen met één zoekopdracht over verschillende bronnen (lees: websites) zoeken.
De Enterprise Search markt (zoeken in de informatie binnen organisaties) werd in die tijd gedomineerd door Verity, Autonomy en Endeca. Die producten konden al vanaf 1996 zoeken over verschillende bronnen in organisaties.

De resultaten van alle gevonden documenten van alle bronnen werden in één resultaatlijst gepresenteerd. Het probleem eerder probleem van het niet altijd kunnen laten zien van de overeenkomst tussen de zoekopdracht en de gevonden documenten werd opgelost door de zogenaamde “contextuele samenvatting”. De zoekmachine maakt een samenvatting van het deel van de tekst in het document dat de zoekwoorden bevat.
Deze techniek is zeer belangrijk: Het geeft de zoeker een directe terugkoppeling van de relevantie. De tekst rondom de zoekwoorden geeft een terugkoppeling en de mogelijkheid om de zoekvraag aan te passen om dat je direct kan zien in welke context je zoekwoorden voorkomen.

Een resultaatlijst zonder de mogelijkheid om “in te zoomen” op bepaalde specifieke resultaten gaat echter ook maar zover. Wat nou als je wilt zoeken op alleen afbeeldingen, of een bepaald soort website. Naar mate de hoeveelheid doorzochte informatie toenam stuitte dit al snel op beperkingen. Om te kunnen vinden wat je zoekt zijn meer mogelijkheden nodig.

PS. In een volgende post ga ik in op de specifieke eisen aan en kenmerken en verschijningsvormen van “enterprise search”.

Fase 2a: zoeken op documenteigenschappen

Dit nieuwe gebruik van informatie over informatie (metadata) luidde een zeer belangrijke nieuwe fase in de toepassing van zoektechnologie in.

De gebruikers vroegen om meer mogelijkheden en de zoekmachines gaven dit. Het werd mogelijk om de “full-text” zoekopdrachten en de gepresenteerde resultaten te “filteren” op bepaalde documenteigenschappen. Zoeken op bestandstype, datumbereik, soort informatie / website werd mogelijk.

De standaard resultaatlijst met een aantal gevonden documenten op basis van een “full-text” match werd uitgebreid met “filters”. Deze uitbreiding ging tevens gepaard met belangrijke wijzigingen in de manier waarop zoekresultaten werden gepresenteerd en hoe de gebruikers deze toevoeging ervaarden. Er moet een goede plek worden gevonden om de filters aan te bieden zodat gebruikers ook begrepen dat ze hun zoekopdracht konden verfijnen op basis van deze filters.
Eerder konden gebruikers door een site navigeren óf zoeken. Vanaf het moment dat filters hun intrede deden gingen “zoeken” en “navigeren” meer in elkaar over en lagen in elkaars verlengde.

De “filters” op documenteigenschappen waren echter “statisch”: de lijst met waardes stonden vast en hielden geen rekening met het feit of er binnen een bepaalde categorie wel resultaten waren. De initiële zoekvraag werd aangevuld met het vaste “filter” wat kon leiden tot een “no-results” pagina. Voor bezoekers van on-line winkels is dit bijna de grootste zonde die je kan begaan.

Fase 2b: zoeken op onderwerp

Toen het on-line winkelen en de hoeveelheid van de aangeboden producten toenam, zagen de de  e-commerce sites al snel dat ze bezoekers niet konden opzadelen met een lijst met producten die aan een zoekvraag voldeden.

Amazon is vanaf het begin al een dankbare bron voor onderzoek en inspiratie geweest. Amazon was de eerste on-line winkel met een grote hoeveelheid aan producten. Zij moesten het probleem oplossen van het op een gebruiksvriendelijke manier vinden van informatie in een grote hoeveelheid informatie.

Uiteraard hebben zij hiervoor gebruik gemaakt van de mogelijkheden die de aanbieders van Enterprise Search oplossingen al langer hadden: structureren (metadateren) van informatie en producten en gebruik maken van deze eigenschappen om “dynamische filters” aan te bieden.

In de zoekwereld duiden we deze techniek aan met “facetted search” of “zoeken op facetten”. Een facet is een specifiek kenmerk of  functie van iets. De informatie en producten werden van verschillende kenmerken voorzien en de informatie werd bij de informatie opgeslagen.

 

Facetten worden door de zoekmachine gegenereerd door de aanwezige metadata (soort, onderwerp) bij de doorzochte informatie of producten. Facetten worden alleen gepresenteerd als de resultaatset (= alle resultaten die aan de zoekvraag voldoen) deze waardes ook bevatten. Dit loste het probleem van de “no results” pagina op: de zoekapplicatie presenteert alleen filteropties voor die onderdelen waar ook resultaten voor zijn.

Zoeken en navigeren gaan steeds meer hand in hand en wel op zo’n manier dat de gebruikers de twee opties niet meer als “verschillend” ervaart.

 

Fase 2c: zoeken op meerdere eigenschappen en metadata

Mensen denken niet altijd in hokjes en willen vaak zoeken in meerdere “bakjes” tegelijk oftewel “iets wat hierop lijkt”.

Maar zoekmachines waren tot nu toe “zwart / wit”: iets voldoet aan de zoekvraag / filter of niet.

Het moest dus mogelijk worden om tegelijkertijd door meerdere “bakjes” van vergelijkbare informatie te zoeken.

De opties van “reeksen” (prijzen en kenmerken) en “kleuren” werden geïntroduceerd. Zo werd het mogelijk om als bezoeker niet beperkt te worden door het toepassen van één filter voor één kenmerk, maar in plaats daarvan ruimer te kijken in een steeds groter aanbod van informatie en producten.

Zoektechnologie heeft zich steeds verder ontwikkeld en was nu in staat om automatisch kleurpatronen te herkennen in afbeeldingen. Dit gaf de mogelijkheid om op kleur te sorteren of filteren. Iets waarvan in de kledingbranche dankbaar gebruik is gemaakt.

 

 

Het vervolg

In de volgende post zal ik de volgende fases in de evolutie van Search behandelen:

  • Fase 3: Zoeken op “statistische informatie”
  • Fase 4a en b: Zoeken “in context”
  • Fase 4c: Personalisatie
  • De toekomst

Wordt vervolgd….

 

 

 

 

 

 

This entry was written by Edwin Stauthamer , posted on zondag juli 01 2012at 04:07 pm , filed under Kennis, Technologie, Toepassingen . Bookmark the permalink . Post a comment below or leave a trackback: Trackback URL.

Geef een reactie

XHTML: You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>