Enterprise Search volgens WikiPedia

Enterprise search is the practice of making content from multiple enterprise-type sources, such as databases and intranets, searchable to a defined audience”.

Zie http://en.wikipedia.org/wiki/Enterprise_search.

Uiteraard ben ik gelijk even gaan kijken naar de definitie van dit onderwerp op de Nederlandse WikiPedia: http://nl.wikipedia.org/wiki/Enterprise_search.

Ik was daar al een tijdje niet meer geweest.

Wat schetst mijn verbazing…: “Deze pagina is verwijderd” vanwege het schenden van auteursrechten.

Blijkbaar heeft een commerciële partij iets “stouts” gedaan zoals zichzelf promoten of wellicht heeft de auteur van de pagina een heel stuk content van de site van een commerciële partij gehaald.
Wat hieruit ook blijkt is dat er heel weinig personen / organisaties in Nederland zijn die informatie over het onderwerp “Enterprise Search” willen vastleggen en delen. Blijkbaar wordt er ook vanuit Nederland vaak een beroep gedaan op het Engelstalige gedeelte van WikiPedia.

Ik ben dit eens verder gaan onderzoeken. Een link op de pagina http://nl.wikipedia.org/wiki/Enterprise_search verwijst naar de site van MatchMinds. Dit is een Nederlands bedrijf dat zich bezig houdt met Enterprise Search. Op de pagina met de link “http://www.matchminds.nl/index.php/toelichting-vakjargon/31-enterprise-search-zoektechnologie” staat wat MatchMinds verstaat onder “Enterprise Search”.

De pagina op de site van MatchMinds bevat helemaal onderaan de zin “De inhoud van dit content item is beschikbaar onder CC-BY-SA/GFDL”. Ik had daar nog nooit van gehoord en heb de term “CC-BY-SA/GFDL” dus even ge-Google-d.

Eén van de eerste resultaten is een pagina van WikiPedia: “Wikipedia:Eens vrijgegeven blijft vrijgegeven“. Daarin staat vrij vertaald dat alles wat je op WikiPedia zet onder de “Creative Commons” licentie valt (copyleft). Als het artikel op de MatchMinds site de licentie “CC-BY-SA/GFDL” heeft, wat kan hierbij dan verkeerd zijn gegaan?
Mijn verwachting is dat het WikiPedia artikel een kopie van de pagina van MatchMinds was (al dan niet geplaatst door het bedrijf zelf) en dat iemand (Erik1980) het daarom heeft verwijderd.

Het feit blijft echter dat de Nederlandse WikiPedia nu een leemte vertoont als het gaat over het onderwerp “Enterprise Search”. WatchingSearch / StateofEnterpriseSearch zal de aankomende tijd zorgen voor het vullen van de pagina “Enterprise Search” op het Nederlandse gedeelte van WikiPedia. Dit onderwerp verdiend immers een goed gevulde en informatieve pagina op WikiPedia.

Wikipedia:Eens vrijgegeven blijft vrijgegeven

Zoveel beheer… zo weinig gebruik

De afgelopen tijd heb ik veel bij klanten rondgelopen waar er grote projecten worden uitgevoerd op het gebied van archivering, implementeren van document management oplossingen, recordsmanagement etc.

Er wordt zeer veel tijd en geld gespendeerd aan onderzoeken, adviestrajecten, aanschaf van producten, implementeren van de oplossing, opleiden van gebruikers én beheerders.
Na deze implementatieperiode volgt de periode van gebruik en beheer. Tijdens die periode wordt er nog eens zoveel tijd besteed aan het beheren van de informatie door gebruikers én functioneel beheerders, DIV-ers etc.

Het valt op dat er zo weinig wordt gesproken over het gebruik van de informatie. Medewerkers die taken en processen moeten uitvoeren in verschillende onderdelen van de organisatie worden zelden betrokken bij vraagstukken over de opslag en het beheer. Medewerkers hebben echter behoefte aan het kunnen gebruiken van de informatie en documenten.

Als we nou eens 10% van het budget dat aan de archivering en het beheer van de informatie en documenten wordt uitgeven aan oplossingen besteden om de informatie te kunnen gebruiken. Ik durf te stellen dat de gebruikers dan voor 80% geholpen kunnen worden bij het vindbaar en bruikbaar maken van die informatie en documenten.

Uiteraard doel ik hier op oplossingen op het gebied van findability en usability.

Betrek de medewerkers bij het informatiebeheer probleem om erachter te komen welke informatie nou eigenlijk heb belangrijkst is voor de verschillende processen in de organisatie. Richt vervolgens je energie op het verbeteren van die “lokale” informatieproblemen in plaats van het investeren in een mega archiveringssysteem of document management systeem.

Bruikbaarheid van informatie wordt sterk verbeterd door de inzet van zoektechnologie. Via een zoekmachine kan de medewerkers bij alle informatie in de organisatie komen, ongeacht waar deze informatie is opgeslagen én hoe deze wordt beheerd. Om informatie en documenten doorzoekbaar te maken, los van het systeem of de lokatie waar deze informatie zich bevindt, zijn Enterprise Search oplossingen beschikbaar.

Met technologie alleen ben je er echter niet. Het is van belang om de gebruiker en het proces centraal te stellen om een goede oplossing te bieden. Dat betekent dus ook veel aandacht voor het proces én de user interface.

Kortom… het heeft geen zin om te investeren in de opslag van informatie als je er niet voor zorgt dat de opgeslagen informatie ook makkelijk vindbaar en dus bruikbaar is.

 

Nieuwe vendor: PerfectSearch

Perfect Search is feitelijk geen nieuwe vendor. We hebben hem wel nieuw toegevoegd aan de pagina met Search Vendors op deze site.

PerfectSearch bestaat al enkele jaren, maar is eigenlijk pas sinds twee jaar aan een opmars begonnen.

Net zoals de vele kleinere search vendors die de afgelopen jaren tot de zoekmarkt zijn toegetreden, gebruikt ook PerfectSearch een open source basis.

PerfectSearch gaat echter verder door het aanbieden van een Appliance én een cloud oplossing.

 

Enterprise search is meer dan een lijst met 10 blauwe links

We kennen allemaal de zoekervaring die Google.com ons biedt:

De centrale zoekbox, de filters op informatie type (zoals afbeeldingen, Video’s en Blogs), de alomtegenwoordige Adwords of sponsored links.
Gezien de hoeveelheid informatie die doorzocht wordt is het een wonder dat we zo snel de meest relevante resultaten op de eerste pagina krijgen.

Meestal zit ergens tussen de 10 blauwe linkjes wel het antwoord dat we vinden, of we kunnen op basis van de resultaten en samenvattingen onze zoekvraag aanpassen zodat we bij de tweede of derde poging wel het juist antwoord vinden.
Google.com lijkt te weten wat wij willen vinden… en doet dat ook.

Op basis van slimme algoritmen die tijdens het zoeken én indexeren worden toegepast kijkt Google niet alleen naar onze persoonlijke profielen (zoekhistorie, locatie etc.) maar wordt ook de populariteit (Pagerank) van webpagina’s, artikelen en hele sites in de weging van resultaten meegenomen.

Waarom werkt dit niet binnen de bedrijfsmuren?

De indexen van Google.com bevatten miljarden webpagina’s, afbeeldingen en andere content die zij tijdens het afspeuren van het complete internet tegenkomen.
De kenmerken van de search engines op internet:

  • Heel veel gelijkvormige content
    Het gaat om websites en daarom HTML pagina’s. HTML pagina’s kennen een bepaalde structuur op basis waarvan relevantie kan worden bepaald. Title, Headers (H1), subheaders (H2 enz), samenvattingen.
  • Heel voor gelijksoortige content
    Informatie op internet is vaak redundant. Er zijn heel veel sites en artikelen die over dezelfde onderwerpen berichten.
    Het verschil tussen “Het” antwoord op een vraag en “Een” antwoord.
  • Link rijkheid
    Het internet hangt aan elkaar door de hyperlinks. Er wordt vaak gerefereerd aan informatie op andere sites waardoor je een compleet beeld kan krijgen van de informatie die over één onderwerp beschikbaar is.
  • Autoritatieve bron
    Er zijn op internet veel sites die kunnen worden gekenmerkt als “autoritatief”. Als je een onderwerp op Wikipedia vind, dan kan je er vanuit gaan dat wat daar wordt beschreven als “de waarheid” kan worden bestempeld. De community van redacteuren zorgt er voor dat de informatie kwalitatief hoogwaardig is.
  • Populariteit
    Als er vaak naar een site of artikel wordt gelinkt, dan geeft dat een sterke indicatie van de populariteit van die site of de webpagina.
    Daarnaast wordt het gedrag van gebruikers intensief ge-analyseerd zodat het aantal “raadplegingen” van een resultaat wordt meegewogen in de “populariteit”.
  • Sites en pagina’s zijn gemaakt om te worden gevonden
    Organisaties en individuen willen graag dat hun site of pagina op het internet wordt gevonden. Ze zullen de informatie dan ook schrijven op de manier die aansluit op de wijze waarop personen zoeken. Ze gebruiken de woorden en zinnen die hoog scoren in search engines, ze structureren én metadateren de informatie zodat deze voldoet aan de richtlijnen voor schrijven voor het web.

Als we kijken naar deze kenmerken, dan zijn er nogal wat verschillen met het zoeken binnen de bedrijfsmuren en in bedrijfssystemen:

  • Gelijkvormigheid -> Heel veel diverse vormen van content
    – Intranet sites met zowel HTML als PDF-, Word-bestanden etc.
    – FileShares met PDF’s, Word, Excel, afbeeldingen
    – Databases met gestructureerde content in de vorm van velden en waarden
    – E-Mails
    – Etc.
  • Gelijksoortigheid -> Unieke content
    Er is maar één officieel declaratieformulier, projectrapportage, beleidsdocument, jaarverslag, klantrecord etc. Door het kopiëren van documenten voor eigen gebruik of het uitwisselen van concept documenten via e-mail zijn er vele versies van één document aanwezig.
  • Link-rijkheid
    Vanwege de diversiteit van informatie en bronnen wordt er tussen systemen maar weinig gebruik gemaakt van het linken naar content in hetzelfde of andere systemen.
    Word heeft de mogelijkheid om links op te nemen, maar deze links verwijzen vaak naar lokale (voor anderen) niet toegankelijke informatie of documenten. Binnen organisaties wordt er daarnaast nogal eens geschoven met opslaglocaties waardoor links niet meer werken.
  • Autoritatieve bron
    Documenten binnen een organisatie worden vaak gekopieerd en hergebruikt. Het is daarom niet altijd duidelijk waar de laatste officiële versie van een bepaald rapport of document staat.
  • Populariteit
    Door het ontbreken van links naar veel gebruikte informatie of documenten kan niet worden bepaald welk stukje informatie “populair” is.
  • Schrijven met als doel “vindbaarheid”
    Medewerkers in een organisatie zijn bezig met het uitvoeren van hun dagelijkse werkzaamheden om een taak gedaan te krijgen. Het produceren van documenten en informatie is daarom belangrijker dan  het zorgen voor de terugvindbaarheid van die documenten en informatie. Metadateren en het opslaan van documenten in gestructureerde repositories kost tijd en wordt daarom niet gedaan.

Een zoekoplossing binnen een organisatie waarbij we kunnen rekenen op een antwoord van tien meest “relevante” links zal daarom niet mogelijk zijn.
Om de juiste informatie beter vindbaar te maken zijn aanvullende acties nodig.

Maar wat kunnen we dan wel leren van hoe Google.com “het” doet?

Google heeft de afgelopen jaren steeds meer functies aan de zoekmachine toegevoegd waardoor we niet alleen documenten of webpagina’s kunnen vinden.

Realtime Search / Psychic Search:
Wanneer je zoekt op “Weer Amsterdam”,  “EUR USD” of een afkorting van een beursgenoteerd bedrijf zoals MSFT dan worden als eerste live resultaten getoond die door externe services worden aangeleverd.
Feitelijk hebben ze hiermee gestructureerde informatie aan de search interface toegevoegd.
Iets verder gaat de interpretatie van nummers in zoekvragen. Google “weet” dat je Fed-Ex nummer intyped en geeft vervolgens de mogelijkheid om direct naar het tracking mechanisme te gaan.

Social Search:
Google heeft een link gelegd naar personen door de integratie van Google+, ze maken meer gebruik van de social media sites zoals Twitter en Facebook.
Hierdoor kan je ook personen in je netwerk vinden die iets hebben met het onderwerp waarop je zoekt.
De zoeksuggesties die worden weergegeven zodra je de eerste letters van je voorgenomen zoekvraag intikt worden gegenereerd op basis van de zoekvragen van andere gebruikers.

Filters:
Nadat je je zoekvraag hebt gesteld krijg je aan de linkerzijde de mogelijkheid om je zoekvraag uit te breiden door het toevoegen van een categorie (zoals afbeeldingen, video, nieuws, blogs etc.) of het selecteren van een bepaalde periode.
Deze filters bestaan nog niet zo erg lang.

Instant Search:
Tijdens het intikken van je zoekvraag worden direct resultaten getoond op basis van de eerste zoeksuggestie.
De effectiviteit van het formuleren van een zoekvraag wordt hierdoor dramatisch verhoogd.
Zoeken is meestal een proces van het herhaaldelijk formuleren van een zoekvraag, uitvoeren van de zoekvraag, beoordelen van de resultaten, herformuleren van de zoekvraag, uitvoeren van de zoekvraag etc.
Door direct feedback te krijgen op je zoekvraag heb je veel eerder de mogelijkheid om de zoekvraag aan te passen.

Rijke zoek interface

Binnen een organisatie hebben we dus te maken met diverse content repositories én met mensen die kennis hebben van de informatie en processen.

Dit vraagt om een aanpak die verschilt van de wijze waarop dit op internet wordt gedaan.

Medewerkers willen antwoord op vragen van uiteenlopende aard:

  • Known item finding
    Het vinden van een specifiek document (jaarverslag, declaratieformulier, beleidsbeslissing, standpunt, klantinformatie etc.) .
  • Subject finding
    Vinden van zoveel mogelijk relevantie informatie over een bepaald onderwerp.
    Denk hierbij met name aan een nieuwe medewerker.
  • Knowledge finding
    Vinden van kennis over een bepaald onderwerp, meestal vervat in een bepaalde persoon die zich binnen de organisatie bezig houdt met dat onderwerp.

Dit alles moet vanuit een enkele zoekbox (a la Google.com) bereikbaar zijn.

De bovenstaande afbeelding geeft een impressie van een “rijke zoekinterface” waarmee de antwoorden op de bovenstaande vragen gegeven worden of waardoor de medewerker wordt geholpen om zijn zoekvraag verder te specificeren door een “vraag-antwoord” sessie.

Er wordt hierbij gebruik gemaakt van filters, visualisaties en informatie over medewerkers.

Meer over de manier waarop deze rijke zoekervaring binnen een organisatie kan worden gerealiseerd in een volgende post.