Forrester recognizes HPE IDOL/Vertica as leader in the latest (2017 Q2) “Cognitive” Search Vendor Evaluation

Last week I received e-mails from vendors like Attivio and Sineque about the latest Forrestor report “The Forrester Wave™: Cognitive Search and Knowledge Discovery Solutions“.

The enterprise search (yes, I still call it that) solutions of those vendors are placed in the “Leaders” quadrant.

Attivio has been around for some years now – about 10 years. Sinequa is bit younger and started to gain traction about 5 years ago. At least, to my knowledge.

What I like is that HPE IDOL/Vertica is placed in the top of the leaders quadrant. It has been there for more than a decade – with a short absence because of the trouble that HPE had in repositioning IDOL after the Autonomy buy.

Some six months ago I started working for a company specialized in implementing HPE (Autonomy) IDOL (KnowledgePlaza) products. Before that (2011-2016) I worked for a company that was mostly busy with the Google Search Appliance. Before that (2006 – 2011) I also worked for a company that mostly did Autonomy IDOL implementations (and before that Verity).

So I’m back in the saddle with HPE IDOL and I must say, that I am still impressed by their offering. It is very complete and has been under development in the last years. Because of the maturaty, it is stable. It’s a complete suite of modules with everything you need to implement a sophisticated Enterprise search environment. A “Swiss army knive” so to speak.

More info at “IDOL Unstructured Data Analytics: Enterprise Search & Knowledge Discovery | Micro Focus“: “Unified machine learning platform for enterprise search and big data analytics – text analytics, speech analytics, image analytics and video analytics.”

Furthermore LucidWorks – with their Fusion offering, based on Solr – is somewhere in the middle of the Forrester wave/quadrant. Watch them because the “Solr on steroids” offering is also very usefull or even needed if you want to implement Solr as an enterprise search solution. Needless to say that my company also uses that product to fullfill “Cognitive Search and Knowlegde Discovery” needs.

ContentCafé meeting over “Search”

Op 8 april organiseert ContentCafé zijn 11e sessie. Dit keer is het onder werp “Search“.

Toen Google in 2013 5 minuten offline was, daalde het aantal page views op het internet met 40%. We navigeren het web via zoekmachines: elke maand stellen we met z’n allen elke 60 seconden zo’n 2.66 miljoen vragen aan Google’s ondoorgrondelijke algoritmes. Het is dus niet zo gek om te denken dat navigatie- of interactieproblemen ook met search ‘opgelost’ kunnen worden. Als je argumenten nodig hebt om aan te tonen dat dit niet werkt, lees dan dit artikel.

Maar wanneer werkt search dan wel en hoe weet je of een zoekmachine goed functioneert? Hoe kun je input leveren voor implementatie? Wat is semantisch zoeken, wat zijn de praktische mogelijkheden en hoe kun je dat zo inzetten dat jouw bezoekers niet eens meer hóeven te zoeken?

De elfde editie van het ContentCafé vindt plaats op woensdag 8 april om 19 uur Performance Solutions in Hoofddorp. We laten je graag verdwalen en je weg terugvinden in de wereld van search, semantiek en algoritmes.

Edwin Stauthamer zal spreken over de praktijk vanuit zijn ervaring met het adviseren over en het implementeren van zoekoplossingen voor bedrijven.

Big data? Nee, Big content!

Big data is een onderwerp dat sinds enkele jaren geleden aandacht heeft. Voor diegenen van jullie die alerts hebben lopen op dit onderwerp is het duidelijke dat er zeer veel over dit onderwerp wordt geschreven. De eerdere problemen van Big Data zijn inmiddels opgelost (vergaring, opslag). Het wordt tijid dat we aandacht schenken aan het gebruik ervan en het in perspectief zetten.

In dit artikel wil ik aandacht besteden aan twee aspecten van big data:

  1. Big content
  2. Search technology

1. Big Content

Organisaties zijn inmiddels gewend geraakt aan het verwerken van grote hoeveelheiden data. Er is veel over geschreven en er zijn veel oplossingen voorhanden om de drie V’s aan te pakken: Volume, Velocity, Variety.

Echter, deze oplossingen gaan meestal over het verwerken van “records”: gestructureerde informatie in een field/value formaat.

Zoals wij weten bestaat een groot deel van de informatie binnen organisaties uit ongestructureerde informatie: documenten en e-mail. 

Kijk eens in je directe digitale omgeving. Je maakt dagelijks gebruik van e-mail om grote hoeveelheden informatie tot je te nemen en te distribueren.  Kijk eens in je “verkenner” en zie de grote hoeveelheid shares waarop documenten worden opgeslagen. Uiteraard zit daarbij ook je “persoonlijke” opslag bij (is dat wel allemaal zo persoonlijk?).

En wat te denken van Facebook en LinkedIn? Zij hebben iedere dag te maken met zeer grote hoeveelheiden informatie in de vorm van ongestuctureerde teksten die moeten worden gebruikt om mensen met elkaar te verbinden.

Het is duidelijk dat conventionele database-oplossingen geen oplossing bieden voor dit vraagstuk. Grote hoeveelheden tekst zijn immers geen onderdelen die hiermee kunnen worden verwerkt en nog belangrijker, kunnen worden ge-analyseerd.

Gartner is inmiddels aan het onderzoeken hoe Big Data technologieën en technieken kunnen worden toegepast op ongestructureerde informatiebronnen.

2. Search Technologie

De afgelopen jaren hebben de “data-centric” leveranciers sterk geïnvesteerd in het opkopen van “enterprise search” leveranciers. Zij zien ook dat het bruikbaar maken van ongestructureerde informatie een belangrijk onderdeel is van het oplossen van het Big Data/Big Content probleem.

Zoektechnologie heeft zich vanaf 1996 bewezen als de oplossing om ongestructureerde informatie bruikbaar te maken. Verity was één van de eerste “enterprise search”  oplossingen die dit gebied in kaart heeft gebracht én heeft ontgonnen met zeer sterke content analytics oplossingen.

In de jaren daarna zijn leveranciers als Autonomy, FAST, Endeca en Google bezig geweest met het probleem van het opslaan én vindbaar/bruikbaar maken van tekstgebaseerde informatie.
De afgelopen jaren heeft de open source community hier ook een zeer belangrijke bijdrage aan geleverd via Solr/Lucene.

Zoektechnologie is nu in staat om niet alleen via het zoeken naar en vinden van “keywords” relevante docmenten te vinden. Via entiteitherkenning en semantische relaties kan gestructureerde en ongestructeerde informatie worden verbonden om inzicht te geven in belangrijke verbanden.

Dit kan heel praktisch zijn in customer call centers maar ook in “intelligence” omgevingen. Denk daarbij aan het herkennen van “patronen” die een mens alleen zou kunnen zien door alle verslagen en documenten zelf te moeten lezen.

Conclusie

De werkelijke waarde van Big Data / Big Content ligt in het verbinden van gestructureerde en ongestructueerde informatie. Het gaat om het kunnen identificeren van entiteiten, onderwerpen die aanwezig zijn in gestructureerde database records zodat deze kunnen worden gerelateerd aan diezelfde entiteiten en concepten die zich in ongestructureerde informatie en teksten bevinden.

Dit zal ons helpen inzicht te geven en ons op het pad te zetten van zaken waarvan we eerder niet wisten dat er verbanden bestonden en hier kennis uit te verkrijgen.

SEO en Findability

Het is voor websites van essentieel belang om op de grote internet zoekmachines zoals Google.com, gevonden te worden. All jaren is het onderwerp SEO (Search Engine Optimalisation) een "hot topic". SEO richt zich op het samenstellen van de content én de structuur van websites met als doel een hogere "ranking" te verkrijgen binnen zoekmachines op internet (internet seearch).
De principes die gelden voor het kunnen vinden van relevante informatie op internet (al dan niet met een commercieel doel) gaan echter ook op voor het vindbaar maken (increased findability) van informatie binnen organisaties (enterprise search).

SEO –> websites op Internet

SEO is "booming business". Vele kleine en grote bedrijven hebben zich op deze markt gestort. Het is immers voor iedere website-eigenaar van belang om zijn website als hoogste resultaat op Google.com te krijgen. Dat garandeert veel bezoeken en – als het een beetje meezit – het kopen van producten of het afnemen van diensten.

De "kunst" van het verkrijgen van een hoge ranking op Google.com is het achterhalen van de algoritmes die de zoekmachine toepast om te bepalen welke pagina’s het meest relevant zijn voor de woorden die de gebruiker als zoekopdracht gebruikt.

Google gebruikt hiervoor – onder meer – het "PageRank" algoritme. Simpel gezegd komt dit algoritme neer op het principe "Hoe vaker een pagina wordt gelinked vanaf sites, hoe hoger de populariteit van die pagina". Uiteraard is dit niet de enige indicatie of een pagina relevant is voor een bepaalde query. In totaal gebruikt Google enkele honderden indicatoren in hun relevantie algoritme. Onderzoekers van SEO gebruiken de volgende uitgangspunten bij het verkrijgen van een hoge ranking in de zoekresultaten. De meeste van deze maatregelen moeten worden gezien als "best practices" bij het schrijven van content voor het web en het structureren van websites en pagina’s. Zie hiervoor ook de site "http://www.webrichtlijnen.nl/". Deze richtlijnen bevatten ook veel technische aanwijzingen. We zullen ons hier echter beperken tot de meer inhoudsgerichte aspecten:

  • Publiceer relevante content
    Dit een beetje een “no-brainer”, maar waarom zouden mensen jouw site bezoeken als je niets waardevols te melden hebt? Bezoekers moeten iets kunnen “halen”. Dit punt is uiteraard belangrijk voor de PageRank. Site met relevante content worden vaker gelinked.
  • Gebruik goede titels en datums
    Titels van pagina’s is het eerste wat de gebruiker in een zoekresultaat ziet. Op basis van de titel van een pagina bepaald de zoeker in hoge mate of het resultaat is wat de gebruiker zoekt.
    Goede datums bij artikelen dragen tevens bij aan het bepalen van de relevantie omdat dit een beeld van de actualiteit geeft.
  • Zorg voor regelmatige updates en nieuwe content
    De internet search engines indexeren sites met regelmatige updates vaker. Als je niets verandert aan de content van je site, zal de Googlebot je minder vaak bezoeken met consequenties voor je ranking. Denk echter ook aan updates van de content via RSS-feeds.
  • Gebruik een logische sitestructuur
    Door de indeling van een site in een logische structuur zullen de internet search engines resultaten op onderwerp kunnen tonen en naast de hoofdurl tevens vergelijkbare onderdelen van de site tonen.
  • Gebruik "friendly URL’s"
    “leesbare” urls (//titel-van-artikel.html">http://<sitenaam>/<sectie>/titel-van-artikel.html in plaats van /?pageid=9">http://<sitenaam>/?pageid=9). De leesbare urls zijn sterke aanwijzingen en deze bevatten ook inhoudelijk goede metadata voor een pagina.

Belangrijke opmerking hierbij is dat het voorzien van webpagina’s van metadata zoals omschrijvingen, keywords en categorieën niet werkt op het internet. Deze informatie is zeer gevoelig voor "spam" door het opnemen van extra keywords en termen om zo te proberen de pagina hoger in de zoekresultaten te krijgen. Google slaat deze metadata derhalve over en betrekt deze niet in het bepalen van de relevantie van een webpagina.

Findability of "vindbaarheid" –> Bedrijfsinformatie

Het onderwerp Findability is een onderwerp dat met name binnen organisaties wordt gehanteerd. Dit onderwerp lijkt echter zeer sterk op de SEO principes die op internet gelden.

Het gaat er – net zoals op internet – om dat medewerkers in staat worden gesteld om de meest relevante informatie te kunnen vinden die zij nodig hebben voor het uitoefenen van hun functie.

De overeenkomsten zijn duidelijk: het is goed om informatie en documenten op een centrale plaats neer te zetten en ervoor te zorgen dat deze duidelijk is geschreven én is voorzien van duidelijke titels en structuren.
Via intranetten, DMSsen, CMSsen wordt dit ook geprobeerd.

Waarom is de informatie binnen onze bedrijfsmuren dan toch zo slecht te vinden? Hier komen we op het onderwerp “findability” of “vindbaarheid.

  • Schrijven om gevonden te kunnen worden
    Anders dan op het internet wordt informatie binnen een organisatie vaak niet opgeslagen om gevonden te kunnen worden door een grote groep van collega’s. Documenten worden geproduceerd, opgeslagen voor eigen gebruik en via de e-mail verspreidt naar de doelgroep.
    Dit is een groot verschil met het publieke domein waar informatie juist wordt gepubliceerd om gevonden te kunnen worden. Wat heeft het voor zin om informatie op internet te zetten als niemand het kan vinden?
  • Opslagstructuren
    Het internet is met zijn websites feitelijk een zeer groot centraal CMS. Het formaat van de informatie is zeer homogeen (hoofdzakelijk HTML en PDF).
    Alhoewel er verschillende locaties zijn voor specifieke content zoals filmpjes en afbeeldingen, kunnen we toch stellen dat er enkele zeer grote opslagplekken zijn zoals Youtube en Flickr.
    Zelfs het social networking platform is redelijk centraal te noemen door de hegemonie van FaceBook.
    Binnen organisaties is het alles behalve homogeen. Er is een intranet (vaak meer dan één) , een DMS (vaak meer dan één), een CRM, databases voor bedrijfsdata, filesystemen, e-mail etc.
  • Metadata
    Tevens anders dan op het internet doet metadata binnen organisatie er wél toe. Enterprise search oplossingen drijven op metadata om structuur aan te kunnen brengen, relaties tussen informatie te signaleren en filters in de zoekresultaten aan te kunnen bieden.
    Daar waar er op het internet gebruik kan worden gemaakt van PageRank algoritmen en het gigantische aanbod aan indicatoren rondom het bezoek van websites, gebruikte zoekwoorden etc. van miljoenen gebruikers, ontbreken deze indicatoren binnen de bedrijfsmuren.
    Zonder metadata is de bedrijfsinformatie zeer slecht vindbaar.

Introduceer het begrip SEO dus ook bínnen uw organisatie en maak de vertaling van zoeken naar vinden. Om informatie en documenten beter vindbaar te maken moet aandacht uitgaan naar zowel het beheer als de ontsluiting van informatie.
Als uw interne zoekmachine niet goed functioneert is de kans groot dat het te maken heeft met de kwaliteit van de content.