Open source search thriving on Google Search Appliance withdrawal?

Last week I had my first my first encounter with a potential client that changed their policy on open source search because of a recent event.

They were in the middle of a RFI (request for information) to see what options there are for their demands regarding enterprise search, when Google announced the end-of-life for their flag ship enterprise search product: the Google Search Appliance.

This has led them to think about this: “What if we choose a commercial or closed source product for our enterprise search solution and the vendor decides to discontinue it?”.

The news from Google has gotten a lot of attention on the internet, through blog posts and tweets. Of course there are commercial vendors trying to step into this “gap” like Mindbreeze and SearchBlox.

I have seen this happen before, in the time of the “great enterprise search take-overs”. Remember HP and Autonomy, IBM and Vivisimo, Oracle and Endeca, Microsoft and FAST ESP?
At that time organizations also started wondering what would happen to their investments in these high-class, high-priced “pure search” solutions.

In the case of the mentioned potential client the GSA was on their list of possible solutions (especially because of the needed connectors ánd the “document preview” feature). Now it’s gone.

Because of this, they started to embrace the strenght of the open source alternatives, like Elasticsearch and Solr. It’s even becoming a policy.
Surely open source will take some effort in getting all the required functionalities up and running, and they will need an implementation party. But… they will own every piece of software that is developed for them.

I wonder if there are other examples out there of companies switching to open source search solutions, like Apache Solr, because of this kind of unexptected “turn” of a commercial / closed source vendor.

Has Google unwillingly set the enterprise search world on the path of open source search solutions like Apache Solr or Elasticsearch?

 

Open source search oplossingen en CMS/DMS leveranciers

De afgelopen jaren hebben steeds meer leveranciers de kracht van open source search oplossingen omarmd. Vrijwel iedere leverancier van DMS en CMS oplossingen heeft nu een open source search oplossing “onder de motorkap”. “Search” is echter meer dan alleen een technisch trucje en medewerkers willen ook buiten één systeem informatie vinden.

“Back in the days” werden de meeste DMS en CMS oplossingen geleverd met een (mag ik wel zeggen) slechte zoekfunctionaliteit. De systemen waren gericht op het opslaan en beheren van content. We kennen allemaal de voor experts bedoelde zoekschermen met veel zoekvelden, gericht op het via metadata vinden van content. Met een beetje gelijk kon je ook “full-text” zoeken door alle metadatavelden en documenten. Voorbeelden? Die zijn er te over: Corsa, Verseon, SharePoint, OpenText, Drupal.
Vraag aan gebruikers wat zij denken over de vindbaarheid van content in die systemen en je krijgt in de meeste gevallen een rapportcijfer 6 of lager terug.

Wat ik nu zie is dat de meeste leveranciers van CMS, en DMS-sen hebben ontdekt dat er open source oplossingen zoals Solr/Lucene en Elastic search beschikbaar zijn om de content binnen hun systemen beter doorzoekbaar te maken. Feitelijk is dit model niet anders dan de OEM versies van bijvoorbeeld Verity (search97) die in de jaren 90 bijvoorbeeld voor ColdFusion werden gebruikt

De integratie van deze oplossingen heeft zeker verbetering gebracht. In plaats van de trage database search (SQL) en ontbrekende full-text zoekopties, is het nu mogelijk om sneller en gebruiksvriendelijker door binnen een CMS/DMS opgeslagen documenten te zoeken.
Om de medewerker te faciliteren bij het inperken van zijn of haar zoekvraag, wordt gebruik gemaakt van ‘facetted search”, wat in vrijwel iedere volwassen open source zoekoplossing beschikbaar is.

We kunnen nu dus beter zoeken in content binnen bepaalde systemen én daar ook nog eens relevantere resultaten uit krijgen. Een zoekoplossing is echter meer dan de mogelijkheid om zoekwoorden in te geven en een lijstje met links terug te krijgen. Findability heeft te maken met het optimaliseren van de content én het aangaan van een dialoog met de gebruiker om zo zeker te weten dat de vraag achter de vraag wordt begrepen en op die manier hoog relevante resultaten of zelfs antwoorden worden teruggevonden.

We hebben daarmee echter nog steeds te maken met “Silo’s” van informatie. Het is goed dat we binnen een bepaald (content)systeem kunnen zoeken én vinden. Binnen de meeste organisaties hebben we echter per definitie te maken met meerdere contentsystemen. Medewerkers willen met één zoekopdracht meerdere contentsystemen kunnen doorzoeken én ook nog relevante resultaten terugkrijgen.

Ik krijg de laatste tijd steeds meer vragen zoals “nu we Solr hebben voor product X, kunnen we deze oplossing nu ook inzetten voor het zoeken in andere contentsystemen?”.

In principe zijn de open source zoeksystemen zoals Solr en Elasticsearch in te zetten voor het “indexeren” van content uit vele bronnen. Een “build-in” zoekoplossing heeft echter vaak moeite met het aansluiten van andere bronnen. Het ontbreekt aan de “connectoren” (verbindingen om content uit meerdere contentsystemen te halen). De “build-in” versie van het zoeksysteem is geoptimaliseerd om content uit dat specifieke contentsysteem te kunnen indexeren én te doorzoeken.

Er blijft zodoende behoefte aan een zoekoplossing die de informatie over contentsystemen heen vindbaar maakt voor alle medewerkers. Meestal kan “build-in” zoekoplossing geschikt worden gemaakt, maar dat vraagt om expertise die de leverancier niet kan leveren. Search & Findability is een specialisme waarde leveranciers van CMS/DMS-sen meestal niet in kunnen voorzien.

Conclusie?
Expertise op het gebied van searchengines en Search & Findability is iets dat leveranciers van CMS en DMS oplossingen meestal niet kunnen leveren.
Positioneer een zoekoplossing over de contentsilo’s heen en geef het ook de aandacht die het verdient. Om je eigen “Google” te maken is meer nodig dan een meegeleverde zoekoplossing. De medewerkers varen er wel bij!

Overzicht met search-gerelateerde Technologieën toegevoegd.

Het speelveld waarop met zoekvraagstukken worden gespeeld, is behoorlijk groot.

Aan de ene kant heb je commerciële zoekmachines die door bedrijven worden verkocht en andere andere kant open source zoekmachines die feitelijk van niemand zijn maar die iedereen kan gebruiken (en aanpassen).

Zoekoplossingen bestaan echter uit meer dan alleen een zoekmachine. Informatie moet uit bronnen worden gehaald (connectoren, crawlers), eventueel worden bewerkt en verrijkt (Entity Extraction, Classificatie) voordat het aan de indexen van de zoekmachine kan worden toegevoegd. Echter ook aan de bevragingskant kunnen functies worden gebruikt zoals dynamisch clusteren, expanderen van zoekvragen etc.

Op de pagina “Technologie” geven wij een (groeiend) overzicht van oplossingen en technieken die beschikbaar zijn, zowel commercieel als open source.