Open source search thriving on Google Search Appliance withdrawal?

Last week I had my first my first encounter with a potential client that changed their policy on open source search because of a recent event.

They were in the middle of a RFI (request for information) to see what options there are for their demands regarding enterprise search, when Google announced the end-of-life for their flag ship enterprise search product: the Google Search Appliance.

This has led them to think about this: “What if we choose a commercial or closed source product for our enterprise search solution and the vendor decides to discontinue it?”.

The news from Google has gotten a lot of attention on the internet, through blog posts and tweets. Of course there are commercial vendors trying to step into this “gap” like Mindbreeze and SearchBlox.

I have seen this happen before, in the time of the “great enterprise search take-overs”. Remember HP and Autonomy, IBM and Vivisimo, Oracle and Endeca, Microsoft and FAST ESP?
At that time organizations also started wondering what would happen to their investments in these high-class, high-priced “pure search” solutions.

In the case of the mentioned potential client the GSA was on their list of possible solutions (especially because of the needed connectors ánd the “document preview” feature). Now it’s gone.

Because of this, they started to embrace the strenght of the open source alternatives, like Elasticsearch and Solr. It’s even becoming a policy.
Surely open source will take some effort in getting all the required functionalities up and running, and they will need an implementation party. But… they will own every piece of software that is developed for them.

I wonder if there are other examples out there of companies switching to open source search solutions, like Apache Solr, because of this kind of unexptected “turn” of a commercial / closed source vendor.

Has Google unwillingly set the enterprise search world on the path of open source search solutions like Apache Solr or Elasticsearch?


Google Search Appliance 7.2 released

Zojuist ontvingen wij het nieuws dat de volgende versie van de Google Search Appliance (GSA) is verschenen: 7.2.
Hieronder (Engels) de samenvatting van de verbeteringen.
GSA 7.2 builds on our market leadership and provides us with a platform in enabling rich applications for our customers. Data consumption and digitization is on an upward trend and we continue to unveil even greater insights through features in 7.2. Here are some highlights:
  • Sorting by metadata: Users can sort by author, date, price or any other attribute to quickly sift through a large amount of results.
  • Wildcard search: If you don’t know the right spelling or want to search for similar terms at once, just type a few characters and let GSA fill in the blanks.
  • New admin console: A redesigned interface makes managing GSA a cleaner, simpler experience for administrators.
  • Enhanced entity recognition: Now you can test and tweak your entities before indexing begins, ensuring that they work the way you want.
  • Easier connector building: A more scalable, flexible framework simplifies the process of developing and improving custom connectors.


Een uitgebreide analyse volgt in de aankomende weken.

Google kondigt de Google Search Appliance versie 7.0 aan

Vandaag heeft Google de nieuwe versie van de Google Search Appliance software aangekondig: versie 7.0

Belangrijkste verbeteringen:

  • Entity recognition (Entiteit herkenning)
    Dit mag de grootste functionele update van de GSA sinds tijden genoemd worden.
    Tot nu toe gold het principe “garbage in – garbage out”, oftewel als de te indexeren content slechte of geen metadata heeft, dan zullen de zoekresultaten ook van gemiddelde kwaliteit zijn en filters (zoals de krachtige  facetten (zie zijn niet mogelijk.
    Met entity recognition wordt het mogelijk om gestructureerde metadata aan ongestructureerde content toe te voegen. Zie voor de meer theoretische achtergrond van dit principe.
    Praktische voorbeelden zijn het herkennen van productnamen, plaatsnamen, persoonsnamen etc.
  • Moderne standaard search result page
    Sinds 2005 was de standaard met de GSA meegeleverde zoek- en resultaatpagina niet meer ge-updated. heeft sindsdien echter vele verbeteringen doorgevoerd.
    De GSA bevat nu een sterk gemoderniseerde standaard SERP.
  • Beter relevantie berekening
    In versie 6.14 werd nog uitsluitend gebruik gemaakt van het “page rank” algoritme dat zo groot heeft gemaakt.
    De heterogene bronnen met zo weinig onderling gelinkte pagina’s binnen organisaties, waren hier echter niet mee geholpen.
    Het gevolg was een relatief lage ranking van documenten die via “feed”-mechanismes werden geindexeerd.
  • Betere schaalbaarheid
    Eén enkele GSA kan nu meer dan 10 mln documenten bevatten. Dit zal de architectuur voor grote omgevingen versimpelen omdat er minder “gestapeld” hoeft te worden.

Het hele artikel is hieronder opgenomen.

Introducing the Google Search Appliance, version 7.0


Posted by Matthew Eichner, General Manager, Enterprise Search 

Every day, Google helps people find the information they need, when they need it. When you need to know which spices make for a great butternut squash soup, typing just a few words into Google yields the answer in a fraction of a second.

In the workplace, people’s needs and expectations for search are similar. You might be searching for last quarter’s sales goals, product launch materials or your colleague’s telephone number – but there isn’t one simple search box to help you find all the information you need. When 60 percent of corporate workers say that it’s hard to find information within their organization1, something needs to change.

Ten years ago, Google introduced a bright yellow “Google in a box” for enterprises, giving them one simple way to search all content within their organization. Today we are adding new capabilities for Google Search Appliance customers. GSA 7.0 delivers a universal, powerfully relevant, yet simple and familiar search experience to your users.

Universal search
The GSA 7.0 helps you find information stored anywhere in your organization, whether you’re using a desktop, smartphone or tablet. Administrators can easily add content sources from secure storage, cloud services or the public web and social networking sites. GSA 7.0 also provides Google-quality search for SharePoint 2010, making for a more simple and intuitive, all-in-one search experience.

Powerful simplicity
Users are happy when they get relevant results returned quickly. At Google, speed and relevance are the core components of a great search experience. With GSA 7.0, we’ve refined our relevance signals so that the most useful information for each particular user is always easy to find. Assisted navigation makes it easy to refine search results, and requires no manual configuration from administrators. Entity Recognition automatically identifies and suggests content you might be looking for, and GSA 7.0 also harnesses the “wisdom of crowds,” allowing employees to add their own search results.

More search magic for business
GSA 7.0 also adds a new set of powerful search features, such as:

  • Document preview – view thumbnails and flip through full-screen document previews right alongside search results.
  • Google Translate – secure and automatic translations display in search results, in more than 60 languages.
  • Updated language capabilities – including parsing the complex morphology of Arabic, Chinese, Japanese and Korean to improve results. Expert search – tap into your organization’s knowledge graph, and instantly collaborate with colleagues who have answers.
  • New interface – a more beautiful search experience rolling out with the GSA 7 series.
  • Improved scale – a single rack of GSAs could now fit the equivalent of the entire index in 2000 – 1 billion pages.

Search should help your users, not become a source of frustration – especially as the volume of corporate content grows. GSA 7.0 provides a tool that will meet your users’ expectations for relevant and universal search, no matter where they are.
For more information about the Google Search Appliance and to contact our sales team, visitour website.



Google search appliance NIET in het nieuws

Als search consultant volg ik vele weblogs en ben ik geabonneerd op vele RSS-feeds.

Het valt mij op dat vrijwel alle grote aanbieders van zoekoplossingen melding maken van progressie op het gebied van techniek, nieuwe klanten en toepassingen.

Waarom zien we dit soort berichtgeving niet voor de Google Search Appliance? Zijn ze er niet of schenkt Google aan dit deel van hun activiteiten gewoonweg geen aandacht?

Als de mooie voorbeelden er niet zijn, dan zegt dit wat over hun marktpenetratie. Als ze er wel zijn, dan zegt dat iets over het belang dat Google hecht aan hun Enterprise Search oplossing.

Google Search Appliance strategisch product?

In één van onze eerdere berichten hebben wij de toekomst van de Google Search Appliance ter discussie gesteld.

Vandaag is dit product genoemd in een interview tussen Information Week en Jonathan Rochelle (Google Apps group product manager).

“What’s next for Google Apps, Drive, Chrome, and Google’s overall strategy to break Microsoft’s stranglehold on the enterprise desktop? Google Apps group product manager Jonathan Rochelle followed up his Interop 2012 keynote speech by sitting down with InformationWeek‘s Paul McDougall to discuss the road ahead.”

Jonathan Rochelle’s antwoord (in relatie tot de Google Search Appliance):

“All the things that people use across the corporation. And that ties together with the Google search appliance and search. If someone is doing search across their documents and mail, they can search behind the firewall.”

Google houdt grote schoonmaak. Wat is de impact op de Enterprise oplossingen?

Sinds Larry Page het bewind van Eric Schmidt heeft overgenomen waait er een nieuwe wind door Google. Larry Page is duidelijk bezig om het bedrijf meer focus te geven en dit gaat gepaard met het beëindigen van diverse projecten en producten. De laatste berichtgeving hierover (Google gaat door met grote schoonmaak) is slechts een continuering van eerder genomen besluiten.

In dit artikel ga ik in op de “Enterprise” oplossingen van Google en meer specifiek op de Google Search Appliance (GSA).

Het lijkt erop dat Google de “bijproducten” wil afstoten. Als we kijken naar de Google Search Appliance, of meer algemeen de Enterprise Search activiteiten van Google, dan zouden we de volgende vragen kunnen stellen:

  • Hoe past de Google Enterprise Search oplossing in de strategie van het bedrijf?

en daarmee samenhangend:

  • Hoeveel omzet haalt Google wereldwijd uit de verkoop van GSA’s?
  • Hoeveel ontwikkelaars zijn bij de GSA ontwikkeling betrokken?

Hierbij moet ik gelijk één ding duidelijk maken: Er is niet veel bekend over de specifieke omzet die Google op dit moment haalt uit de Enterprise producten en zoals gezegd, meer specifiek uit de Google Search Appliance.

Wat ik wel weet is dat de “enterprise” sectie van Google een zéér klein deel van de omzet vertegenwoordigd (95% van de miljardenomzet is advertising en alle daaraan gelieerde activiteiten, zo ook, Google+ en Android). Alle activiteiten zijn gericht op het verkrijgen van persoonlijke data en profilering om meer gerichte en dus effectieve advertenties te kunnen verkopen.
De meeste andere activiteiten zijn ontstaan vanuit het overschot aan kapitaal en dus de mogelijkheid om geld en tijd te investeren in R&D en de ontwikkeling van nieuwe oplossingen (“iedere medewerker van Google mag een bepaald percentage (20%?) van zijn tijd spenderen aan R&D”), zoals de Google Search Appliance (“we kunnen zoeken op internet, waarom kunnen we dit niet ook binnen bedrijven?”).
De basisfunctionaliteit van GSA is gericht op het via webcrawling indexeren van intranetten, vergelijkbaar met wat doet op internet. Dat doet ie dan ook goed. Het ontbreken van metadata is op internet niet belangrijk. Daar gaat het om de populariteit van sites en pagina’s (hoe vaak wordt er gelinkt naar pagina’s) en daarmee de authoritativiteit van bepaalde sites (een site waar waar naar wordt verwezen is per definitie een authoriteit). Die algoritmes gaan binnen een organisatie echter niet op (slechte link-kwaliteit, heterogene bronnen). Sterker nog… content die wordt gepushed via connectoren hebben per definitie een lage relevantie door het onbreken van aanknopingspunten voor het “page-rank” algoritme).
Die innovaties en R&D producten zijn de afgelopen jaren gelanceerd op Google Labs. Dat is nou juist wat Page aan het verminderen is.
Een teken aan de wand is het zomaar laten vallen van de integratie met Google Apps op de Search Appliance. Bedrijven konden eerst met de GSA gelijktijdig door hun interne informatie én de data die is opgeslagen in “the cloud” doorzoeken. Nu niet meer.
Naar mijn mening past de GSA niet binnen de lange termijn visie van Google. Ze willen zoveel mogelijk alle data in de cloud krijgen, ook bedrijfsdata. Dat is ook schaalbaar, gezien hun datacenters en gedistribueerde data-opslagsystemen.
Voor wat betreft de functionaliteit lopen ze met hun enterprise search oplossing sterk achter bij de “pure enterprise search infrastructure vendors” zoals Autonomy, Attivio, Endeca, Microsoft FAST, Exalead en de meer gespecialiseerde vendors zoals Zylab, MindBreeze, Polyspot etc. (denk aan de opmerking die ik eerder maakte over het ontbreken van “page-rank data” om de relevantie op te baseren). De GSA kan verder (nog) niet voorzien in “compliance” regels zoals het leveren van exacte aantallen gevonden documenten of het zoeken op delen van strings (zoeken met een * om de in het nederlands zo veel voorkomenden samentrekkingen aan te kunnen (compound words)). Google werkt hier op dit moment overigens wel hard aan.
Gezien de status van hun connector framework (afhankelijk van third parties, zeer gefragmenteerd en vaak onduidelijk wat kan en wat niet kan) en de architectuur van de GSA (alles op de box) vraag ik me af hoeveel ze willen investeren in de ontwikkeling van deze oplossing. Vergelijk dat met de andere oplossingen die een “plugable pipeline” (Autonomy, FAST) hebben om allerlei bewerkingen op de content te doen voordat de informatie aan de indexen wordt toegevoegd. Dat kan met de GSA oplossing niet, omdat de “document filters” (de techniek die binaire documenten zoals Word, PDF etc. omzetten naar plain tekst) op de GSA zelf zijn geimplementeerd. Als je dit met de GSA wilt doen, dan moet je dus zelf een pipeline opzetten die gebruik maakt van (vaak betaalde) externe document filters waardoor je extra (dubbele) investeringen moet doen.
Kijk ook naar de SharePoint Search oplossing. Microsoft investeert in het positioneren van SharePoint Search (powered by FAST) als “enterprise Search” oplossing. Daarbij worden de mogelijkheden van SharePoint iedere keer beter en volwassener. Google probeert bij te blijven met de ontwikkelingen van SharePoint, maar dat wordt steeds moeilijker.

De zoekmogelijkheden van SharePoint 2010 zijn al een stuk beter dan de zoekmogelijkheden in SharePoint 2007 (laat staan 2003) en Google haalt nog steeds aan dat zij een betere zoekervaring kan bieden voor SharePoint 2003 en 2007.
Ze lopen daarom achter en gebruiken argumenten die met de introductie van SharePoint 2010 voor een groot deel niet meer op gaan (zeker in combinatie met FAST Search 4 SharePoint (FS4SP).
Uiteraard heb ik het hier over de inzet van FAST Search 4 SharePoint als een Enterprise Search oplossing die verder gaat dan de informatie die in SharePoint wordt beheerd. SharePoint is slechts één van de informatiesystemen die binnen organisaties wordt gebruikt.
Als laatste het licentiemodel van de GSA. Het feit dat je als organisatie iedere 2 of 3 jaar (Google wil van de 2 jaar optie af) weer een investeringsbeslissing moet nemen (denk aan grote implementaties waarmee tonnen of zelf miljoenen aan licentiegelden zijn gemoeid) is een risico. Mijn ervaring met Autonomy is dat als een organisatie kiest voor Autonomy, zij dit voor meer dan 6 jaar ongemerkt doen. Bij de andere vendors koop je een “perpetual” licentie en betaalt van dat bedrag 20% per jaar.
Afhankelijk van hoe een organisatie dit financieel in de boeken zet, kan dit nogal wat betekenen.
Bij een commerciële organisatie zou je de kosten voor de GSA oplossing niet in één keer kunnen nemen, maar afschrijven over 3 jaar. Daarna kan je door de reservering die daarbij ontstaat, na 3 jaar weer een nieuwe investering kunnen doen. De kosten blijven dan gelijk over de jaren. Voor een overheidsinstelling gaat dit niet op door de toepassing van het “budget stelsel”. Dit is gebaseerd op kasuitgaven en worden (kunnen) niet worden afgeschreven.
Het model van de GSA kan ook niet anders omdat het om hard- én software gaat. Software schrijf je niet af. Je neemt de kosten van 20% gewoon per jaar en de vervanging van de hardware zit in het IT-budget. Hardware moet echter vervangen worden. Google had ook kunnen zeggen “Je krijgt een perpetual licentie én we geven iedere 3 jaar nieuwe hardware”. In plaats daarvan hebben ze gezegd “Je krijgt een licentie van 3 jaar en daarna moet je een nieuwe licentie én hardware aanschaffen”.
Google brengt dit dus als “heel transparant”, maar werpt daarmee wel veel vragen op in vergelijking met andere enterprise oplossingen waarbij je gewoon jaarlijks of per gebruiker een bepaald bedrag betaald.
In TCO berekingen komt de Google Search Appliance overigens wel beter uit de vergelijking. Wanneer je de kosten bekijkt over een periode van 6 of meer jaar, dan valt de 3-jaarlijkse investering beter uit dan de jaarlijkse 20% maintenance fee die software leveranciers rekenen. Dit gaat echter ook weer deels op, omdat de kosten voor een zeer grote Google implementatie (5 miljoen en hoger) meestal hoger zijn dan de kosten voor een oplossing van bijvoorbeeld Autonomy, FAST of Attivio.
Ik ben benieuwd naar de meningen van bedrijven of andere search consultants ten aanzien van dit onderwerp:
Is de Google Enterprise Search oplossing een blijver binnen de plannen van Google of niet?

Query suggest / autocomplete in de Google Search Appliance

Vandaag heb ik een hele dag met een klant waar wij een Proof of Concept met de Google Search Appliance doen, gesproken over de mogelijkheden van de GSA, de techniek erachter etc. Ze waren zeer enthousiast, zeker over de relevantie die van meet af aan goed was. Er was één functionaliteit die tot veel discussie leidde: de Autocomplete.

Wat mij opvalt is dat steeds meer klanten een “Query autocomplete” functie willen. De reden daarvoor verschilt bij iedere klant, maar uit de theorie kunnen we halen dat query autocompletion

  1. voorkomt dat een gebruiker verkeerde woorden intikt
  2. de gebruiker tipt op een zinvolle zoekopdracht
  3. de gebruiker zicht krijgt op de content
  4. verleidt tot het gebruiken van meer zoekwoorden.

De Google Search Appliance heeft ook een Autocomplete functie. Deze functie haalt de veelgebruikte zoekopdrachten uit de query logs. De beperking daarvan is meestal snel duidelijk:

  • Waar men vaak op zoekt hoeft niet te zijn waar men ook goede resultaten op vindt
  • Er kunnen zoeksuggesties worden gegeven waar helemaal geen resultaat voor is
  • De zoeksuggesties kunnen spelfouten of andere ongewenste woorden bevatten

De lijst lijst met historische zoekvragen is verder ook niet te beheren.

Een goede query suggest / autocomplete functie bepaalt zijn woorden op basis van de volgende zaken:

  • Corpus
    De woorden moeten worden ontleend aan de geindexeerde content. Na het intikken van de eerste letters moeten termen worden teruggegeven die volgens een (wildcard) patroon scoren. Tevens moeten combinaties van woorden worden teruggegeven in de volgorde waarin ze in documenten voorkomen. Dit kan zowel links als rechts ge-wildcard worden. Denk hierbij ook aan het gebruik van trigrammen.
  • Keymatches
    De suggestfunctie zou ook een beroep moeten doen op de keymatches. Deze worden dan getoond als query suggestion, waarbij een klik op het voorgestelde woord direct naar een webpagina leidt.
  • Producten / diensten
    De derde mogelijke inhoud voor een autocomplete / suggestie is een handmatig beheerde lijst van producten of diensten waarbij zoekwoorden kunnen worden aangegeven.
    Apple had dit vroeger in zijn zoekfunctie.

Al deze zaken moeten uiteraard wel goed in de user interface worden verwerkt. Het moet voor een gebruiker immers duidelijk zijn of een suggestie / autocomplete een zoekopdracht is of een directie link naar een webpagina.

Het is dus wachten op een betere implementatie van de autocomplete functie in de Google Search Appliance.

Install base Google Search Appliance groter van die van Autonomy IDOL?

In een bericht van Beyond Search over een seminar dat Search Technologies in New York gaat houden, worden enkele interessante getallen genoemd.

Install base

Volgens informatie beschikbaar bij Beyond Search, zijn er wereldwijd meer dan 35.000 Google Search Appliances in gebruik. Ter vergelijking wordt ook het aantal wereldwijde licenties voor Autonomy IDOL genoemd: 30.000,00.

De Google Search Appliance is pas sinds 2002 op de markt en Autonomy IDOL al jaren langer. De vraag is wat dit zegt.

De GSA is voor midden tot kleine organisatie beter te betalen. De oplossing wordt soms zelfs aangeschaft in het kader van “laten we het maar proberen”. Dat er meer GSA’s zijn verkocht zegt dus niet zoveel. De oplossing van Autonomy is niet helemaal te vergelijken met de Google Search Appliance. In basis voorzien ze in de mogelijkheid om informatie uit verschillende bronnen doorzoekbaar te maken, maar Autonomy heeft hiervoor veel meer mogelijkheden en analyse functies dan de GSA.


Een ander interessant gegeven is dat de Google Search Appliance een licentiemodel van 2 of 3 jaar kent. Na die termijn moeten weer nieuwe licenties worden aangeschaft voor het volledige bedrag én krijg je een nieuwe Search Appliance. Het is pas sinds kort dat de Search Appliance ook daadwerkelijk stopt met serveren als de licentie is verlopen. De oudere modellen blijven gewoon doorwerken.

Zijn die 35.000 Google Search Appliances allemaal voorzien van een actuele licentie? Niemand zal heet weten omdat die gegevens niet bekend zijn.

Het feit is dat Google het model van éénmalige inkomsten heeft gekozen, daar waar Autonomy een éénmalig een licentie op software verkoopt en daar dan ook nog 20% “maintenance” per jaar  voor krijgt.