Enterprise Search vs. E-Discovery from a solution point of view

Last week I was invited for an “Expert meeting E-Discovery”. I’ve been in the search business for many years and I regularly encounter the concept and practice for “E-discovery” as well as “Enterprise search” (and E-commerce search, and Search Based Application etc.).

So I decided to get some information about what people think about the difference between Enterprise search and E-Discovery.

Definition of E-Discovery (Wikipedia):

Electronic discovery (also e-discovery or ediscovery) refers to discovery in litigation or government investigations which deals with the exchange of information in electronic format (often referred to as electronically stored information or ESI). These data are subject to local rules and agreed-upon processes, and are often reviewed for privilege and relevance before being turned over to opposing counsel.

Definition of Enterprise search (Wikipedia):

Enterprise search is the practice of making content from multiple enterprise-type sources, such as databases and intranets, searchable to a defined audience.

When you look at the definitions, the difference is in the “goal”. E-Discovery is dealing with legal stuff to gather evidence; Enterprise search is dealing with “general purpose” to gather answers or information to be used in some business process.
But one can also see the similarities. Both deal with digital information, multiple sources and a defined audience.

What could be seen as different is that according to these definitions, E-Discovery does not talk about a technical solution that indexes all (possibly relevant) information and makes that searchable. Enterprise search is much more close to a technical solution.

So… not much differences there, but I am beginning to have a hunch about why people could see them as different. My quest continuous.

I found two articles that are pretty clear about the differences:

I think that the differences that are mentioned come from a conceptual aspect of E-Discovery vs. Enterprise search, not from a technical (solutions) point (and even on the conceptual point they are wrong). Also I think that the authors of the article compare the likings of the Google Search Appliance to specialized E-Discovery tools like ZyLab. They just simplify the fact that there are a lot of more solutions out there that do “Enterprise search” but are very more sophisticated than the Google Search Appliance.

Below I will get into the differences mentioned in those articles from a technical or solution point of view.

From “Enterprise Search vs. E-Discovery Search: Same or Different?“:

  1. Business objective is a key consideration
    “Recall vs. Precision” (getting all the relevant informations vs. getting the most relevant informations)
    It is true that a typical Enterprise search implementation will focus on precision. To support efficient answering of common queries and speeding up information driven processes in a company, precision is important.
    This does not say that the products used for Enterprise search cannot deliver all relevant informations for a query. HPE IDOL as well as Solr can retrieve all relevant informations fast.
  2. Number of search queries matter
    “Simple vs. complex queries”
    Here a couple of keyword examples are given to illustrate how people use Enterprise search. I’ve been working with companies (intelligence) that use Enterprise search solutions (like HPE IDOL/Autonomy) to use far more complex queries to get all possible relevant informations back.
    The complex queries that are illustrated can be handled by Solr easily.
  3. The cost of relevancy
    “Transparent query expansion”
    For every search manager is important to know why results show up given a specific query. It is needed to tune the engine uses and the results that are displayed to the users.
    Solr is open source and that’s why the community invest heavily in making it transparent why results come up given a specific (complex) query.
    Furthermore there are tools that can be used with Solr that can even make E-Discovery better. Think of the Clustering engine Carrot2. That solution will make relations in informations visible even without knowing up front that those relations could even exist.

From “3 Reasons Enterprise Search is not eDiscovery“:

  1. Lenghty deployment
    “All informations for one audience” vs. “All informations for everyone”
    For this… see the first bullet under the next section “Business case”.
    But also… an Enterprise search deployment can take some time because you have to find ways to get informations out of some content systems. Will this be ease when using a E-Discovery solution? Do they have ways to get content out out ALL content systems? If so… please share this with the world and let that vendor get into the Enterprise search business. They will have the “golden egg”!
  2. Misses key data sources
    E-Discovery vs. “Intranet search”
    The whole promise of “Enterprise search” is to get all informations in a company findable by all employees. The authors of the articles must have missed some information about this. Point.
  3. Not Actionable
    “Viewing” vs. “Follow up”
    The platforms that make up a real good Enterprise search solution are designed to support many information needs. They can support many different search based applications (SBA’s). E-Discovery could as well be such a search based application. It has specific needs in formulating queries, exploring content, saving the results, annotating it and even recording queries with their explanation.


So when I look at the differences from my piont of view (implementation and technical) I see three topics:

  • Business case
    The Business case for an E-Discovery Solution is clear: You have to implement/use this because you HAVE to. It’s a legal thing. The company has to give access to the data. Of course there is still a choice for doing this manually. But if there is too much information, the cost of labour will exceed the cost of a technical solution.
    When we look at Enterprise search (all information within the company for all employees) there is no one who will start implementing a technical solution without insight in the cost and benefits. Implementing a large (many sources, many documents, many users) Enterprise search solution is very costly.
  • Audience
    The audience (target group) for E-Discovery is the investigators that have to find out if there is any relevant information concerning an indictment or absolution in a legal case. This group is highly trained and it can be assumed that they can work with complex queries, complex user interfaces, complex reporting tools etc. Focus is getting all relevant documents, no matter how hard it is to formulate the right queries and traversing through the possible results.
    The audience for Enterprise search is “everyone”. This could be skilled informationspecialists, but also the guys from marketing, R&D and other departments, just trying to find the right template, customer report, annual financial report or even the latest menu from the company restaurant.
    Design of the user experience has to be carefully designed so that it is usable for a broad audience with different information needs. Sometimes the most relevant answer or document is OK, but in other use cases getting all the information on a topic is needed.
  • Security
    For E-Discovery in legal circumstances it’s simple: Every piece of informations has to be accessible. So no difficult stuff about who can see what.
    In Enterprise search security is a pain in the *ss. Many different content systems, many different security mechanisms and many different users that have different identities in different systems.
  • Functionality
    To provide the right tools for an E-Discovery goal a solution needs to take care about some specific demands. I am pretty sure that the search solutions I mentioned can take of most of them. It’s all in the creation of the user interface and supporting add-ons to make it happen.
    Allthough a typical Enterprise search implementation may not have this, the products used and the possibilities of creating custom reports and actions (explain, store etc.) do exist.


What none of the articles mention is the complexity of getting all informations out of all systems that contain the content. When abstracting from the possible tools for E-Discovery or Enterprise search, the tools for connecting to many different content systems is probably the most essential thing. When you cannot get informations out of a content system, the most sophisticated tool for search will not help you.
Enterprise search vendors are well aware of that. That’s why they invest so hard into developing connectors for many content systems. There is no “ring to rule them all” in this. If there are E-Discovery vendors that have connectors to get all informations from all content systems I would like to urge them to get into the Enterprise search business.


My conclusion is that there are a couple of products/solutions that can fullfill both Enterprise search needs as well as E-Discovery needs. Specifically I want to mention HPE IDOL (the former Autonomy suite) and Solr.
When looking at the cost perspective, Solr (Open source) can even be the best alternative to expensive E-Discovery tools. When combining Solr with solutions that build on top of them, like LucidWorks Fusion, there is even less to build of your own.


I am only talking about two specific Enterprise search products because I want to make a point. I know that there are a lot more Enterprise search vendors/solutions that can fulfill E-Discovery needs.

Open source search oplossingen en CMS/DMS leveranciers

De afgelopen jaren hebben steeds meer leveranciers de kracht van open source search oplossingen omarmd. Vrijwel iedere leverancier van DMS en CMS oplossingen heeft nu een open source search oplossing “onder de motorkap”. “Search” is echter meer dan alleen een technisch trucje en medewerkers willen ook buiten één systeem informatie vinden.

“Back in the days” werden de meeste DMS en CMS oplossingen geleverd met een (mag ik wel zeggen) slechte zoekfunctionaliteit. De systemen waren gericht op het opslaan en beheren van content. We kennen allemaal de voor experts bedoelde zoekschermen met veel zoekvelden, gericht op het via metadata vinden van content. Met een beetje gelijk kon je ook “full-text” zoeken door alle metadatavelden en documenten. Voorbeelden? Die zijn er te over: Corsa, Verseon, SharePoint, OpenText, Drupal.
Vraag aan gebruikers wat zij denken over de vindbaarheid van content in die systemen en je krijgt in de meeste gevallen een rapportcijfer 6 of lager terug.

Wat ik nu zie is dat de meeste leveranciers van CMS, en DMS-sen hebben ontdekt dat er open source oplossingen zoals Solr/Lucene en Elastic search beschikbaar zijn om de content binnen hun systemen beter doorzoekbaar te maken. Feitelijk is dit model niet anders dan de OEM versies van bijvoorbeeld Verity (search97) die in de jaren 90 bijvoorbeeld voor ColdFusion werden gebruikt

De integratie van deze oplossingen heeft zeker verbetering gebracht. In plaats van de trage database search (SQL) en ontbrekende full-text zoekopties, is het nu mogelijk om sneller en gebruiksvriendelijker door binnen een CMS/DMS opgeslagen documenten te zoeken.
Om de medewerker te faciliteren bij het inperken van zijn of haar zoekvraag, wordt gebruik gemaakt van ‘facetted search”, wat in vrijwel iedere volwassen open source zoekoplossing beschikbaar is.

We kunnen nu dus beter zoeken in content binnen bepaalde systemen én daar ook nog eens relevantere resultaten uit krijgen. Een zoekoplossing is echter meer dan de mogelijkheid om zoekwoorden in te geven en een lijstje met links terug te krijgen. Findability heeft te maken met het optimaliseren van de content én het aangaan van een dialoog met de gebruiker om zo zeker te weten dat de vraag achter de vraag wordt begrepen en op die manier hoog relevante resultaten of zelfs antwoorden worden teruggevonden.

We hebben daarmee echter nog steeds te maken met “Silo’s” van informatie. Het is goed dat we binnen een bepaald (content)systeem kunnen zoeken én vinden. Binnen de meeste organisaties hebben we echter per definitie te maken met meerdere contentsystemen. Medewerkers willen met één zoekopdracht meerdere contentsystemen kunnen doorzoeken én ook nog relevante resultaten terugkrijgen.

Ik krijg de laatste tijd steeds meer vragen zoals “nu we Solr hebben voor product X, kunnen we deze oplossing nu ook inzetten voor het zoeken in andere contentsystemen?”.

In principe zijn de open source zoeksystemen zoals Solr en Elasticsearch in te zetten voor het “indexeren” van content uit vele bronnen. Een “build-in” zoekoplossing heeft echter vaak moeite met het aansluiten van andere bronnen. Het ontbreekt aan de “connectoren” (verbindingen om content uit meerdere contentsystemen te halen). De “build-in” versie van het zoeksysteem is geoptimaliseerd om content uit dat specifieke contentsysteem te kunnen indexeren én te doorzoeken.

Er blijft zodoende behoefte aan een zoekoplossing die de informatie over contentsystemen heen vindbaar maakt voor alle medewerkers. Meestal kan “build-in” zoekoplossing geschikt worden gemaakt, maar dat vraagt om expertise die de leverancier niet kan leveren. Search & Findability is een specialisme waarde leveranciers van CMS/DMS-sen meestal niet in kunnen voorzien.

Expertise op het gebied van searchengines en Search & Findability is iets dat leveranciers van CMS en DMS oplossingen meestal niet kunnen leveren.
Positioneer een zoekoplossing over de contentsilo’s heen en geef het ook de aandacht die het verdient. Om je eigen “Google” te maken is meer nodig dan een meegeleverde zoekoplossing. De medewerkers varen er wel bij!

StateofEnterpriseSearch.nl presenteert: Webinar

Afgelopen week heb ik een webinar bijgewoond getiteld: “The State of Enterprise Search“.

Dit webinar is georganiseerd door BA insight.

In een soort “round table” setting werd door zeer bekende personen in het vakgebied “Enterprise Search” gediscussieerd over onderwerpen die door de moderator werden ingebracht. De deelnemers waren:

  • Martin White
  • Sue Feldman
  • Jeff Fried

De webinar is opgenomen en kan worden teruggeluisterd op: http://vimeo.com/78551770.

BA insight heeft de afgelopen weken ook twee rapporten opgeleverd: State of Search in the Enterprise: Part 1 & Part 2

Veel luister en leesplezier!

Enterprise Search: stilstand of beweging?

Er wordt veel geschreven over Enterprise Search en er treden steeds nieuwe partijen toe tot deze markt die een “briljante” nieuwe oplossing hebben.

De nieuwkomers hebben veelal een product dat is gebaseerd op de open source Lucene kern of daarvan zijn afgeleid.

Het valt op dat deze oplossingen meestal een deel van het totale “information retrieval” probleem aanpakken. Ze zijn goed in X of Y maar vrijwel nooit X én Y.

Het valt ook op dat er voorbij wordt gegaan aan de meetbare principes van “precision and recall” (de “maatstaf” om relevantie te bepalen) en het principe “goed genoeg“ wordt gehanteerd. De vraag is dan natuurlijk wat “goed genoeg” is.

Waar zijn de “Game changing” aanbieders zoals Verity, Autonomy en Endeca gebleven? Toen Larry en Sergey nog met blokken speelden beschikten zij al over de oplossing voor security, connectie naar zeer veel verschillende informatiesystemen en gedistribueerde architecturen. Er zijn geen betere producten verschenen, alleen aanbieders die zaken ánders doen.

Alle aanbieders van “best of breed” zoekoplossingen zijn inmiddels overgenomen door HP, IBM, Dassault, Oracle en Microsoft. Zij hebben technologie opgebroken en in delen opgenomen in hun eigen integratie- of infrastructurele oplossingen. Search is daarmee een onderdeel van een reeds bestaand product geworden, maar de “”enterprise search” of “universal search” gedachte die achter de zoekoplossingen zat, is daarmee verloren gegaan.

Definieert de opkomst van goedkope op open source gebaseerde producten het speelveld van “Enterprise Search”? Het gaat om big data, business intelligence aan de ene kant en “one size fits all”, “goed is goed genoeg” aan de andere kant. De woorden zijn veranderd, maar het probleem van “findability” is nog steeds niet opgelost.

De nieuwkomers twitteren en bloggen over fondsen die ze hebben verkregen maar niet over grote klanten en implementaties die ze hebben gedaan. Waarom? Zijn er geen grote succesverhalen te vertellen? UIteraard heb ik het dan niet over het doorzoekbaar maken van een intranet maar het oplossing van een groot informatieprobleem waarbij echt business value is verkregen.

Zoals we weten gaat vindbaarheid over de kwaliteit van informatie én technologie. Toch wordt “search” vaak gezien als een infrastructuurproduct (a la e-mail) en niet in relatie gebracht met het beheer van de informatie die doorzocht moet kunnen worden (zie ook de blog van Earley & Associates “Building the Business case for enterprise search”).

De realiteit is dat een nieuwe Autonomy of Endeca niet snel zal verschijnen. Het zou wel eens onmogelijk kunnen zijn omdat Enterprise Search niet langer een oplossing is. Het is een “hidden feature” van andere producten geworden. Het kost moeite om het te vinden en nog meer moeite om het te laten werken zoals de gebruiker wil.

Wat vinden jullie? Is “Enterprise Search” dood en moeten er andere, revolutionaire oplossingen komen om alle informatie in een organisatie bruikbaar en vindbaar te maken?


Cloudoplossingen zijn de trend, maar vergeet u niet iets?

De afgelopen jaren hebben de concepten “cloud” en “SaaS” een grote vlucht genomen. Op het gebied van office productivity zijn Google Apps en Office 365 zonder twijfel de grootste spelers. Vanwege de lage beheer- en licentiekosten heeft u besloten ook uw Office documenten naar de cloud te verplaatsen. Maar vergeet u hier niet iets?

In vroegere tijden (jawel… de tijd gaat hard) bevond al uw belangrijke bedrijfsinformatie zich veilig en bereikbaar achter de firewall. Zowel bereikbaar voor uw medewerkers als voor allerlei toepassingen waarbinnen die informatie werd gedeeld.

De beheerkosten van de opslagsystemen rezen echetr de pan uit en u bent zoals zoveel ondernemers van mening dat IT niet uw core-business is. U wilt uw bedrijfsmiddelen liever besteden aan de ontwikkeling van producten en het verkopen daarvan.
Naast het kostenaspect speelde ook de toenemende mobiliteit van uw medewerkers een rol. De medewerkers wilden het liefst tijd- en plaatsonafhankelijk bij hun gegevens kunnen. Dit legde een nog groter beslag op de IT voorzieningen binnen de bedrijfsmuren. Het moest immers wel veilig gebeuren.

Een cloudoplossing was het aantrekkelijke alternatief. U reduceerde hiermee de IT kosten én tegelijk zorgde deze oplossing ervoor dat uw medewerkers via internet vanaf elke plek en met iedere device bij die informatie kunnen.

We spoelen door naar het nu.

Uw medewerkers klagen erover dat ze om gegevens en documenten te zoeken, verschillende systemen moet raadplegen en dat ze niet snel genoeg (als ze het al kunnen vinden) een beeld kunnen krijgen over een bepaald onderwerp.
Door de verspreiding van informatie over de verschillende systemen moeten ze ook al eerst weten in welke systemen welke informatie te vinden is. Met name een ramp voor nieuwe medewerkers.

Daarnaast komt u tot de conclusie dat u meer wilt weten over productiecijfers, contacten met klanten, waar men binnen uw bedrijf mee bezig is en welke kennis u als organisatie bezit om de juiste beslissingen te kunnen nemen t.a.v. investeringen, marketingcampagnes, productontwikkeling etc.  

Om deze behoeften in te vullen zou een “enterprise search” oplossing het antwoord kunnen zijn. Dit soort oplossingen is in staat om gegevens en documenten die over zeer veel systemen zijn verspreid via één “index” doorzoekbaar te maken. Uw medewerkers kunnen zo snel bij de nodige documenten komen én u bent in staat om informatie over verschillende bronnen te combineren om inzicht te krijgen in relaties en trends.

U gaat op zoek naar een oplossing en vergelijkt de verschillende oplossingen. U komt er daarbij achter dat de meeste enterprise search oplossingen uitstekende mogelijkheden hebben om gegevens en documenten uit verschillende systemen te halen en integraal doorzoekbaar te maken: databases, SharePoint, Filesystemen, ERP-systemen, CMS-sen, DMS-sen etc.

Echter… de “connectoren” die deze oplossingen bieden gaan er vanuit dat deze systemen “on-premise” staan. Ze hebben (nog) geen oplossing om ook informatie uit bijvoorbeeld Google Apps of Office365 te halen.

Nu een deel van uw eigen informatie zich buiten de bedrijfsmuren bevindt is deze ineens niet meer bereikbaar voor uw eigen organisatie. Het blijkt zeer moeilijk te worden om al uw eigen informatie te aggregeren, ontsluiten, combineren en te analyseren.

De moraal van dit verhaal?

Kijk bij het outsourcen van data en systemen of bij het afnemen van een cloud / SaaS oplossing vanaf het begin naar de “openheid” van de oplossing. Als eigenaar van de gegevens en documenten moet u te allen tijden in staat zijn om een integraal beeld te vormen over alle aanwezige informatie. Om naar antwoorden en relaties tussen gegevens en documenten te zoeken moet deze informatie via één ingang voor al uw medewerkers toegankelijk zijn. 

Company to watch: Inter:Gator

De afgelopen maanden ben ik veel tweets tegengekomen van “Interface Projects”. Interface Projects is het Twitter-account van @intergator. Het bedrijf achter dit account is “Inter:Gator”.

Inter:gator (http://www.intergator.de) is een duits bedrijf dat zich specialiseert in kennismanagement (Wissensmanagement) en enterprise search.

Ze hebben inzichten en oplossingen op veel search-gerelateerde gebieden. Van SharePoint Search tot een complete Appliance (hard- en software gecombineerd tot een “turn-key” oplossing, vergelijkbaar met de Google Search Appliance).

De site is geheel in het duits maar ook volledig engelstalig beschikbaar.

Waarom heeft Big Data een relatie met Enterprise Search

Ik las vandaag een artikel op CMS Wire dat in gaat op de vraag waarom de Big Data movement en bedrijven die zich daarmee bezighouden, ineens zoveel interesse hebben voor Enterprise Search technologie.


Making Insights Actionable

Adding structure to unstructured data is the foundation of gaining insight. Like turning a lump of clay into a finished sculpture, this does not happen by accident. It takes strategically designed technology and targeted knowledge to overcome entropy and create order out of chaos.

This is one reason why big software companies are acquiring search engine companies. Vivisimo, Endeca and others have mature and highly capable “indexing pipelines” that add structure to big data content prior to indexing. These “indexing pipelines” are crucial for ensuring that the insights gained from your big data are accurate and reliable.

If the steps taken to add structure fall short (i.e. dates are not normalized, entity extraction is incomplete), then the accuracy of the data behind the insights becomes questionable. In politics, as we recently saw, if your survey is flawed, you are not going to gain accurate poll numbers.

In business, if your data structure is flawed, you are not going to gain actionable business insights. Worse yet, you might not realize your data structure is flawed and make misinformed decisions that hurt your business.


Big Data gaat niet alleen om gestructureerde informatie uit databases. Het vakgebied “Business Intelligence” houdt zich al jaren bezig met het combineren en analyseren van informatie uit databases en de resultaten op een “human friendly” manier te presenteren aan medewerkers.

De kern is om hier ongestructureerde data bij te betrekken. Ongestructureerde data geeft inzicht in “The Why Behind The What”.

Attivio heeft hier haar oplossing omheen gebouwd. Bezoek hun site eens om meer te weten te komen over de combinatie van gestructureerde en ongestructureerde informatie.

12 tips voor het succes van Enterprise Search


Onderstaande opsomming komt van http://www.kmworld.com/Articles/Editorial/ViewPoints/12-Tips-for-Enterprise-Search-Success-86525.aspx

  1. Invest in a search support team: Before you do anything else set up a search support team with the skills, enthusiasm, organizational knowledge and networks to get the best of the current search application(s).Even if the team is initially a team of one put the budget, headcount and job descriptions in place so that it can grow ahead of the requirements for support.
  2. Get the best out of the current investment in search: There is usually much that can be done to improve the current search applications once the search team and the search vendor focus in on options and priorities. The information gained from search log files is a very important element of defining search requirements and setting benchmarks for any new search application.
  3. Enterprise search is an approach and not a technology: Implementing one single all-encompassing search application is unlikely to be successful and usually carries more risks than benefits. Enterprise search is about creating a managed search environment that enables employees to find the information they need to achieve organizational and/or personal objectives.
  4. Set search within an information management context: If the organization does not see information as a business asset it will never invest enough into search and is very susceptible to competitive and reputation risks. An information management strategy owned by a senior manager is an essential prerequisite to successful search.
  5. Content quality is essential for quality search: Current search technology can cope with poor quality content but there should be guidelines for content and metadata quality. It is of little benefit to the organization if a search lists twenty relevant documents with a content quality that renders them unfit to be trusted.
  6. Understand user requirements and monitor user satisfaction: Relevance is a personal measure of information value. Basing a business case on anecdotal information about the current search application and what other organizations have achieved with a particular piece of technology is not a suitable basis for an investment decision.It could be your career prospects that suffer.
  7. Search then browse then alert then search then alert…..: Users need to be able to search when needed, browse when needed and set up alerts as needed. These three processes need to be linked together to provide an effective information discovery environment.
  8. Provide location-independent search: The search application should be as effective via remote access desktops, smartphones and tablets as it is on a large screen monitor in the IT department. Not all search vendors have recognized the need for innovation in user interfaces for mobile devices.
  9. Undertake intelligent log analysis: Search log analysis needs to be conducted on a regular basis by a team that understands the activities and language of the business so that emerging issues in search failure can be identified at the earliest possible opportunity.
  10. Search is a dialogue: Aiming to get the most relevant documents at the top of the search results list is a waste of effort. In an enterprise environment users will have complex queries that require them to be able to refine their query and re-evaluate the results with the minimum of effort.
  11. Procure value not functionality: When the time comes to invest in a new search application specify requirements on what you expect the search application to deliver and not on what features you would like to have supplied.
  12. Search is a journey: The process of ensuring that search is meeting user requirements never comes to an end. Every day there are new employees, new business challenges, new business opportunities and new developments in search technology.

Web Search > Enterprise Search > Big Data?

“Big Data”  is overal om ons heen in het nieuws. Maar is het wel een nieuw fenomeen? De markt komt iedere paar jaar met een nieuwe insteek omdat eerdere onderwerpen een containerbegrip zijn geworden. Het verkoopt gewoon niet meer. Verschillende auteurs zien een verband tussen de “trends” Web Search, Enterprise Search, Big Data.

Eind jaren ’90, begin jaren ’00 werd het onderwerp Search zeer actueel. Dat was de tijd waarin de grote zoekmachines op internet opkwamen. Denk aan Altavista, HotBot, Yahoo en uiteraard Google. De hoeveelheid informatie op het internet werd niet meer te bevatten waardoor de mensen naast het navigeren via links en door sites een zoekoplossing nodig hadden om relevante informatie te vinden.

Web Search (bron Wikipedia):
web search engine is designed to search for information on the World Wide Web. The search results are generally presented in a line of results often referred to as search engine results pages (SERPs). The information may be a specialist in web pages, images, information and other types of files. Some search engines also mine data available in databases or open directories. Unlike web directories, which are maintained only by human editors, search engines also maintain real-time information by running an algorithm on a web crawler.

Al snel werd deze toepassing losgelaten op de informatie binnen organisaties. Het concept “Enterprise Search” werd geboren, althans voor het grote publiek en als marketingverhaal. Enterprise Search als oplossing bestond al veel langer en de “Information retrieval” wetenschap kent zijn roots in de jaren ’80 en ’90. De grondleggers voor deze oplossingen, Verity, Autonomy en Endeca, zijn immers al sinds midden jaren ’90 actief.
Gedurende de jaren ’00 zijn vele aanbieders van zoekoplossingen actief. Dit aantal groeit nog steeds door de beschikbaarheid van Solr en Lucene welke – door het open source karakter – door veel bedrijven worden gebruikt als basis voor hun oplossingen. Denk hierbij aan Lucid Imagination, Polyspot, Attivio, PerfectSearch, Elastic Search en SearchBlox.

Enterprise Search (bron Wikipedia):
The practice of making content from multiple enterprise-type sources, such as databases and intranets, searchable to a defined audience.
“Enterprise Search” is used to describe the software of search information within an enterprise (though the search function and its results may still be public). [1] Enterprise search can be contrasted with web search, which applies search technology to documents on the open web, and desktop search, which applies search technology to the content on a single computer.

Vanaf 2010 begint de term “Big Data” op te komen. Nu in 2012 is het overal om ons heen. Het vakgebied “Big Data” onderscheid drie kenmerkende aspecten:
– Volume (hoeveelheid)
– Velocity (snelheid waarmee het data-aanbod toeneemt)
– Variety (Diversiteit van de data)

Big Data (bron Wikipedia):
In information technologybig data[1][2][3] is a collection of data sets so large and complex that it becomes awkward to work with using on-hand database management tools. Difficulties include capture, storage,[4] search, sharing, analysis,[5] and visualization.
Big data usually includes data sets with sizes beyond the ability of commonly-used software tools to capture, manage, and process the data within a tolerable elapsed time. Big data sizes are a constantly moving target, as of 2012 ranging from a few dozen terabytes to many petabytes of data in a single data set. With this difficulty, a new platform of “big data” tools has arisen to handle sensemaking over large quantities of data, as in the Apache_Hadoop Big Data Platform.

Enterprise Search <-> Big data

Het zou te simpel zijn om (Enterprise) Search en Big Data over één kam te scheren. Big Data heeft enkele aspecten in zich die niets met Enterprise Search te maken hebben. Denk alleen maar aan de snelheid van verwerking en het vraagstuk van de opslag van de data. Big Data is dus meer dan Enterprise Search.
De link zit hem echter in het vraagstuk van het vindbaar en bruikbaar maken van informatie (zie ook mijn blog over “Search Based Applications“). Wat heb je eraan om informatie op te slaan en te beheren als de informatie / data niet gebruikt kan worden in de verschillende bedrijfsprocessen?

De grote aanbieders van Enterprise oplossingen hebben dit ook gezien. Zowel Microsoft (FAST), Oracle (Endeca), IBM (Vivisimo) en HP (Autonomy) hebben de afgelopen jaren flink geïnvesteerd in de overname van “Search Vendors”. Deze organisaties zijn van oudsher bekend vanwege hun oplossingen om informatie op te slaan en te beheren, maar ontbeerde stuk voor stuk de oplossing om deze informatie ook “enterprise wide” te ontsluiten en bruikbaar te maken.
Databasetechnologie is immers bij uitstek geschikt om grote hoeveelheden data te verwerken en op te slaan, maar niet om deze informatie ook efficiënt en effectief te interpreteren, te verrijken en real-time doorzoekbaar te maken.

Een groot deel van de informatie in organisaties (en zeker ook daarbuiten) is niet gestructureerd (databases en records) van aard. Big Data én Enterprise Search houden zich bezig met zowel het gestructureerde als het ongestructureerde deel van de informatie. Denk aan de grote hoeveelheden documenten, websites, e-mails en in toenemende mate real-time berichten (instant messaging) die binnen organisaties aanwezig zijn en ontstaan.

Enterprise Search oplossingen zijn van oudsher bezig met het vraagstuk van het structuren, vindbaar en bruikbaar maken van ongestructureerde informatie. De overgenomen aanbieders van zoektechnologie beschikken stuk voor stuk over de technieken die hiervoor nodig zijn:
– Classificatie
– Entity Extraction
– Clustering
– Relateren
– Interpreteren

Big Data en Enterprise Search zijn complementair.