Vertikal sökning

En vertikal sökmotor skiljer sig från en allmän webbsökmotor genom att den fokuserar på ett specifikt segment av onlineinnehåll. De kallas också special- eller aktuella sökmotorer. Det vertikala innehållsområdet kan baseras på aktualitet, mediatyp eller innehållsgenre. Vanliga vertikaler inkluderar shopping, bilindustrin, juridisk information, medicinsk information, vetenskaplig litteratur, jobbsökning och resor. Exempel på vertikala sökmotorer inkluderar Library of Congress , Mocavo , Nuroa , Trulia och Yelp .

I motsats till allmänna webbsökmotorer, som försöker indexera stora delar av World Wide Web med hjälp av en webbsökrobot , använder vertikala sökmotorer vanligtvis en fokuserad sökrobot som försöker indexera endast relevanta webbsidor till ett fördefinierat ämne eller en uppsättning ämnen . Vissa vertikala sökwebbplatser fokuserar på enskilda vertikaler, medan andra webbplatser innehåller flera vertikala sökningar inom en sökmotor.

Fördelar

Vertikal sökning erbjuder flera potentiella fördelar jämfört med allmänna sökmotorer:

Större precision på grund av begränsad omfattning,
Dra nytta av domänkunskap inklusive taxonomier och ontologier ,
Stöd för specifika unika användaruppgifter.

Vertikal sökning kan ses som liknande företagssökning där fokusområdet är företaget, till exempel ett företag, en regering eller annan organisation. Under 2013 drog konsumentprisjämförelsewebbplatser med integrerade vertikala sökmotorer som FindTheBest stora rundor av riskkapitalfinansiering, vilket indikerar en tillväxttrend för dessa tillämpningar av vertikal sökteknologi.

Domänspecifik sökning

Domänspecifika vertikaler fokuserar på ett specifikt ämne. John Battelle beskriver detta i sin bok The Search (2005):

Domänspecifika söklösningar fokuserar på ett kunskapsområde, och skapar skräddarsydda sökupplevelser, som på grund av domänens begränsade korpus och tydliga relationer mellan begrepp ger extremt relevanta resultat för sökare.

Vilken generell sökmotor som helst skulle indexera alla sidor och sökningar på ett bredd-först sätt för att samla in dokument. Spidering i domänspecifika sökmotorer söker mer effektivt i en liten delmängd av dokument genom att fokusera på en viss uppsättning. Spidering utförd med ett ramverk för inlärning av förstärkning har visat sig vara tre gånger effektivare än sökning på bredden först .

DARPAs Memex-program

I början av 2014 släppte Defense Advanced Research Projects Agency ( DARPA ) ett uttalande på sin webbplats som beskriver de preliminära detaljerna för "Memex-programmet", som syftar till att utveckla ny sökteknik för att övervinna vissa begränsningar av textbaserad sökning. DARPA vill att Memex-teknologin som utvecklats i denna forskning ska vara användbar för sökmotorer som kan söka efter information på Deep Web – den del av Internet som i stort sett inte är tillgänglig för kommersiella sökmotorer som Google eller Yahoo . DARPA:s webbplats beskriver att "Målet är att uppfinna bättre metoder för att interagera med och dela information, så att användare snabbt och grundligt kan organisera och söka delmängder av information som är relevant för deras individuella intressen". Som rapporterats i en Wired- artikel från 2015 syftar söktekniken som utvecklas i Memex-programmet "att skina ett ljus på den mörka webben och avslöja mönster och relationer i onlinedata för att hjälpa brottsbekämpande myndigheter och andra att spåra illegal aktivitet". DARPA avser att programmet ska ersätta de centraliserade procedurer som används av kommersiella sökmotorer, och anger att "skapandet av ett nytt domänspecifikt indexerings- och sökparadigm kommer att tillhandahålla mekanismer för förbättrad innehållsupptäckt, informationsextraktion, informationshämtning, användarsamarbete och förlängning av nuvarande sökmöjligheter till den djupa webben, den mörka webben och otraditionellt (t.ex. multimedia) innehåll". I sin beskrivning av programmet förklarar DARPA programmets namn som en hyllning till Bushs ursprungliga Memex-uppfinning, som fungerade som en inspiration.

I april 2015 tillkännagavs att delar av Memex skulle vara öppen källkod. Moduler fanns tillgängliga för nedladdning.