CiteSeer X

CiteSeer X
Typ av webbplats
Bibliografisk databas
Ägare Pennsylvania State University College of Information Sciences and Technology
URL citeseerx .ist .psu .edu Edit this at Wikidata
Registrering Frivillig
Lanserades 2008 ; 15 år sedan ( 2008 ) / 1997 ; 26 år sedan ( 1997 )
Nuvarande status Aktiva
Innehållslicens
Creative Commons BY-NC-SA-licens

CiteSeer X (tidigare kallad CiteSeer ) är en offentlig sökmotor och digitalt bibliotek för vetenskapliga och akademiska artiklar, främst inom data- och informationsvetenskap .

CiteSeers mål är att förbättra spridningen och tillgången till akademisk och vetenskaplig litteratur. Som en ideell tjänst som fritt kan användas av vem som helst, har den betraktats som en del av open access -rörelsen som försöker förändra akademisk och vetenskaplig publicering för att ge större tillgång till vetenskaplig litteratur. CiteSeer tillhandahåller fritt Open Archives Initiative- metadata för alla indexerade dokument och länkar indexerade dokument när det är möjligt till andra metadatakällor som DBLP och ACM-portalen . För att främja öppna data delar CiteSeer X sina data för icke-kommersiella ändamål under en Creative Commons - licens .

CiteSeer anses vara en föregångare för akademiska sökverktyg som Google Scholar och Microsoft Academic Search . CiteSeer-liknande motorer och arkiv skördar vanligtvis bara dokument från allmänt tillgängliga webbplatser och genomsöker inte utgivares webbplatser. Av denna anledning är det mer sannolikt att författare vars dokument är fritt tillgängliga är representerade i indexet.

CiteSeer bytte namn till ResearchIndex vid ett tillfälle och bytte sedan tillbaka det.

Historia

CiteSeer och CiteSeer.IST

CiteSeer skapades av forskarna Lee Giles , Kurt Bollacker och Steve Lawrence 1997 medan de var på NEC Research Institute (nu NEC Labs ), Princeton, New Jersey , USA. CiteSeers mål var att aktivt genomsöka och skörda akademiska och vetenskapliga dokument på webben och använda autonom citeringsindexering för att tillåta sökning efter citat eller dokument, rangordna dem efter citeringseffekt . Vid ett tillfälle hette det ResearchIndex.

CiteSeer blev offentlig 1998 och hade många nya funktioner otillgängliga i akademiska sökmotorer vid den tiden. Dessa inkluderade:

  • Autonomous Citation Indexing skapade automatiskt ett citeringsindex som kan användas för litteratursökning och utvärdering.
  • Citeringsstatistik och relaterade dokument beräknades för alla artiklar som citerades i databasen, inte bara de indexerade artiklarna.
  • Referenslänkning gör det möjligt att bläddra i databasen med hjälp av referenslänkar.
  • Citeringssammanhang visade sammanhanget för citat till en viss artikel, vilket gjorde det möjligt för en forskare att snabbt och enkelt se vad andra forskare har att säga om en artikel av intresse.
  • Relaterade dokument visades med hjälp av citat och ordbaserade mått och en aktiv och kontinuerligt uppdaterad bibliografi visas för varje dokument.

CiteSeer beviljades ett amerikanskt patent nr 6289342, med titeln " Autonomous citation indexing and literature browsing using citation context ", den 11 september 2001. Patentet lämnades in den 20 maj 1998 och har prioritet till den 5 januari 1998. En fortsättning patent (US Patent # 6738780) lämnades in den 16 maj 2001 och beviljades den 18 maj 2004.

Efter NEC, 2004 var den värd som CiteSeer.IST på World Wide Web vid College of Information Sciences and Technology, Pennsylvania State University , och hade över 700 000 dokument. För förbättrad åtkomst, prestanda och forskning stöddes liknande versioner av CiteSeer vid universitet som Massachusetts Institute of Technology , University of Zürich och National University of Singapore . Dessa versioner av CiteSeer visade sig dock vara svåra att underhålla och är inte längre tillgängliga. Eftersom CiteSeer endast indexerar fritt tillgängliga artiklar på webben och inte har tillgång till utgivarens metadata, returnerar det färre citeringsantal än webbplatser, som Google Scholar , som har utgivarmetadata.

CiteSeer hade inte blivit heltäckande uppdaterad sedan 2005 på grund av begränsningar i dess arkitekturdesign. Den hade ett representativt urval av forskningsdokument inom data- och informationsvetenskap men var begränsad i täckning eftersom det var begränsat till artiklar som är allmänt tillgängliga, vanligtvis på en författares hemsida, eller de som skickats in av en författare. För att övervinna några av dessa begränsningar designades en modulär och öppen källkodsarkitektur för CiteSeer – CiteSeer X .

CiteSeer X

CiteSeer X ersatte CiteSeer och alla frågor till CiteSeer omdirigerades. CiteSeer X är en offentlig sökmotor och digitalt bibliotek och arkiv för vetenskapliga och akademiska artiklar främst med fokus på data- och informationsvetenskap . Emellertid har CiteSeer X nyligen expanderat till andra vetenskapliga domäner som ekonomi, fysik och andra. Det släpptes 2008 och var löst baserat på den tidigare CiteSeer-sökmotorn och digitala biblioteket och är byggd med en ny öppen källkodsinfrastruktur , SeerSuite, och nya algoritmer och deras implementeringar. Det utvecklades av forskarna Dr. Isaac Councill och Dr. C. Lee Giles vid College of Information Sciences and Technology, Pennsylvania State University . Det fortsätter att stödja de mål som CiteSeer har skisserat att aktivt genomsöka och skörda akademiska och vetenskapliga dokument på den offentliga webben och att använda en citeringsförfrågan genom citeringar och rangordning av dokument efter effekten av citat. För närvarande är eller har Lee Giles, Prasenjit Mitra, Susan Gauch, Min-Yen Kan, Pradeep Teregowda, Juan Pablo Fernández Ramírez, Pucktada Treeratpituk, Jian Wu, Douglas Jordan, Steve Carman, Jack Carroll, Jim Jansen och Shuyi Zheng varit aktiva. delaktig i dess utveckling. Nyligen introducerades en tabellsökningsfunktion. Det har finansierats av National Science Foundation , NASA och Microsoft Research .

CiteSeer X fortsätter att vara rankad som en av världens främsta arkiv och rankades som nummer 1 i juli 2010. Den har för närvarande över 6 miljoner dokument med nästan 6 miljoner unika författare och 120 miljoner citeringar.

CiteSeer X delar också sin programvara, data, databaser och metadata med andra forskare, för närvarande av Amazon S3 och av rsync . Dess nya modulära arkitektur och mjukvara med öppen källkod (tillgänglig tidigare på SourceForge men nu på GitHub ) är byggd på Apache Solr och andra Apache- och öppen källkodsverktyg som gör att den kan vara en testbädd för nya algoritmer inom dokumentinsamling, rankning, indexering och information extraktion.

CiteSeer X cachar vissa PDF-filer som den har skannat. Som sådan innehåller varje sida en DMCA- länk som kan användas för att rapportera upphovsrättsintrång.

Aktuella funktioner

Automatiserad informationsextraktion

CiteSeer X använder automatiska informationsextraktionsverktyg , vanligtvis byggda på maskininlärningsmetoder såsom ParsCit, för att extrahera vetenskapliga dokumentmetadata såsom titel, författare, abstrakt, citat, etc. Som sådan finns det ibland fel i författare och titlar. Andra akademiska sökmotorer har liknande fel.

Fokuserad krypning

CiteSeer X genomsöker allmänt tillgängliga vetenskapliga dokument främst från författarens webbsidor och andra öppna resurser, och har inte tillgång till utgivarens metadata. Som sådan är antalet hänvisningar i CiteSeer X vanligtvis mindre än de i Google Scholar och Microsoft Academic Search som har tillgång till utgivarens metadata.

Användande

CiteSeer X har nästan 1 miljon användare världen över baserat på unika IP-adresser och har miljontals träffar dagligen. Årliga nedladdningar av PDF-dokument var nästan 200 miljoner för 2015.

Data

CiteSeer X -data delas regelbundet under en Creative Commons BY-NC-SA-licens med forskare över hela världen och har använts och används i många experiment och tävlingar.

Tack vare dess OAI-PMH- slutpunkt är CiteSeerX ett öppet arkiv och dess innehåll indexeras som ett institutionellt arkiv i akademiska sökmotorer , till exempel BASE- och Unpaywall -konsumenter.

Andra sökmotorer

CiteSeer-modellen hade utvidgats till att omfatta akademiska dokument i affärer med och i SmealSearch . Dessa upprätthölls dock inte av sina sponsorer. En äldre version av båda dessa kunde en gång hittas på BizSeer.IST men är inte längre i bruk.

Andra Seer-liknande sök- och förvarssystem har byggts för kemi, Chem X Seer och för arkeologi, . En annan hade byggts för robots.txt-filsökning, [BotSeer]. Alla dessa är byggda på open source-verktyget, som använder öppen källkodsindexeraren Lucene .

Se även

Vidare läsning

externa länkar