pdftotext
pdftotext är ett kommandoradsverktyg med öppen källkod för att konvertera PDF -filer till vanliga textfiler – dvs extrahera textdata från PDF-inkapslade filer. Det är fritt tillgängligt och ingår som standard i många Linux- distributioner och är även tillgängligt för Windows som en del av Xpdf Windows-porten. Sådan textextraktion är komplicerad eftersom PDF-filer är internt byggda på primitiver för sidritning, vilket innebär att gränserna mellan ord och stycken ofta måste utläsas utifrån deras position på sidan.
pdftotext är en del av programsviten Xpdf. Poppler , som härstammar från Xpdf, innehåller också en implementering av pdftotext. På de flesta Linux-distributioner ingår pdftotext som en del av poppler-utils-paketet.