LaTeXML

En LaTeX till XML/HTML/MathML Converter
Originalförfattare Bruce R Miller
Initial release 10 maj 2004 (18 år sedan) ( 2004-05-10 )
Stabil frisättning
0.8.7 / 17 december 2022 (2 månader sedan) ( 2022-12-17 )
Förvar
Skrivet i Perl
Operativ system Unix-liknande , macOS , Windows
Typ Dokumentkonverterare
Licens Allmängods
Hemsida dlmf .nist .gov /LaTeXML /

LaTeXML är en gratis programvara för offentlig egendom som konverterar LaTeX- dokument till XML , HTML , EPUB , JATS och TEI .

Arbetsflöde

LaTeXML:s primära utdataformat är en XML-representation av (La) TeX :s dokumentmodell. En postprocessor kan konvertera dessa XML-dokument till andra strukturerade format. Vanliga användningsfall skapar HTML med matematiska formler som bilder eller XHTML , HTML5 och EPUB med formler som MathML . Jämfört med andra LaTeX-till-XML-processorer syftar LaTeXML till att bevara de semantiska strukturerna i LaTeX -markeringen. Detta gör det till en bra grund för semantiska tjänster som Mathsökning .

Konverteringstiderna sträcker sig från 30 millisekunder för en enskild formel (i LaTeXML-demonen) till minuter för dokument i bokstorlek.

Historia

LaTeXML startades inom ramen för Digital Library of Mathematical Functions NIST , där LaTeX -dokument behövde förberedas för publicering på webben. Systemet har varit under aktiv utveckling i över ett decennium och har lockat till sig en liten men hängiven gemenskap av utvecklare och användare centrerad på Bruce Miller, den ursprungliga projektförfattaren.

Den nuvarande släppta versionen är LaTeXML 0.8.7. Den släpptes i december 2022 och utvecklingen är fortfarande aktiv på det offentliga förvaret .

Anmärkningsvärd användning

LaTeXML användes för att konvertera 90 % (60 % utan fel) av 530 000 dokument från arXiv till XML. Som ett resultat av denna pågående ansträngning för att förbättra täckningen, stöder LaTeXML ett stort utbud av LaTeX-paket. ACL 2014-konferensen använde LaTeXML för att konvertera inskickade dokument till XML. Detta följde på befintligt arbete som har försökt att konvertera ACL Anthology papers till högkvalitativ semantisk markering för vidare analys. Sedan februari 2013 har LaTeXML använts för att rendera webbsidorna på den peer-producerade matematikwebbplatsen, PlanetMath . Sedan juli 2015 har det antagits av Authorea för deras avancerade LaTeX-stöd. Under 2018 realiserades den andra datautgivningen av European Space Agencys Gaia -projekt via LaTeXML.

I februari 2022 tillkännagav arXiv en experimentell tjänst baserad på LaTeXML, som erbjuder 1,78 miljoner dokument som HTML5. En LaTeXML-utvecklare hävdade framgångsrik konvertering av 74 % av arXiv, med 97 % av artiklarna "åtminstone delvis synliga".

Genomförande

Kärnan i LaTeXML är en Perl- omimplementering av TeX :s parsnings- och digestionsalgoritm tillsammans med en anpassningsbar XML-sändare. För att bevara de semantiska strukturerna i LaTeX- markeringen behöver LaTeXML XML-bindningar för alla LaTeX- paket med makrodefinitioner på hög nivå. LaTeXML-distributionen tillhandahåller för närvarande XML-bindningar för över 200 vanliga LaTeX-paket som AMSTeX , Babel och PGF/TikZ (som bara har experimentellt stöd).

LaTeXML-konverteringen består av två steg:

  • den första analyserar LaTeX och konverterar det till en LaTeX -nära XML-dokumenttyp, och
  • den andra (efterbearbetning) omvandlar XML till ett av de standardiserade strukturerade utdataformaten.

LaTeXML 0.8 lade till demonfunktionalitet som möjliggjorde flera konverteringar och enkel inbäddning i webbtjänster.

LaTeXML 0.8.7 var den första versionen som avgav märkningsspråket " MathML Core" för matematisk syntax, nytt i MathML 4.

externa länkar