Dataformat för masspektrometri

Masspektrometri är en vetenskaplig teknik för att mäta förhållandet mellan massa och laddning av joner. Den är ofta kopplad till kromatografiska tekniker som gas- eller vätskekromatografi och har funnit en utbredd användning inom analytisk kemi och biokemi där den kan användas för att identifiera och karakterisera små molekyler och proteiner ( proteomik ). Den stora mängden data som produceras i ett typiskt masspektrometriexperiment kräver att datorer används för datalagring och bearbetning. Under årens lopp har olika tillverkare av masspektrometrar utvecklat olika proprietära dataformat för hantering av sådan data vilket gör det svårt för akademiska forskare att direkt manipulera deras data. För att komma till rätta med denna begränsning har flera öppna , XML -baserade dataformat nyligen utvecklats av Trans-Proteomic Pipeline vid Institutet för systembiologi för att underlätta datamanipulation och innovation inom den offentliga sektorn. Dessa dataformat beskrivs här.

Öppna format

JCAMP-DX

Detta format var ett av de tidigaste försöken att tillhandahålla ett standardiserat filformat för datautbyte inom masspektrometri. JCAMP-DX utvecklades ursprungligen för infraröd spektrometri. JCAMP-DX är ett ASCII- baserat format och därför inte särskilt kompakt även om det innehåller standarder för filkomprimering. JCAMP släpptes officiellt 1988. Tillsammans med American Society for Mass Spectrometry utvecklades ett JCAMP-DX-format för masspektrometri i syfte att bevara äldre data.

ANDI-MS eller netCDF

Det analytiska datautbytesformatet för masspektrometri är ett format för datautbyte. Många programvarupaket för masspektrometri kan läsa eller skriva ANDI-filer. ANDI specificeras i ASTM E1947-standarden. ANDI är baserat på netCDF som är ett mjukvaruverktygsbibliotek för att skriva och läsa datafiler. ANDI utvecklades ursprungligen för kromatografi-MS-data och användes därför inte i guldrushen inom proteomik där nya format baserade på XML utvecklades.

AnIML

AnIML är en gemensam ansträngning av IUPAC och ASTM International för att skapa en XML-baserad standard som täcker en mängd olika analytiska tekniker inklusive masspektrometri.

mzData

mzData var det första försöket från Proteomics Standards Initiative (PSI) från Human Proteome Organization (HUPO) att skapa ett standardiserat format för masspektrometridata. Detta format är nu föråldrat och ersatt av mzML.

mzXML

mzXML är ett XML- baserat (eXtensible Markup Language) gemensamt filformat för proteomikmasspektrometriska data. Detta format utvecklades vid Seattle Proteome Center/Institute for Systems Biology medan HUPO-PSI försökte specificera det standardiserade mzData-formatet, och används fortfarande inom proteomikgemenskapen.

YAFMS

Ännu ett annat format för M asss spektrometri (YAFMS) är ett förslag på att spara data i relationsschemat för fyra tabeller utan server med dataextraktion och tillägg som utövas med hjälp av SQL- frågor.

mzML

Eftersom två format (mzData och mzXML) för att representera samma information är ett oönskat tillstånd, sattes en gemensam ansträngning av HUPO-PSI, SPC/ISB och instrumentleverantörer för att skapa en enhetlig standard som lånar de bästa aspekterna av både mzData och mzXML, och avsåg att ersätta dem. Ursprungligen kallad dataXML, det tillkännagavs officiellt som mzML. Den första specifikationen publicerades i juni 2008. Detta format släpptes officiellt vid 2008 års American Society for Mass Spectrometry Meeting och är sedan dess relativt stabil med väldigt få uppdateringar. Den 1 juni 2009 släpptes mzML 1.1.0. Det finns inga planerade ytterligare förändringar från och med 2013.

mzAPI

Istället för att definiera nya filformat och skriva omvandlare för proprietära leverantörsformat föreslog en grupp forskare att definiera ett gemensamt gränssnitt för tillämpningsprogram för att flytta bördan av standardefterlevnad till instrumenttillverkarnas befintliga dataåtkomstbibliotek.

mz5

Mz5-formatet löser prestandaproblemen för de tidigare XML-baserade formaten. Den använder mzML-ontologin, men sparar data med HDF5- backend för minskat lagringsutrymmeskrav och förbättrad läs-/skrivhastighet.

imzML

ImzML-standarden föreslogs för att utbyta data från masspektrometriavbildning i en standardiserad XML-fil baserad på mzML-ontologin. Den delar upp experimentella data i XML och spektraldata i en binär fil. Båda filerna är länkade med en universellt unik identifierare .

mzDB

mzDB sparar data i en SQLite- databas för att spara på lagringsutrymme och förbättra åtkomsttider eftersom datapunkterna kan frågas från en relationsdatabas .

Kola

Kola är ett öppet förlustfritt filformat för dataoberoende insamlingsmasspektrometri . Det utnyttjar HDF5 och syftar till att uppnå filstorlekar som liknar de från proprietära och slutna leverantörsformat.

mzMLb

mzMLb är en annan variant på att använda en HDF5- backend för effektiv lagring av rådata. Den bevarar dock mzML XML-datastrukturen och förblir kompatibel med den befintliga standarden.

Proprietära format

Nedan finns en tabell över olika filformattillägg.

Företag Förlängning Filtyp
ACD/Labs *.spektrum Importerar LC/MS- och GC/MS-data från de flesta större instrumentleverantörer som listas här

Agilent Bruker
.D (mapp) Agilent MassHunter, Agilent ChemStation eller Bruker BAF/YEP/TDF dataformat
Agilent/Bruker .JAPP instrumentets dataformat
Agilent .AEV, .ASR ASCII-rapportformat (för Analytical Studio Reviewer)
Bruker .BAF instrumentets dataformat
Bruker .FID instrumentets dataformat
Bruker .TDF timsTOF instrumentdataformat
ABI/Sciex .WIFF instrumentets dataformat
ABI/Sciex .t2d 4700 och 4800 filformat
Vattnen .PKL MassLynx topplistformat

Thermo PerkinElmer
.RÅ*
Thermo Xcalibur PerkinElmer TurboMass
Mikromassa**/Vatten .RAW* (mapp) Waters MassLynx


Chromtech Finnigan*** VG
.DAT
Finnigan ITDS filformat; MAT95 instrumentdataformat MassLab dataformat
Finnigan*** .FRÖKEN ITS40 instrumentdataformat
Shimadzu .QGD GCMSS-lösningsformat
Shimadzu .qgd instrumentets dataformat
Shimadzu .lcd QQQ/QTOF instrumentdataformat
Shimadzu .spc bibliotekets dataformat
Bruker/Varian .SMS instrumentets dataformat
Bruker/Varian .XMS instrumentets dataformat
ION-TOF .det m rå mätdata
ION-TOF .ita analysdata
Fysisk elektronik/ULVAC-PHI .rå* rå mätdata
Fysisk elektronik/ULVAC-PHI .tdc spektrumdata



(*) Observera att RAW-formaten för varje leverantör inte är utbytbara; programvara från en kan inte hantera RAW-filer från en annan. (**) Micromass förvärvades av Waters 1997 (***) Finnigan är en division av Thermo

programvara

Tittare

Det finns flera tittare för mzXML, mzML och mzData: MZmine, PEAKS, Insilicos , MS-Spectre, TOPPView (mzXML, mzML och mzData), Spectra Viewer, SeeMS, msInspect, jmzML, Mascot Distiller, Elsci Peaksel

Det finns en viewer för ITA-bilder. ITA- och ITM-bilder kan tolkas med pySPM-pythonbiblioteket.

Omvandlare

Kända omvandlare för mzData till mzXML:

Hermes: En Java "mzData, mzXML, mzML"-omvandlare till alla riktningar: allmänt tillgänglig, körs med ett grafiskt användargränssnitt, av Institute of Molecular Systems Biology, ETH Zurich FileConverter: Ett kommandoradsverktyg som konverterar till/
från olika masspektrometri format, en del av TOPP

Kända omvandlare för mzXML:

Institutet för systembiologi för en lista över omvandlare

Kända omvandlare för mzML:

msConvert: Ett kommandoradsverktyg som konverterar till/från olika masspektrometriformat. Ett GUI är också tillgängligt för Windows-användare.
ReAdW: Institute for Systems Biology kommandoradskonverterare för Thermo RAW-filer, en del av TransProteomicPipeline. Den senaste uppdateringen av detta verktyg gjordes i september 2009. Användare omdirigeras nu av TPP-utvecklingsteamet för att använda programvaran msConvert (se ovan).
FileConverter: Ett kommandoradsverktyg som konverterar till/från olika masspektrometriformat, en del av TOPP

Konverterare för proprietära format:

msConvert: Ett kommandoradsverktyg som konverterar till/från olika masspektrometriformat inklusive flera proprietära format. Ett GUI är också tillgängligt för Windows-användare.
CompassXport, Brukers gratisverktyg som genererar mzXML (och nu mzData) [ citat behövs ] -filer för många av deras ursprungliga filformat (.baf).
MASSTransit, en programvara för att ändra data mellan proprietära format, av Palisade Corporation och distribueras av Scientific Instrument Services, Inc och PerkinElmer . Köptes från Palisade av John Wiley and Sons 2020 och införlivades i KnowItAll Spectroscopy-programvara. (lista över filformat som stöds).
Aston, inbyggt stöd för flera Agilent Chemstation, Agilent Masshunter och Thermo Isodat filformat
unfinnigan, inbyggt stöd för Finnigan (*.RAW) filformat
OpenChrom , en programvara med öppen källkod med stöd för att konvertera olika inbyggda filformat inklusive sitt eget öppna .ocb-format för att lagra kromatogram, toppar och identifieringsresultat

För närvarande tillgängliga omvandlare är:

MassWolf, för Micromass MassLynx .Raw format
mzStar, för SCIEX / ABI SCIEX/ABI Analyst format
wiff2dta för SCIEX / ABI SCIEX/ABI Analyst format till mzXML, DTA, MGF och PMF

Se även