MP3

MP3
Mp3.svg
Filnamnstillägg
.mp3 .bit (före 1995)
Internet mediatyp
  • ljud/mpeg
  • ljud/MPA
  • ljud/mpa-robust
Utvecklad av Karlheinz Brandenburg , Ernst Eberlein, Heinz Gerhäuser, Bernhard Grill , Jürgen Herre och Harald Popp (alla från Fraunhofer Society ) m.fl.
Initial release 6 december 1991 ; 31 år sedan ( 1991-12-06 )
Senaste släppningen

ISO/IEC 13818-3:1998 april 1998 ; 24 år sedan ( 1998-04 )
Typ av format Förlustigt ljud
Innehålls av MPEG-ES
Standarder
Öppna format ? Ja
Fritt format? Utgångna patent

MP3 (formellt MPEG-1 Audio Layer III eller MPEG-2 Audio Layer III ) är ett kodningsformat för digitalt ljud utvecklat till stor del av Fraunhofer Society i Tyskland under ledning av Karlheinz Brandenburg , med stöd från andra digitala forskare i USA och någon annanstans. Ursprungligen definierad som det tredje ljudformatet i MPEG-1- standarden, behölls det och utökades ytterligare – vilket definierade ytterligare bithastigheter och stöd för fler ljudkanaler – som det tredje ljudformatet i den efterföljande MPEG-2- standarden. En tredje version, känd som MPEG 2.5 – utökad för att bättre stödja lägre bithastigheter – är vanligen implementerad, men är inte en erkänd standard.

MP3 (eller mp3 ) som filformat betecknar vanligtvis filer som innehåller en elementär ström av MPEG-1 Audio eller MPEG-2 Audio-kodad data, utan andra komplexiteter i MP3-standarden.

När det gäller ljudkomprimering (den aspekt av standarden som är mest uppenbar för slutanvändare, och för vilken den är mest känd), använder MP3 datakomprimering med förlust för att koda data med hjälp av inexakta approximationer och partiell kassering av data. Detta möjliggör en stor minskning av filstorlekar jämfört med okomprimerat ljud. Kombinationen av liten storlek och acceptabel trohet ledde till en boom i distributionen av musik över Internet i mitten till slutet av 1990-talet, där MP3 fungerade som en möjliggörande teknik i en tid då bandbredd och lagring fortfarande var högst. MP3-formatet blev snart förknippat med kontroverser kring upphovsrättsintrång , piratkopiering av musik och filrippnings- / delningstjänsterna MP3.com och Napster , bland andra. Med intåget av bärbara mediaspelare , en produktkategori som även inkluderar smartphones , förblir MP3-stöd nästan universellt.

MP3-komprimering fungerar genom att minska (eller approximera) noggrannheten hos vissa ljudkomponenter som anses (genom psykoakustisk analys) överstiga hörselförmågan hos de flesta människor. Denna metod kallas vanligtvis perceptuell kodning eller som psykoakustisk modellering. Den återstående ljudinformationen spelas sedan in på ett utrymmeseffektivt sätt med användning av MDCT- och FFT -algoritmer. Jämfört med digitalt ljud i CD-kvalitet kan MP3-komprimering vanligtvis uppnå en minskning på 75 till 95 %. Till exempel skulle en MP3-kodad med en konstant bithastighet på 128 kbit/s resultera i en fil som är ungefär 9 % av storleken på original-cd-ljudet. I början av 2000-talet antog CD-spelare allt mer stöd för uppspelning av MP3-filer på data-CD-skivor.

The Moving Picture Experts Group (MPEG) designade MP3 som en del av dess MPEG-1 , och senare MPEG-2, standarder. MPEG-1 Audio (MPEG-1 Part 3), som inkluderade MPEG-1 Audio Layer I, II och III, godkändes som ett kommittéutkast för en ISO / IEC -standard 1991, slutfördes 1992 och publicerades 1993 som ISO /IEC 11172-3:1993. En MPEG-2 Audio (MPEG-2 Part 3) tillägg med lägre samplings- och bithastigheter publicerades 1995 som ISO/IEC 13818-3:1995. Det kräver endast minimala ändringar av befintliga MPEG-1-avkodare (igenkänning av MPEG-2-biten i huvudet och tillägg av de nya lägre samplings- och bithastigheterna).

Historia

Bakgrund

för MP3 -komprimering av ljuddata drar fördel av en perceptuell begränsning av mänsklig hörsel som kallas auditiv maskering . År 1894 rapporterade den amerikanske fysikern Alfred M. Mayer att en ton kunde göras ohörbar av en annan ton med lägre frekvens. 1959 beskrev Richard Ehmer en komplett uppsättning auditiva kurvor angående detta fenomen. Mellan 1967 och 1974 Eberhard Zwicker inom områdena avstämning och maskering av kritiska frekvensband, vilket i sin tur byggde på den grundläggande forskningen inom området från Harvey Fletcher och hans medarbetare på Bell Labs .

Perceptuell kodning användes först för komprimering av talkodning med linjär prediktiv kodning (LPC), som har sitt ursprung i Fumitada Itakura ( Nagoya University ) och Shuzo Saito ( Nippon Telegraph and Telephone ) 1966. 1978, Bishnu S. Atal och Manfred R. Schroeder på Bell Labs föreslog en LPC- talkodek , kallad adaptiv prediktiv kodning , som använde en psykoakustisk kodningsalgoritm som utnyttjade det mänskliga örats maskeringsegenskaper. Ytterligare optimering av Schroeder och Atal med JL Hall rapporterades senare i en tidning från 1979. Samma år föreslogs också en psykoakustisk maskeringscodec av MA Krasner, som publicerade och producerade hårdvara för tal (ej användbar som musikbitkomprimering), men publiceringen av hans resultat i en relativt obskyr Lincoln Laboratory Technical Report påverkade inte omedelbart huvudströmmen av psykoakustisk codec-utveckling.

Den diskreta cosinustransformen (DCT), en typ av transformationskodning för komprimering med förlust , föreslog av Nasir Ahmed 1972, utvecklades av Ahmed med T. Natarajan och KR Rao 1973; de publicerade sina resultat 1974. Detta ledde till utvecklingen av den modifierade diskreta cosinustransformen (MDCT), som föreslogs av JP Princen, AW Johnson och AB Bradley 1987, efter tidigare arbete av Princen och Bradley 1986. MDCT blev senare en kärndelen av MP3-algoritmen.

Ernst Terhardt och andra medarbetare konstruerade en algoritm som beskrev auditiv maskering med hög noggrannhet 1982. Detta arbete lades till en mängd rapporter från författare som går tillbaka till Fletcher, och till det arbete som från början bestämde kritiska förhållanden och kritiska bandbredder.

1985 presenterade Atal och Schroeder code-excited linear prediction (CELP), en LPC-baserad perceptuell talkodningsalgoritm med auditiv maskering som uppnådde ett betydande datakomprimeringsförhållande för sin tid. IEEE :s refereed Journal on Selected Areas in Communications rapporterade om en mängd olika (mestadels perceptuella) ljudkomprimeringsalgoritmer 1988. "Voice Coding for Communications"-utgåvan publicerad i februari 1988 rapporterade om ett brett utbud av etablerade, fungerande ljudbitkomprimering teknologier, några av dem använder auditiv maskering som en del av sin grundläggande design, och flera visar hårdvaruimplementationer i realtid.

Utveckling

Uppkomsten av MP3-tekniken beskrivs fullständigt i en artikel från professor Hans Musmann, som var ordförande för ISO MPEG Audio-gruppen i flera år. I december 1988 efterlyste MPEG en ljudkodningsstandard. I juni 1989 lämnades 14 ljudkodningsalgoritmer in. På grund av vissa likheter mellan dessa kodningsförslag, grupperades de i fyra utvecklingsgrupper. Den första gruppen var ASPEC, av Fraunhofer Gesellschaft , AT&T , France Telecom , Deutsche och Thomson-Brandt . Den andra gruppen var MUSICAM av Matsushita , CCETT , ITT och Philips . Den tredje gruppen var ATAC (ATRAC Coding), av Fujitsu , JVC , NEC och Sony . Och den fjärde gruppen var SB-ADPCM , av NTT och BTRL.

De omedelbara föregångarna till MP3 var "Optimum Coding in the Frequency Domain" (OCF) och Perceptual Transform Coding (PXFM). Dessa två codecs, tillsammans med blockväxlingsbidrag från Thomson-Brandt, slogs samman till en codec som heter ASPEC, som skickades till MPEG, och som vann kvalitetstävlingen, men som av misstag avvisades som för komplicerad att implementera. Den första praktiska implementeringen av en audio perceptuell kodare (OCF) i hårdvara (Krasners hårdvara var för krånglig och långsam för praktisk användning), var en implementering av en psykoakustisk transformkodare baserad på Motorola 56000 DSP - chips .

En annan föregångare till MP3-formatet och teknologin återfinns i den perceptuella codec MUSICAM baserad på en heltalsaritmetisk 32 subbands filterbank, driven av en psykoakustisk modell. Den designades i första hand för Digital Audio Broadcasting (digital radio) och digital-TV, och dess grundläggande principer avslöjades för forskarsamhället av CCETT (Frankrike) och IRT (Tyskland) i Atlanta under en IEEE-ICASSP-konferens 1991, efter att ha arbetat. på MUSICAM med Matsushita och Philips sedan 1989.

Denna codec inbyggd i ett sändningssystem med COFDM-modulering demonstrerades i luften och i fält med Radio Canada och CRC Canada under NAB-showen (Las Vegas) 1991. Implementeringen av ljuddelen av detta sändningssystem baserades på en två -chips-kodare (en för subbandstransformen, en för den psykoakustiska modellen designad av teamet av G. Stoll (IRT Tyskland), senare känd som psykoakustisk modell I) och en realtidsavkodare som använder ett Motorola 56001 DSP-chip som kör en heltalsaritmetik programvara designad av YF Deherys team ( CCETT , Frankrike). Enkelheten hos motsvarande avkodare tillsammans med den höga ljudkvaliteten hos denna codec använder för första gången en 48 kHz samplingsfrekvens, ett 20 bitar/samplingsinmatningsformat (den högsta tillgängliga samplingsstandarden 1991, kompatibel med AES/EBU professionell digital input studio standard) var huvudskälen till att senare anta MUSICAMs egenskaper som grundfunktionerna för en avancerad digital musikkomprimeringscodec.

Under utvecklingen av MUSICAM-kodningsmjukvaran använde Stoll och Deherys team noggrant en uppsättning högkvalitativt ljudbedömningsmaterial som valts ut av en grupp audioproffs från European Broadcasting Union och som senare användes som referens för bedömning av musikkomprimering codecs. Tekniken för subbandskodning visade sig vara effektiv, inte bara för perceptuell kodning av högkvalitativa ljudmaterial utan särskilt för kodning av kritiska slagljudsmaterial (trummor, triangel,...), på grund av den specifika tidsmaskeringseffekten av MUSICAM-subbandsfilterbanken (denna fördel är en specifik egenskap hos korttransformeringskodningstekniker).

Som doktorand vid Tysklands universitet i Erlangen-Nürnberg började Karlheinz Brandenburg arbeta med digital musikkomprimering i början av 1980-talet, med fokus på hur människor uppfattar musik . Han avslutade sitt doktorandarbete 1989. MP3 härstammar direkt från OCF och PXFM, vilket representerar resultatet av samarbetet mellan Brandenburg - arbetade som postdoktor vid AT&T-Bell Labs med James D. Johnston ("JJ") från AT&T-Bell Labs — med Fraunhofer Institute for Integrated Circuits, Erlangen (där han arbetade med Bernhard Grill och fyra andra forskare – "The Original Six"), med relativt små bidrag från MP2-grenen av psykoakustiska subbandkodare. 1990 blev Brandenburg biträdande professor vid Erlangen-Nürnberg. Medan han var där fortsatte han att arbeta med musikkomprimering med forskare vid Fraunhofer Society 's Heinrich Herz Institute . 1993 anslöt han sig till personalen på Fraunhofer HHI. Låten " Tom's Diner " av Suzanne Vega var den första låten som användes av Karlheinz Brandenburg för att utveckla MP3-formatet. Brandenburg antog låten i testsyfte och lyssnade på den om och om igen varje gång han förfinade schemat, och såg till att det inte påverkade subtiliteten i Vegas röst negativt. Följaktligen döpte han Vega till "MP3:s moder".

Standardisering

1991 fanns det två tillgängliga förslag som utvärderades för en MPEG-ljudstandard: MUSICAM ( M asking pattern adapted U niversal S ubband I ntegrated C oding and Multiplexing ) och ASPEC ( A daptive Spectral P erceptual E ntropy C oding) . MUSICAM-tekniken, som föreslagits av Philips (Nederländerna), CCETT (Frankrike), Institute for Broadcast Technology (Tyskland) och Matsushita (Japan), valdes på grund av dess enkelhet och felrobusthet, såväl som för dess höga beräkningsnivå. effektivitet. MUSICAM-formatet, baserat på underbandskodning , blev grunden för MPEG Audio-komprimeringsformatet, med till exempel dess ramstruktur, header-format, samplingshastigheter, etc.

Medan mycket av MUSICAM-tekniken och -idéerna införlivades i definitionen av MPEG Audio Layer I och Layer II, förblev filterbanken ensam och datastrukturen baserad på 1152 sampelinramning (filformat och byteorienterad ström) av MUSICAM i Layer III ( MP3)-format, som en del av den beräkningsmässigt ineffektiva hybridfilterbanken . Under ordförandeskap av professor Musmann vid Leibniz University Hannover , delegerades redigeringen av standarden till Leon van de Kerkhof (Nederländerna), Gerhard Stoll (Tyskland) och Yves-François Dehery (Frankrike), som arbetade på Layer I och Layer II. ASPEC var det gemensamma förslaget från AT&T Bell Laboratories, Thomson Consumer Electronics, Fraunhofer Society och CNET . Det gav den högsta kodningseffektiviteten.

En arbetsgrupp bestående av van de Kerkhof, Stoll, Leonardo Chiariglione ( CSELT VP för media), Yves-François Dehery, Karlheinz Brandenburg (Tyskland) och James D. Johnston (USA) tog idéer från ASPEC, integrerade filterbanken från Layer II, lade till några av sina egna idéer som den gemensamma stereokodningen av MUSICAM och skapade MP3-formatet, som designades för att uppnå samma kvalitet vid 128 kbit/s som MP2 vid 192 kbit/s.

Algoritmerna för MPEG-1 Audio Layer I, II och III godkändes 1991 och slutfördes 1992 som en del av MPEG-1 , den första standardsviten av MPEG , vilket resulterade i den internationella standarden ISO / IEC 11172-3 (aka MPEG ) -1 Audio eller MPEG-1 Part 3 ), publicerad 1993. Filer eller dataströmmar som överensstämmer med denna standard måste hantera samplingshastigheter på 48k, 44100 och 32k och fortsätter att stödjas av nuvarande MP3-spelare och avkodare. Således definierade den första generationen MP3 14 × 3 = 42 tolkningar av MP3-ramdatastrukturer och storlekslayouter.

Ytterligare arbete med MPEG-ljud slutfördes 1994 som en del av den andra sviten av MPEG-standarder, MPEG-2 , mer formellt känd som internationell standard ISO/IEC 13818-3 (aka MPEG-2 Part 3 eller bakåtkompatibel MPEG-2 Audio eller MPEG-2 Audio BC ), ursprungligen publicerad 1995. MPEG-2 del 3 (ISO/IEC 13818-3) definierade ytterligare 42 bithastigheter och samplingshastigheter för MPEG-1 Audio Layer I, II och III. De nya samplingshastigheterna är exakt hälften av de som ursprungligen definierades i MPEG-1 Audio. Denna minskning av samplingshastigheten tjänar till att halvera den tillgängliga frekvenstroheten samtidigt som den minskar bithastigheten med 50 %. MPEG-2 Part 3 förbättrade också MPEG-1:s ljud genom att tillåta kodning av ljudprogram med fler än två kanaler, upp till 5.1 flerkanals. En MP3 kodad med MPEG-2 resulterar i hälften av bandbreddsreproduktionen av MPEG-1 som är lämplig för piano och sång.

En tredje generation av "MP3"-format dataströmmar (filer) utökade MPEG-2- idéerna och implementeringen, men fick namnet MPEG-2.5- ljud, eftersom MPEG-3 redan hade en annan betydelse. Denna tillägg utvecklades hos Fraunhofer IIS, de registrerade patentinnehavarna för MP3, genom att reducera ramsynkroniseringsfältet i MP3-huvudet från 12 till 11 bitar. Precis som vid övergången från MPEG-1 till MPEG-2, lägger MPEG-2.5 till ytterligare samplingsfrekvenser exakt hälften av de som är tillgängliga med MPEG-2. Det vidgar således omfattningen av MP3 till att inkludera mänskligt tal och andra applikationer men kräver ändå bara 25 % av bandbredden (frekvensreproduktion) som är möjlig med MPEG-1 samplingsfrekvenser. Även om det inte är en ISO-erkänd standard, stöds MPEG-2.5 brett av både billiga kinesiska och märkesvaror digitala ljudspelare samt datorprogrambaserade MP3-kodare ( LAME ), avkodare (FFmpeg) och spelare (MPC) som lägger till 3 × 8 = 24 ytterligare MP3-ramtyper. Varje generation av MP3 stöder således 3 samplingshastigheter exakt hälften av den föregående generationen för totalt 9 varianter av MP3-formatfiler. Tabellen för jämförelse av samplingsfrekvens mellan MPEG-1, 2 och 2.5 ges längre fram i artikeln. MPEG-2.5 stöds av LAME (sedan 2000), Media Player Classic (MPC), iTunes och FFmpeg.

MPEG-2.5 utvecklades inte av MPEG (se ovan) och godkändes aldrig som en internationell standard. MPEG-2.5 är alltså en inofficiell eller proprietär förlängning av MP3-formatet. Det är inte desto mindre allmänt förekommande och särskilt fördelaktigt för mänskliga taltillämpningar med låg bithastighet.

MPEG Audio Layer III-versioner
Version Internationell standard Publiceringsdatum för första upplagan Senaste utgåvan offentligt releasedatum
MPEG-1 Audio Layer III ISO/IEC 11172-3 (MPEG-1 del 3) 1993
MPEG-2 Audio Layer III ISO/IEC 13818-3 (MPEG-2 del 3) 1995 1998
MPEG-2.5 Audio Layer III icke-standard, proprietär 2000 2008

  • ISO-standarden ISO/IEC 11172-3 (aka MPEG-1 Audio) definierade tre format: MPEG-1 Audio Layer I, Layer II och Layer III. ISO-standarden ISO/IEC 13818-3 (aka MPEG-2 Audio) definierade utökad version av MPEG-1 Audio: MPEG-2 Audio Layer I, Layer II och Layer III. MPEG-2-ljud (MPEG-2 del 3) ska inte förväxlas med MPEG-2 AAC (MPEG-2 del 7 – ISO/IEC 13818-7).

Kompressionseffektiviteten för kodare definieras vanligtvis av bithastigheten, eftersom kompressionsförhållandet beror på bitdjupet och samplingshastigheten för insignalen. Ändå publiceras ofta kompressionsförhållanden. De kan använda Compact Disc- parametrarna (CD) som referenser (44,1 kHz , 2 kanaler med 16 bitar per kanal eller 2×16 bitar), eller ibland SP-parametrarna för Digital Audio Tape (DAT) (48 kHz, 2×16 bitar) . Kompressionsförhållanden med denna senare referens är högre, vilket visar problemet med användningen av termen kompressionsförhållande för förlustgivande kodare.

Karlheinz Brandenburg använde en CD-inspelning av Suzanne Vegas låt " Tom's Diner " för att bedöma och förfina MP3- komprimeringsalgoritmen . Den här låten valdes på grund av dess nästan monofoniska karaktär och breda spektrala innehåll, vilket gör det lättare att höra brister i komprimeringsformatet under uppspelning. Det här spåret har en intressant egenskap genom att de två kanalerna är nästan, men inte helt, desamma, vilket leder till ett fall där Binaural Masking Level Depression orsakar rumslig demaskering av brusartefakter om inte kodaren känner igen situationen korrekt och tillämpar korrigeringar liknande de detaljerad i MPEG-2 AAC psykoakustiska modellen. Några mer kritiska ljudutdrag ( klockspel , triangel , dragspel , etc.) togs från EBU V3/SQAM referens-cd och har använts av professionella ljudtekniker för att bedöma den subjektiva kvaliteten hos MPEG Audio-formaten. LAME är den mest avancerade MP3-kodaren. [ citat behövs ] LAME inkluderar en VBR variabel bithastighetskodning som använder en kvalitetsparameter snarare än ett bithastighetsmål. Senare versioner (2008+) stöder ett n.nnn-kvalitetsmål som automatiskt väljer MPEG-2- eller MPEG-2.5-samplingsfrekvenser som är lämpliga för mänskliga talinspelningar som endast behöver en upplösning på 5512 Hz bandbredd.

Blir offentlig

En referenssimuleringsmjukvaruimplementering, skriven på C-språket och senare känd som ISO 11172-5 , utvecklades (1991–1996) av medlemmarna i ISO MPEG Audio-kommittén för att producera bitkompatibla MPEG Audio-filer (Layer 1, Lager 2, Lager 3). Det godkändes som ett kommittéutkast till ISO/IEC teknisk rapport i mars 1994 och trycktes som dokument CD 11172-5 i april 1994. Det godkändes som ett utkast till teknisk rapport (DTR/DIS) i november 1994, färdigställdes 1996 och publicerades som internationell standard ISO/IEC TR 11172-5:1998 1998. Referensmjukvaran på C-språk publicerades senare som en fritt tillgänglig ISO-standard. Genom att arbeta i icke-realtid på ett antal operativsystem kunde den demonstrera den första hårdvaruavkodningen i realtid ( DSP- baserad) av komprimerat ljud. Några andra realtidsimplementationer av MPEG Audio-kodare och avkodare var tillgängliga för digitala sändningar (radio DAB , TV DVB ) mot konsumentmottagare och digitalboxar.

Den 7 juli 1994 släppte Fraunhofer Society den första programvaran för MP3-kodare, kallad l3enc . Filnamnstillägget .mp3 valdes av Fraunhofer-teamet den 14 juli 1995 (tidigare hade filerna fått namnet .bit ) . Med den första MP3-spelaren WinPlay3 i realtid (släppt 9 september 1995) kunde många människor koda och spela upp MP3-filer på sina datorer. På grund av erans relativt små hårddiskar (≈500–1000 MB ) var förlustkomprimering avgörande för att lagra musik med flera album på en hemdator som fullständiga inspelningar (i motsats till MIDI- notation, eller tracker- filer som kombinerade notation med korta inspelningar av instrument som spelar enstaka toner).

Fraunhofer exempelimplementering

En hacker vid namn SoloH upptäckte källkoden för "dist10" MPEG -referensimplementeringen kort efter utgivningen på servrarna vid University of Erlangen . Han utvecklade en version av högre kvalitet och spred den på internet. Denna kod startade den utbredda CD-rippningen och digital musikdistribution som MP3 över internet.

Internetdistribution

Under andra hälften av 1990-talet började MP3-filer spridas på Internet , ofta via underjordiska piratkopierade sångnätverk. Det första kända experimentet inom internetdistribution organiserades i början av 1990-talet av Internet Underground Music Archive , mer känt under förkortningen IUMA. Efter några experiment med okomprimerade ljudfiler började det här arkivet leverera på det inhemska, globala låghastighetsinternet några komprimerade MPEG-ljudfiler med MP2-formatet (Layer II) och senare använda MP3-filer när standarden var helt färdig. Populariteten för MP3-filer började öka snabbt med tillkomsten av Nullsofts ljudspelare Winamp , som släpptes 1997. 1998, den första bärbara solid state digitala ljudspelaren MPMan , utvecklad av SaeHan Information Systems, som har sitt huvudkontor i Seoul , Sydkorea , släpptes och Rio PMP300 såldes efteråt 1998, trots lagliga förtrycksansträngningar från RIAA .

I november 1997 erbjöd webbplatsen mp3.com tusentals MP3-filer skapade av oberoende artister gratis. Den lilla storleken på MP3-filer möjliggjorde utbredd peer-to-peer fildelning av musik rippad från CD-skivor, vilket tidigare skulle ha varit nästan omöjligt. Det första stora peer-to-peer fildelningsnätverket, Napster , lanserades 1999. Lättheten att skapa och dela MP3-filer resulterade i omfattande upphovsrättsintrång . Stora skivbolag hävdade att denna fria delning av musik minskade försäljningen och kallade det " musikpiratkopiering" . De reagerade med att driva stämningar mot Napster , som så småningom stängdes ner och senare såldes, och mot enskilda användare som ägnade sig åt fildelning.

Otillåten MP3-fildelning fortsätter på nästa generations peer-to-peer-nätverk . Vissa auktoriserade tjänster, som Beatport , Bleep , Juno Records , eMusic , Zune Marketplace , Walmart.com , Rhapsody , inspelningsindustrin godkände återinkarnationen av Napster och Amazon.com säljer obegränsad musik i MP3-format.

Design

Filstruktur

Diagram of the structure of an MP3 file
Diagram över strukturen för en MP3-fil (MPEG version 2.5 stöds inte, därför 12 istället för 11 bitar för MP3 Sync Word).

En MP3-fil består av MP3-ramar, som består av ett huvud och ett datablock. Denna sekvens av ramar kallas en elementär ström . På grund av "bitreservoaren" är ramar inte oberoende föremål och kan vanligtvis inte extraheras på godtyckliga ramgränser. MP3-datablocken innehåller den (komprimerade) ljudinformationen vad gäller frekvenser och amplituder. Diagrammet visar att MP3-huvudet består av ett synkord , som används för att identifiera början av en giltig ram. Detta följs av en bit som indikerar att detta är MPEG- standarden och två bitar som indikerar att lager 3 används; därav MPEG-1 Audio Layer 3 eller MP3. Efter detta kommer värdena att skilja sig beroende på MP3-filen. ISO / IEC 11172-3 definierar värdeintervallet för varje sektion av rubriken tillsammans med specifikationen för rubriken. De flesta MP3-filer idag innehåller ID3 -metadata , som föregår eller följer MP3-bildrutorna, som anges i diagrammet. Dataströmmen kan innehålla en valfri kontrollsumma.

Gemensam stereo görs endast på en bild-till-bild-basis.

Kodning och avkodning

MP3-kodningsalgoritmen är vanligtvis uppdelad i fyra delar. Del 1 delar upp ljudsignalen i mindre bitar, så kallade frames, och ett modifierat diskret cosinustransformeringsfilter (MDCT) utförs sedan på utgången. Del 2 skickar provet till en 1024-punkts snabb Fourier-transform (FFT), sedan appliceras den psykoakustiska modellen och ytterligare ett MDCT-filter utförs på utgången. Del 3 kvantifierar och kodar varje sampel, känd som brusallokering, som justerar sig själv för att möta kraven på bithastighet och ljudmaskering . Del 4 formaterar bitströmmen , kallad en ljudram, som består av 4 delar, rubriken , felkontroll , ljuddata och tilläggsdata .

MPEG -1- standarden inkluderar inte en exakt specifikation för en MP3-kodare, men tillhandahåller exempel på psykoakustiska modeller, hastighetsslingor och liknande i den icke-normativa delen av den ursprungliga standarden. MPEG-2 fördubblar antalet samplingsfrekvenser som stöds och MPEG-2.5 lägger till 3 till. När detta skrevs var de föreslagna implementeringarna ganska daterade. Implementerare av standarden var tänkta att ta fram sina egna algoritmer lämpliga för att ta bort delar av informationen från ljudingången. Som ett resultat blev många olika MP3-kodare tillgängliga, som var och en producerar filer av olika kvalitet. Jämförelser var allmänt tillgängliga, så det var lätt för en potentiell användare av en kodare att hitta det bästa valet. Vissa kodare som var skickliga på att koda med högre bithastigheter (som LAME ) var inte nödvändigtvis lika bra vid lägre bithastigheter. Med tiden utvecklades LAME på SourceForge-webbplatsen tills den blev den de facto CBR MP3-kodaren. Senare lades ett ABR-läge till. Arbetet fortskred med sann variabel bithastighet med ett kvalitetsmål mellan 0 och 10. Så småningom kunde siffror (som -V 9.600) generera röstkodning med låg bithastighet av utmärkt kvalitet vid endast 41 kbit/s med MPEG-2.5-tilläggen.

Under kodningen tas 576 tidsdomänsampler och transformeras till 576 frekvensdomänsampler . [ förtydligande behövs ] Om det finns en transient tas 192 prover istället för 576. Detta görs för att begränsa den tidsmässiga spridningen av kvantiseringsbrus som följer med transienten (se psykoakustik ). Frekvensupplösningen begränsas av det lilla långa blockfönstrets storlek, vilket minskar kodningseffektiviteten. Tidsupplösningen kan vara för låg för mycket transienta signaler och kan orsaka utsmetande av perkussiva ljud.

På grund av filterbankens trädstruktur förvärras förekoproblemen, eftersom det kombinerade impulssvaret för de två filterbankerna inte, och inte kan, ge en optimal lösning i tid/frekvensupplösning. Dessutom skapar kombinationen av de två filterbankernas utgångar aliasingproblem som måste hanteras delvis av "aliasing compensation"-steget; det skapar emellertid överskottsenergi som ska kodas i frekvensdomänen, vilket minskar kodningseffektiviteten.

Avkodning, å andra sidan, är noggrant definierad i standarden. De flesta avkodare är " bitstream- kompatibla", vilket innebär att den dekomprimerade utdata som de producerar från en given MP3-fil kommer att vara densamma, inom en specificerad grad av avrundningstolerans , som utdata som specificeras matematiskt i ISO/IEC högstandarddokumentet (ISO) /IEC 11172-3). Därför baseras jämförelser av avkodare vanligtvis på hur beräkningseffektiva de är (dvs hur mycket minne eller CPU -tid de använder i avkodningsprocessen). Med tiden har denna oro blivit mindre av ett problem eftersom CPU-klockfrekvenserna har övergått från MHz till GHz. Kodarens/avkodarens totala fördröjning är inte definierad, vilket betyder att det inte finns någon officiell bestämmelse för uppspelning utan mellanrum . Vissa kodare som LAME kan dock bifoga ytterligare metadata som gör att spelare som kan hantera det kan leverera sömlös uppspelning.

Kvalitet

När du utför ljudkodning med förlust, som att skapa en MP3-dataström, finns det en avvägning mellan mängden genererad data och ljudkvaliteten på resultaten. Personen som genererar en MP3 väljer en bithastighet , som anger hur många kilobit per sekund av ljud som önskas. Ju högre bithastighet, desto större blir MP3-dataströmmen, och i allmänhet kommer den att låta den ursprungliga inspelningen. Med för låg bithastighet komprimeringsartefakter (dvs. ljud som inte fanns i den ursprungliga inspelningen) vara hörbara i återgivningen. En del ljud är svårt att komprimera på grund av dess slumpmässighet och skarpa attacker. hörs vanligtvis artefakter som ringsignaler eller föreko . Ett exempel på applåder eller ett triangelinstrument med en relativt låg bithastighet ger bra exempel på komprimeringsartefakter. De flesta subjektiva tester av perceptuella codecs tenderar att undvika att använda dessa typer av ljudmaterial, men artefakterna som genereras av perkussiva ljud är knappt märkbara på grund av den specifika tidsmaskeringsfunktionen hos den 32 subbandsfilterbanken i Layer II som formatet är baserat på .

Förutom bithastigheten för ett kodat ljudstycke, beror kvaliteten på MP3-kodat ljud också på kvaliteten på kodaralgoritmen samt komplexiteten hos signalen som kodas. Eftersom MP3-standarden tillåter en hel del frihet med kodningsalgoritmer, har olika kodare ganska olika kvalitet, även med identiska bithastigheter. Som ett exempel, i ett offentligt lyssningstest med två tidiga MP3-kodare inställda på cirka 128 kbit/s, fick den ena poängen 3,66 på en skala 1–5, medan den andra endast fick 2,22. Kvaliteten är beroende av valet av kodare och kodningsparametrar.

Denna observation orsakade en revolution inom ljudkodning. Tidig bithastighet var det främsta och enda övervägandet. På den tiden var MP3-filer av den allra enklaste typen: de använde samma bithastighet för hela filen: denna process är känd som Constant Bit Rate (CBR)-kodning. Att använda en konstant bithastighet gör kodningen enklare och mindre CPU-intensiv. Det är dock också möjligt att optimera storleken på filen genom att skapa filer där bithastigheten ändras genom hela filen. Dessa är kända som Variable Bit Rate . Bitreservoaren och VBR-kodningen var faktiskt en del av den ursprungliga MPEG-1-standarden. Konceptet bakom dem är att i alla ljudstycken är vissa avsnitt lättare att komprimera, till exempel tystnad eller musik som bara innehåller några få toner, medan andra kommer att vara svårare att komprimera. Så, den övergripande kvaliteten på filen kan ökas genom att använda en lägre bithastighet för de mindre komplexa passagerna och en högre för de mer komplexa delarna. Med vissa avancerade MP3-kodare är det möjligt att ange en given kvalitet, och kodaren kommer att justera bithastigheten därefter. Användare som önskar en speciell "kvalitetsinställning" som är genomskinlig för deras öron kan använda detta värde när de kodar all sin musik, och generellt sett behöver de inte oroa sig för att utföra personliga lyssningstester på varje musikstycke för att bestämma rätt bithastighet.

Upplevd kvalitet kan påverkas av lyssningsmiljön (omgivande brus), lyssnarens uppmärksamhet och lyssnarträning och i de flesta fall av lyssnarens ljudutrustning (som ljudkort, högtalare och hörlurar). Dessutom kan tillräcklig kvalitet uppnås genom en lägre kvalitetsinställning för föreläsningar och mänskliga taltillämpningar och minskar kodningstid och komplexitet. Ett test som gavs för nya studenter av Stanford Universitys musikprofessor Jonathan Berger visade att elevernas preferenser för musik av MP3-kvalitet har ökat varje år. Berger sa att eleverna tycks föredra de "sjusande" ljuden som MP3-filer ger musik.

En fördjupad studie av MP3-ljudkvalitet, ljudkonstnären och kompositören Ryan Maguires projekt "The Ghost in the MP3" isolerar de ljud som går förlorade under MP3-komprimering. 2015 släppte han spåret "moDernisT" (ett anagram av "Tom's Diner"), komponerat uteslutande från ljuden som raderades under MP3-komprimering av låten "Tom's Diner", spåret som ursprungligen användes i formuleringen av MP3-standarden. En detaljerad redogörelse för de tekniker som användes för att isolera de ljud som raderades under MP3-komprimering, tillsammans med den konceptuella motiveringen för projektet, publicerades i 2014 års Proceedings of the International Computer Music Conference.

Bithastighet


MPEG Audio Layer III tillgängliga bithastigheter (kbit/s)

MPEG-1 Audio Layer III

MPEG-2 Audio Layer III

MPEG-2.5 Audio Layer III
8 8
16 16
24 24
32 32 32
40 40 40
48 48 48
56 56 56
64 64 64
80 80
96 96
112 112
128 128
n/a 144
160 160
192
224
256
320

Samplingsfrekvenser som stöds av MPEG Audio Format

MPEG-1 Audio Layer III

MPEG-2 Audio Layer III

MPEG-2.5 Audio Layer III
8000 Hz
11025 Hz
12000 Hz
16000 Hz
22050 Hz
24000 Hz
32000 Hz
44100 Hz
48 000 Hz

Bitrate är produkten av samplingshastigheten och antalet bitar per sampel som används för att koda musiken. CD-ljud är 44100 sampel per sekund. Antalet bitar per sampel beror också på antalet ljudkanaler. CD är stereo och 16 bitar per kanal. Så att multiplicera 44100 med 32 ger 1411200 - bithastigheten för okomprimerat digitalt CD-ljud. MP3 designades för att koda dessa 1411 kbit/s data med 320 kbit/s eller mindre. Eftersom mindre komplexa passager detekteras av MP3-algoritmer kan lägre bithastigheter användas. När du använder MPEG-2 istället för MPEG-1 stöder MP3 endast lägre samplingshastigheter (16000, 22050 eller 24000 sampel per sekund) och erbjuder val av bithastighet så låg som 8 kbit/s men inte högre än 160 kbit/s. Genom att sänka samplingsfrekvensen tar MPEG-2 lager III bort alla frekvenser över hälften av den nya samplingsfrekvensen som kan ha varit närvarande i källljudet.

Som visas i dessa två tabeller är 14 valda bithastigheter tillåtna i MPEG-1 Audio Layer III standard: 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 och 320 kbit /s, tillsammans med de 3 högsta tillgängliga samplingsfrekvenserna på 32, 44,1 och 48 kHz . MPEG-2 Audio Layer III tillåter också 14 något olika (och oftast lägre) bithastigheter på 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160 kbit/s med samplingsfrekvenser på 16, 22,05 och 24 kHz som är exakt hälften av MPEG-1. MPEG-2.5 Audio Layer III-ramar är begränsade till endast 8 bithastigheter på 8, 16, 24, 32, 40, 48, 56 och 64 kbit/s med 3 ännu lägre samplingsfrekvenser på 8, 11,025 och 12 kHz. [ citat behövs ] På tidigare system som endast stöder MPEG-1 Audio Layer III-standarden, kan MP3-filer med en bithastighet under 32 kbit/s spelas upp snabbare och högre upp.

Tidigare system saknar också uppspelningskontroller för snabbspolning framåt och bakåt på MP3.

MPEG-1-ramar innehåller mest detaljer i 320 kbit/s-läge, den högsta tillåtna bithastighetsinställningen, med tystnad och enkla toner som fortfarande kräver 32 kbit/s. MPEG-2-ramar kan fånga upp till 12 kHz ljudreproduktioner som behövs upp till 160 kbit/s. MP3-filer gjorda med MPEG-2 har inte 20 kHz bandbredd på grund av Nyquist–Shannons samplingssats . Frekvensåtergivningen är alltid strikt mindre än hälften av samplingsfrekvensen, och ofullkomliga filter kräver en större felmarginal (brusnivå kontra skärpa på filtret), så en 8 kHz samplingsfrekvens begränsar den maximala frekvensen till 4 kHz, medan en 48 kHz sampling frekvensen begränsar en MP3 till en maximal ljudåtergivning på 24 kHz. MPEG-2 använder hälften och MPEG-2.5 bara en fjärdedel av MPEG-1 samplingshastigheter.

För det allmänna området för mänskligt talåtergivning är en bandbredd på 5512 Hz tillräcklig för att ge utmärkta resultat (för röst) med samplingshastigheten 11025 och VBR-kodning från 44100 (standard) WAV-fil. Engelsktalande i genomsnitt 41–42 kbit/s med -V 9.6-inställning men detta kan variera med mängden tystnad som spelas in eller leveranshastigheten (wpm). Omsampling till 12000 (6K bandbredd) väljs av LAME-parametern -V 9.4. På samma sätt väljer -V 9.2 16000 samplingshastighet och en resulterande 8K lågpassfiltrering. För mer information se Nyquist – Shannon . Äldre versioner av LAME och FFmpeg stöder endast heltalsargument för urvalsparametern för variabel bithastighetskvalitet. Kvalitetsparametern n.nnn (-V) finns dokumenterad på lame.sourceforge.net men stöds endast i LAME med den nya stilen VBR-variabel bithastighetskvalitetsväljare – inte genomsnittlig bithastighet (ABR).

En samplingshastighet på 44,1 kHz används vanligtvis för musikåtergivning, eftersom detta också används för CD-ljud , den huvudsakliga källan som används för att skapa MP3-filer. En stor variation av bithastigheter används på Internet. En bithastighet på 128 kbit/s används vanligtvis, vid ett kompressionsförhållande på 11:1, vilket ger tillräcklig ljudkvalitet på ett relativt litet utrymme. Eftersom tillgängligheten på internetbandbredd och hårddiskstorlekar har ökat är högre bithastigheter upp till 320 kbit/s utbredd. Okomprimerat ljud som lagrat på en ljud-CD har en bithastighet på 1 411,2 kbit/s, (16 bitar/sampling × 44 100 sampel/sekund × 2 kanaler / 1 000 bitar/kilobit), så bithastigheterna 128, 160 och 192 kbit/s representerar kompressionsförhållanden på ungefär 11:1, 9:1 respektive 7:1.

Icke-standardiserade bithastigheter på upp till 640 kbit/s kan uppnås med LAME- kodaren och alternativet för fritt format, även om få MP3-spelare kan spela dessa filer. Enligt ISO-standarden krävs endast avkodare för att kunna avkoda strömmar upp till 320 kbit/s. Tidiga MPEG Layer III-kodare använde vad som nu kallas Constant Bit Rate (CBR). Programvaran kunde bara använda en enhetlig bithastighet på alla bildrutor i en MP3-fil. Senare kunde mer sofistikerade MP3-kodare använda bitreservoaren för att rikta in sig på en genomsnittlig bithastighet och välja kodningshastigheten för varje bildruta baserat på komplexiteten hos ljudet i den delen av inspelningen.

En mer sofistikerad MP3-kodare kan producera ljud med variabel bithastighet . MPEG-ljud kan använda bithastighetsväxling per bildruta, men endast lager III-avkodare måste stödja det. VBR används när målet är att uppnå en fast kvalitetsnivå. Den slutliga filstorleken för en VBR-kodning är mindre förutsägbar än med konstant bithastighet . Genomsnittlig bithastighet är en typ av VBR implementerad som en kompromiss mellan de två: bithastigheten tillåts variera för mer konsekvent kvalitet, men kontrolleras för att förbli nära ett medelvärde som valts av användaren, för förutsägbara filstorlekar. Även om en MP3-avkodare måste stödja VBR för att vara standardkompatibel, har vissa avkodare historiskt sett buggar med VBR-avkodning, särskilt innan VBR-kodare blev utbredda. Den mest utvecklade LAME MP3-kodaren stöder genereringen av VBR, ABR och även de äldre CBR MP3-formaten.

Layer III-ljud kan också använda en "bitreservoar", en delvis full rams förmåga att hålla en del av nästa bildrutes ljuddata, vilket tillåter tillfälliga förändringar i effektiv bithastighet, även i en konstant bithastighetsström. Intern hantering av bitreservoaren ökar kodningsfördröjningen. [ citat behövs ] Det finns inget skalfaktorband 21 (sfb21) för frekvenser över ca 16 kHz , vilket tvingar kodaren att välja mellan mindre exakt representation i band 21 eller mindre effektiv lagring i alla band under band 21, det senare resulterar i bortkastad bithastighet i VBR-kodning.

Tilläggsdata

Det extra datafältet kan användas för att lagra användardefinierade data. Tilläggsdatan är valfri och antalet tillgängliga bitar anges inte explicit. Tilläggsdatan är placerad efter Huffman-kodbitarna och sträcker sig till där nästa rams main_data_begin pekar på. Encoder mp3PRO använde tilläggsdata för att koda extra information som kan förbättra ljudkvaliteten när den avkodas med sin egen algoritm.

Metadata

En "tagg" i en ljudfil är en del av filen som innehåller metadata som titel, artist, album, spårnummer eller annan information om filens innehåll. MP3-standarderna definierar inte taggformat för MP3-filer, och det finns inte heller ett standardformat för behållare som skulle stödja metadata och undanröja behovet av taggar. Det finns dock flera de facto- standarder för taggformat. Från och med 2010 är de mest utbredda ID3v1 och ID3v2 , och den mer nyligen introducerade APEv2 . Dessa taggar är normalt inbäddade i början eller slutet av MP3-filer, separat från de faktiska MP3-ramdata. MP3-avkodare extraherar antingen information från taggarna eller behandlar dem bara som ignorerbar, icke-MP3-skräpdata.

Spel- och redigeringsprogram innehåller ofta taggredigeringsfunktioner, men det finns också taggredigeringsapplikationer dedikerade till syftet. Förutom metadata som hänför sig till ljudinnehållet kan taggar också användas för DRM . ReplayGain är en standard för att mäta och lagra ljudstyrkan hos en MP3-fil ( ljudnormalisering ) i dess metadatatagg, vilket gör det möjligt för en ReplayGain-kompatibel spelare att automatiskt justera den totala uppspelningsvolymen för varje fil. MP3Gain kan användas för att reversibelt modifiera filer baserat på ReplayGain-mätningar så att justerad uppspelning kan uppnås på spelare utan ReplayGain-möjlighet.

Licensiering, ägande och lagstiftning

Den grundläggande MP3-avkodnings- och kodningstekniken är patentfri i Europeiska unionen, alla patent har löpt ut där senast 2012. I USA blev tekniken i stort sett patentfri den 16 april 2017 (se nedan). MP3-patent löpte ut i USA mellan 2007 och 2017. Tidigare har många organisationer gjort anspråk på äganderätt till patent relaterade till MP3-avkodning eller -kodning. Dessa påståenden ledde till ett antal juridiska hot och åtgärder från en mängd olika källor. Som ett resultat av detta var osäkerhet om vilka patent som måste ha licensierats för att skapa MP3-produkter utan att begå patentintrång i länder som tillåter mjukvarupatent ett vanligt inslag i de tidiga stadierna av antagandet av tekniken.

Den ursprungliga nästan fullständiga MPEG-1-standarden (del 1, 2 och 3) var allmänt tillgänglig den 6 december 1991 som ISO CD 11172. I de flesta länder kan patent inte lämnas in efter att tidigare teknik har offentliggjorts, och patent löper ut 20 år efter det första ansökningsdatumet, vilket kan vara upp till 12 månader senare för ansökningar i andra länder. Som ett resultat av detta upphörde patent som krävs för att implementera MP3 i de flesta länder i december 2012, 21 år efter publiceringen av ISO CD 11172.

Ett undantag är USA, där patent som är i kraft men som lämnats in före den 8 juni 1995 löper ut efter det senare av 17 år från utfärdandedatumet eller 20 år från prioritetsdatumet. En långvarig patentprocess kan resultera i att ett patent utfärdas mycket senare än normalt förväntat (se ubåtspatent ) . De olika MP3-relaterade patenten löpte ut på datum från 2007 till 2017 i USA. Patent för allt som avslöjas i ISO CD 11172 som lämnats in ett år eller mer efter publiceringen är tveksamma. Om endast de kända MP3-patenten som lämnats in i december 1992 beaktas, så har MP3-avkodning varit patentfri i USA sedan den 22 september 2015, då US- patent 5 812 672 , som hade en PCT-anmälan i oktober 1992, löpte ut. Om det längsta patentet som nämns i ovannämnda referenser tas som en åtgärd, så blev MP3-tekniken patentfri i USA den 16 april 2017, då US Patent 6 009 399 , som innehas och administreras av Technicolor , löpte ut. Som ett resultat av detta har många programvaruprojekt med gratis och öppen källkod , såsom operativsystemet Fedora, beslutat att börja leverera MP3-stöd som standard, och användare kommer inte längre att behöva tillgripa att installera inofficiella paket som underhålls av tredje parts programvarulager för MP3 uppspelning eller kodning.

Technicolor (tidigare kallad Thomson Consumer Electronics) påstod sig kontrollera MP3-licensiering av Layer 3-patenten i många länder, inklusive USA, Japan, Kanada och EU-länder. Technicolor hade aktivt verkställt dessa patent. MP3-licensintäkter från Technicolors administration genererade cirka 100 miljoner euro till Fraunhofer Society 2005. I september 1998 skickade Fraunhofer Institute ett brev till flera utvecklare av MP3-programvara där det stod att en licens krävdes för att "distribuera och/eller sälja avkodare och/eller eller kodare". Brevet hävdade att olicensierade produkter "kränker patenträttigheterna för Fraunhofer och Thomson. För att tillverka, sälja eller distribuera produkter som använder standarden [MPEG Layer-3] och därmed våra patent, måste du erhålla en licens under dessa patent från oss." Detta ledde till situationen där LAME MP3-kodarprojektet inte kunde erbjuda sina användare officiella binärer som kunde köras på deras dator. Projektets ståndpunkt var att som källkod var LAME helt enkelt en beskrivning av hur en MP3-kodare kunde implementeras. Inofficiellt var kompilerade binärer tillgängliga från andra källor.

Sisvel SpA, ett Luxemburgbaserat företag, administrerar licenser för patent som gäller MPEG Audio. De, tillsammans med dess amerikanska dotterbolag Audio MPEG, Inc. tidigare stämde Thomson för patentintrång på MP3-teknik, men dessa tvister löstes i november 2005 genom att Sisvel beviljade Thomson en licens för deras patent. Motorola följde strax efter och undertecknade med Sisvel för att licensiera MP3-relaterade patent i december 2005. Förutom tre patent hade de amerikanska patenten som administrerades av Sisvel alla löpt ut 2015. De tre undantagen är: US Patent 5 878 080 , som löpte ut februari 2017 ; US-patent 5 850 456 , löpte ut februari 2017; och US-patent 5 960 037 , upphörde 9 april 2017.

I september 2006 beslagtog tyska tjänstemän MP3-spelare från SanDisks monter på IFA-mässan i Berlin efter att ett italienskt patentföretag vunnit ett föreläggande på Sisvels vägnar mot SanDisk i en tvist om licensrättigheter. Föreläggandet upphävdes senare av en domare i Berlin, men den återkallelsen blockerades i sin tur samma dag av en annan domare från samma domstol, som "förde Patent Wild West till Tyskland" enligt en kommentator. I februari 2007 stämde Texas MP3 Technologies Apple, Samsung Electronics och Sandisk i östra Texas federala domstol och hävdade intrång i ett patent för en bärbar MP3-spelare som Texas MP3 sa att det hade tilldelats. Apple, Samsung och Sandisk reglerade alla anspråken mot dem i januari 2009.

Alcatel-Lucent har hävdat flera MP3-kodnings- och komprimeringspatent, som påstås ärvts från AT&T-Bell Labs, i sina egna rättstvister. I november 2006, före företagens sammanslagning, stämde Alcatel Microsoft för att ha gjort intrång i sju patent. Den 23 februari 2007 tilldömde en jury i San Diego Alcatel-Lucent 1,52 miljarder USD i skadestånd för intrång i två av dem. Domstolen upphävde dock tilldelningen och fann att ett patent inte hade gjorts intrång och att det andra inte ägdes av Alcatel-Lucent ; det var samägt av AT&T och Fraunhofer, som hade licensierat det till Microsoft , slog domaren fast. Den försvarsdomen fastställdes efter överklagande 2008. Se Alcatel-Lucent v. Microsoft för mer information.

Alternativa tekniker

Andra förlustformat finns. Bland dessa Advanced Audio Coding (AAC) den mest använda, och designades för att vara efterföljaren till MP3. Det finns även andra förlustformat som mp3PRO och MP2 . De är medlemmar av samma teknologiska familj som MP3 och är beroende av ungefär liknande psykoakustiska modeller och MDCT- algoritmer. Medan MP3 använder en hybridkodningsmetod som delvis är MDCT och en del FFT , är AAC rent MDCT, vilket avsevärt förbättrar komprimeringseffektiviteten. Många av de grundläggande patenten som ligger till grund för dessa format innehas av Fraunhofer Society , Alcatel-Lucent, Thomson Consumer Electronics , Bell , Dolby , LG Electronics , NEC , NTT Docomo , Panasonic , Sony Corporation , ETRI , JVC Kenwood , Philips , Microsoft och NTT .

När marknaden för digitala ljudspelare tog fart, antogs MP3 allmänt som standard, därav det populära namnet "MP3-spelare". Sony var ett undantag och använde sin egen ATRAC- codec hämtad från deras MiniDisc- format, vilket Sony hävdade var bättre. Efter kritik och lägre än väntat Walkman- försäljning introducerade Sony 2004 för första gången inbyggt MP3-stöd för sina Walkman-spelare.

Det finns också öppna komprimeringsformat som Opus och Vorbis som är tillgängliga gratis och utan några kända patentrestriktioner. Vissa av de nyare ljudkomprimeringsformaten, som AAC, WMA Pro och Vorbis, är fria från vissa begränsningar som är inneboende i MP3-formatet som inte kan övervinnas av någon MP3-kodare.

Förutom förlustfria komprimeringsmetoder är förlustfria format ett betydande alternativ till MP3 eftersom de ger oförändrat ljudinnehåll, dock med en ökad filstorlek jämfört med förlustkomprimering. Förlustfria format inkluderar FLAC (Free Lossless Audio Codec), Apple Lossless och många andra.

Se även

Vidare läsning

externa länkar