Perceptuellt talkvalitetsmått

Perceptual Speech Quality Measure ( PSQM ) är en beräknings- och modelleringsalgoritm som definieras i rekommendation ITU-T P.861 som objektivt utvärderar och kvantifierar röstkvaliteten för talbandets (300 – 3400 Hz) talkodekar . Den kan användas för att rangordna prestandan hos dessa talkodekar med olika talinmatningsnivåer, talare, bithastigheter och omkodningar. P.861 drogs tillbaka och ersattes av rekommendation ITU-T P.862 ( PESQ ), som innehåller en förbättrad talbedömningsalgoritm.

Varför det används

Genom att använda PSQM-standarden kan automatiserade, simuleringsbaserade testmetoder objektivt bedöma både taltydlighet och sänd röstkvalitet. Olika mjukvaru- och/eller hårdvaruprodukter har utvecklats för att underlätta denna testning. Detta resulterar i avsevärda besparingar i kostnad och tid jämfört med traditionell praxis att använda stora grupper av människor för att subjektivt utvärdera röstsignaler och bedöma röstkvalitet. Dessutom ger det objektiva resultat som är tillförlitliga och reproducerbara. Detta är mycket viktigt för telefonileverantörer som har mandat att upprätthålla höga kvalitetsstandarder .

Algoritm

PSQM använder en psykoakustisk matematisk modelleringsalgoritm (både perceptuell och kognitiv) för att analysera de före- och eftersända röstsignalerna, vilket ger ett PSQM-värde som är ett mått på signalkvalitetsförsämring och sträcker sig från 0 (ingen försämring) till 6,5 (högsta försämringen). I sin tur kan detta resultat översättas till ett medelvärde för opinionsmätning (MOS), som är ett accepterat mått på den upplevda kvaliteten på mottagna media på en numerisk skala från 1 till 5. Ett värde på 1 indikerar oacceptabel röst av dålig kvalitet medan ett värde på 5 indikerar hög röstkvalitet utan några märkbara problem.

PSQM-algoritmen omvandlar signalen/signalerna från den fysiska domänen till den perceptuellt meningsfulla psykoakustiska domänen genom en serie icke-linjära processer såsom tids-frekvenskartläggning, frekvensförvrängning och intensitetsförvrängning.

Kvaliteten på det kodade talet bedöms utifrån skillnaderna i den interna representationen. Skillnaden används för beräkning av bullerstörningen som funktion av tid och frekvens. Förutom perceptuell modellering använder PSQM-algoritmen kognitiv modellering såsom loudness-skalning och asymmetrisk maskering för att få höga korrelationer mellan subjektiva och objektiva mätningar.

Begränsningar

PSQM som ursprungligen utformades utvecklades inte för att ta hänsyn till störningar i nätverkets tjänstekvalitet som är vanliga i Voice over IP- applikationer, artiklar som paketförlust, fördröjningsvarians (jitter) eller icke-sekventiella paket. Dessa förhållanden ger vanligtvis olämpliga resultat under simuleringar av tung nätverksbelastning, och tar inte hänsyn till en mycket verklig upplevd förlust av röstkvalitet. Försök att duplicera nätverksfel genom att införa betydande paketförluster resulterar i PSQM-värden som motsvarar felaktigt uppblåsta MOS -värden.

För att övervinna denna begränsning utvecklades PSQM+ genom att modifiera den ursprungliga algoritmen. PSQM+ genererar resultat som mer exakt tycks återspegla den negativa prestandan hos talkodekar under realistiska nätverksbelastningsförhållanden.

Andra överväganden

Andra problem handlar om bristen på standardisering i testsignaler som används för att utvärdera olika talkodekar . PSQM ger mer tillförlitliga och konsekventa MOS- värden om de används i enlighet med ITU rekommenderade metoder för objektiv och subjektiv bedömning av kvalitet (ITU-T P.800/P.830/P.861). Dessa ITU-T-rekommendationer inkluderar användning av röstreferenssignaler för både manligt och kvinnligt kön på en genomsnittlig nivå av -20dB [ ^{förtydligande behövs ]} . Typ, kön, varaktighet, förstärkning av rösten eller signalen kan alla ha en mindre inverkan på PSQM-värdet eller MOS-poängen, liksom tröskelnivåerna, antalet gjorda samtal och andra konfigurationsinställningar för miljön. När man jämför röstkvalitetsmätningar bör signalen, miljön och konfigurationerna alla beaktas.

Många tal-codecs finns och används i en mängd olika applikationer. Noggrant val av lämpliga tal-codec(s) är nödvändigt för att matcha systemkraven. En lista över vanliga talkodekar och deras associerade PSQM/PSQM+-härledda MOS-värden erhållna under olika nätverksbelastningsförhållanden är tillgänglig.

ITU-T-rekommendation P.861 (återkallad) : Objektiv kvalitetsmätning av telefonbands (300–3400 Hz) talkodekar. P.861 erkändes ha vissa begränsningar inom specifika tillämpningsområden. Den ersattes av P.862, som innehåller en förbättrad objektiv talkvalitetsbedömningsalgoritm.
ITU-T-rekommendation P.862 (02/2001) : Perceptuell utvärdering av talkvalitet (PESQ): En objektiv metod för end-to-end-talkvalitetsbedömning av smalbandiga telefonnät och talkodekar
https://secure.aes.org/forum/pubs/journal/?elib=6957

Se även

Genomsnittlig åsiktspoäng
Perceptual Evaluation of Speech Quality (PESQ), efterföljande teknologi för PSQM
Tal-codecs
Röst över IP