Genomsnittlig åsiktspoäng
Mean opinion score (MOS) är ett mått som används inom domänen Quality of Experience och telekommunikationsteknik, som representerar den övergripande kvaliteten på en stimulans eller ett system. Det är det aritmetiska medelvärdet över alla individuella "värden på en fördefinierad skala som en subjekt tilldelar sin uppfattning om prestanda hos en systemkvalitet". Sådana betyg samlas vanligtvis in i ett subjektivt kvalitetsutvärderingstest , men de kan också uppskattas algoritmiskt.
MOS är ett vanligt förekommande mått för video-, ljud- och audiovisuell kvalitetsutvärdering, men inte begränsat till dessa modaliteter. ITU-T har definierat flera sätt att hänvisa till en MOS i Rekommendation ITU-T P.800.1 , beroende på om poängen erhölls från audiovisuella, konversations-, lyssnande, pratande eller videokvalitetstester.
Betygsskalor och matematisk definition
MOS uttrycks som ett enda rationellt tal, vanligtvis i intervallet 1–5, där 1 är den lägsta upplevda kvaliteten och 5 är den högsta upplevda kvaliteten. Andra MOS-intervall är också möjliga, beroende på betygsskalan som har använts i det underliggande testet. Skalan för Absolute Category Rating är mycket vanligt förekommande, som mappar betyg mellan dåliga och utmärkta till siffror mellan 1 och 5, som visas i tabellen nedan.
Betyg | Märka |
---|---|
5 | Excellent |
4 | Bra |
3 | Rättvis |
2 | Fattig |
1 | Dålig |
Andra standardiserade kvalitetsskalor finns i ITU-T-rekommendationer (som ITU-T P.800 eller ITU-T P.910 ). Till exempel kan man använda en kontinuerlig skala mellan 1–100. Vilken skala som används beror på syftet med testet. I vissa sammanhang finns det inga statistiskt signifikanta skillnader mellan betyg för samma stimuli när de erhålls med olika skalor.
MOS beräknas som det aritmetiska medelvärdet över enstaka betyg utförda av mänskliga försökspersoner för en given stimulans i ett subjektivt kvalitetsutvärderingstest . Således:
Där är de individuella betygen för en given stimulans av försökspersoner.
MOS:s egenskaper
MOS är föremål för vissa matematiska egenskaper och fördomar. I allmänhet pågår det en debatt om användbarheten av MOS för att kvantifiera upplevelsekvalitet i ett enda skalärt värde.
När MOS förvärvas med hjälp av en kategorisk betygsskala baseras den på – i likhet med Likert-skalor – en ordinalskala . I det här fallet är rangordningen av skalobjekten känd, men deras intervall är det inte. Därför är det matematiskt felaktigt att beräkna ett medelvärde över individuella betyg för att få den centrala tendensen; medianen ska användas istället. I praktiken och i definitionen av MOS anses det dock acceptabelt att beräkna det aritmetiska medelvärdet.
Det har visat sig att för kategoriska betygsskalor (som ACR) uppfattas de enskilda objekten inte på samma avstånd av försökspersonerna. Till exempel kan det finnas ett större "gap" mellan Good och Fair än det är mellan Good och Excellent . Det upplevda avståndet kan också bero på vilket språk skalan översätts till. Det finns dock studier som inte kunde bevisa en signifikant effekt av skalöversättning på de erhållna resultaten.
Flera andra fördomar finns i hur MOS-betyg vanligtvis förvärvas. Utöver de ovan nämnda problemen med skalor som uppfattas icke-linjärt, finns det en så kallad "range-equalization bias": försökspersoner, under loppet av ett subjektivt experiment, tenderar att ge poäng som spänner över hela betygsskalan . Detta gör det omöjligt att jämföra två olika subjektiva test om utbudet av presenterad kvalitet skiljer sig. Med andra ord är MOS aldrig ett absolut mått på kvalitet, utan endast i förhållande till testet där det har förvärvats.
Av ovanstående skäl – och på grund av flera andra kontextuella faktorer som påverkar den upplevda kvaliteten i ett subjektivt test – ska ett MOS-värde endast redovisas om det sammanhang som värdena har samlats in i är känt och även redovisat. MOS-värden insamlade från olika sammanhang och testdesigner bör därför inte jämföras direkt. Rekommendation ITU-T P.800.2 föreskriver hur MOS-värden ska rapporteras. Specifikt säger P.800.2:
det är inte meningsfullt att direkt jämföra MOS-värden som producerats från separata experiment, såvida inte dessa experiment uttryckligen utformats för att jämföras, och även då bör data analyseras statistiskt för att säkerställa att en sådan jämförelse är giltig.
MOS för uppskattning av tal- och ljudkvalitet
MOS härstammar historiskt från subjektiva mätningar där lyssnare satt i ett "tyst rum" och fick en telefonsamtalskvalitet som de uppfattade det. Denna typ av testmetodik hade använts i telefonibranschen i decennier och standardiserades i rekommendation ITU-T P.800 . Den specificerar att "talaren ska sitta i ett tyst rum med en volym mellan 30 och 120 m³ och en efterklangstid på mindre än 500 ms (helst i intervallet 200–300 ms). Rumsljudnivån måste vara under 30 dBA utan ingen dominerande toppar i spektrumet." Krav för andra modaliteter specificerades på liknande sätt i senare ITU-T-rekommendationer.
MOS-uppskattning med kvalitetsmodeller
Att få MOS-betyg kan vara tidskrävande och dyrt eftersom det kräver rekrytering av mänskliga bedömare. För olika användningsfall som codec-utveckling eller övervakning av tjänstens kvalitet – där kvalitet bör uppskattas upprepade gånger och automatiskt – kan MOS-poäng också förutsägas av objektiva kvalitetsmodeller , som vanligtvis har utvecklats och tränats med hjälp av mänskliga MOS-betyg. En fråga som uppstår när man använder sådana modeller är om de producerade MOS-skillnaderna är märkbara för användarna. Till exempel, när man betygsätter bilder på en fempunkts MOS-skala, förväntas en bild med MOS lika med 5 ha märkbart bättre kvalitet än en med MOS lika med 1. I motsats till det är det inte uppenbart om en bild med en MOS lika med 3.8 är märkbart bättre i kvalitet än en med en MOS lika med 3.6. Forskning utförd för att fastställa den minsta MOS-skillnad som är märkbar för användare för digitala fotografier visade att en MOS-skillnad på cirka 0,46 krävs för att 75 % av användarna ska kunna upptäcka bilden med högre kvalitet. Ändå förändras bildkvalitetsförväntningarna, och därmed MOS, över tiden med ändrade användarförväntningar. Som ett resultat kan minsta märkbara MOS-skillnader som bestäms med hjälp av analytiska metoder som i ändras över tiden.
Se även
- Absolut kategoribetyg
- Likert skala
- MUSHRA (Rekommendation ITU-R BS.1534)
- Objektiv videokvalitet
- Subjektiv videokvalitet