Perceptuell baserad 3D-ljudlokalisering
Perceptuell baserad 3D-ljudlokalisering är tillämpningen av kunskap om det mänskliga hörselsystemet för att utveckla 3D-ljudlokaliseringsteknik .
Motivation och tillämpningar
Mänskliga lyssnare kombinerar information från två öron för att lokalisera och separera ljudkällor som har sitt ursprung på olika platser i en process som kallas binaural hörsel. De kraftfulla signalbehandlingsmetoder som finns i nervsystemet och hjärnan hos människor och andra djur är flexibla, miljömässigt anpassningsbara och sker snabbt och till synes utan ansträngning. Att emulera mekanismerna för binaural hörsel kan förbättra igenkänningsnoggrannheten och signalseparationen i DSP- algoritmer, särskilt i bullriga miljöer. Dessutom, genom att förstå och utnyttja biologiska mekanismer för ljudlokalisering, kan virtuella ljudscener återges med mer perceptuellt relevanta metoder, vilket gör det möjligt för lyssnare att korrekt uppfatta lokaliseringen av auditiva händelser. Ett sätt att erhålla den perceptuella ljudlokaliseringen är från de sparsamma approximationerna av de antropometriska egenskaperna. Perceptuellt baserad ljudlokalisering kan användas för att förbättra och komplettera robotnavigering och miljöigenkänning. Dessutom används den också för att skapa virtuella auditiva utrymmen som är allmänt implementerad i hörapparater.
Problembeskrivning och grundläggande begrepp
Även om förhållandet mellan människans uppfattning av ljud och olika attribut i ljudfältet ännu inte är väl förstått, kan DSP- algoritmer för ljudlokalisering använda flera mekanismer som finns i neurala system, inklusive den interaurala tidsskillnaden (ITD, skillnaden i ankomsttid). av ett ljud mellan två platser), den interaurala intensitetsskillnaden (IID, skillnaden i intensitet för ett ljud mellan två platser), artificiella ryggar , precedenseffekten och huvudrelaterade överföringsfunktioner (HRTF). När man lokaliserar 3D-ljud i rumslig domän kan man ta hänsyn till att den inkommande ljudsignalen kan reflekteras, diffrakteras och sprids av människans övre bål som består av axlar, huvud och ryggar . Lokaliseringen beror också på ljudkällans riktning.
HATTAR: Head and Torso Simulator
Brüel's & Kjær's Head And Torso Simulator ( HATS) är en mannekängprototyp med inbyggda öron- och munsimulatorer som ger en realistisk återgivning av de akustiska egenskaperna hos ett genomsnittligt vuxet människohuvud och bål. Den är designad för att användas i elektroakustiktester, till exempel headset, ljudkonferensenheter, mikrofoner, hörlurar och hörapparater. Olika befintliga tillvägagångssätt är baserade på denna strukturella modell.
Befintliga tillvägagångssätt
Partikelbaserad spårning
Det är väsentligt att kunna analysera avstånd och intensitet hos olika källor i en rumslig domän. Vi kan spåra varje sådan ljudkälla genom att använda en probabilistisk tidsintegrering, baserad på data som erhålls genom en mikrofonuppsättning och en partikelfiltrerande spårare. Med detta tillvägagångssätt representeras sannolikhetstäthetsfunktionen (PDF) som representerar platsen för varje källa som en uppsättning partiklar till vilka olika vikter (sannolikheter) tilldelas. Valet av partikelfiltrering framför Kalmanfiltrering motiveras ytterligare av de icke-gaussiska sannolikheterna som uppstår från falska upptäckter och flera källor.
ITD, ILD och IPD
Enligt duplexteorin har ITD:er ett större bidrag till lokaliseringen av lågfrekventa ljud (under 1 kHz), medan ILD:er används vid lokalisering av högfrekvent ljud. Dessa tillvägagångssätt kan tillämpas på selektiva rekonstruktioner av rumsliga signaler, där spektrotemporala komponenter som tros domineras av den önskade ljudkällan identifieras och isoleras genom Short-time Fourier transform (STFT). Moderna system beräknar typiskt STFT för den inkommande signalen från två eller flera mikrofoner och uppskattar ITD eller varje spektrotemporal komponent genom att jämföra faserna för STFT:erna. En fördel med detta tillvägagångssätt är att det kan generaliseras till mer än två mikrofoner, vilket kan förbättra noggrannheten i 3 dimensioner och ta bort oklarheten för lokalisering fram och bak som uppstår med endast två öron eller mikrofoner. En annan fördel är att ITD är relativt stark och lätt att erhålla utan biomimetiska instrument som dummyhuvuden och konstgjorda ryggar, även om dessa fortfarande kan användas för att öka amplitudskillnaderna. HRTF- fassvaret är mestadels linjärt och lyssnarna är okänsliga för detaljerna i det interaurala fasspektrumet så länge som den interaurala tidsfördröjningen (ITD) för den kombinerade lågfrekventa delen av vågformen bibehålls.
Interaurala nivåskillnader (ILD) representerar skillnaden i ljudtrycksnivå som når de två öronen. De ger framträdande ledtrådar för att lokalisera högfrekventa ljud i rymden, och populationer av neuroner som är känsliga för ILD finns på nästan alla synaptiska nivåer från hjärnstam till cortex. Dessa celler exciteras huvudsakligen genom stimulering av ett öra och övervägande inhiberade av stimulering av det andra örat, så att storleken på deras svar till stor del bestäms av intensiteterna vid de två öronen. Detta ger upphov till begreppet resonansdämpning. Interaural nivåskillnad (ILD) är bäst för högfrekventa ljud eftersom lågfrekventa ljud inte dämpas mycket av huvudet. ILD (även känd som Interaural Intensity Difference) uppstår när ljudkällan inte är centrerad, lyssnarens huvud skuggar delvis örat mitt emot källan, vilket minskar intensiteten av ljudet i det örat (särskilt vid högre frekvenser). Pinnae filtrerar ljudet på ett sätt som är riktningsberoende . Detta är särskilt användbart för att avgöra om ett ljud kommer ovanifrån, under, framför eller bakom.
Interaurala tids- och nivåskillnader (ITD, ILD) spelar en roll i azimutuppfattning men kan inte förklara vertikal lokalisering. Enligt duplexteorin har ITD:er ett större bidrag till lokaliseringen av lågfrekventa ljud (under 1 kHz), medan ILD:er används för lokalisering av högfrekvent ljud. ILD uppstår från det faktum att ett ljud som kommer från en källa på ena sidan av huvudet kommer att ha en högre intensitet, eller vara högre, vid örat närmast ljudkällan. Man kan därför skapa illusionen av en ljudkälla som kommer från ena sidan av huvudet genom att bara justera den relativa nivån av ljuden som matas till två separerade högtalare eller hörlurar. Detta är grunden för den vanligen använda panoreringskontrollen.
Interaural Phase Difference (IPD) hänvisar till skillnaden i fasen för en våg som når varje öra, och är beroende av ljudvågens frekvens och interaurala tidsskillnader (ITD).
När hjärnan har analyserat IPD, ITD och ILD kan platsen för ljudkällan bestämmas med relativ noggrannhet.
Företrädeseffekt
Prioritetseffekten är observationen att ljudlokalisering kan domineras av komponenterna i ett komplext ljud som är de första som kommer. Genom att tillåta direktfältskomponenterna (de som kommer direkt från ljudkällan) att dominera samtidigt som påverkan av fördröjda reflekterade komponenter från andra riktningar undertrycks, kan prioritetseffekten förbättra noggrannheten hos den upplevda ljudplatsen i en efterklangande miljö. Bearbetning av prioritetseffekten innebär att förstärka framkanten av ljudenveloppen för signalen efter att ha delat upp den i frekvensband via bandpassfiltrering. Detta tillvägagångssätt kan göras på mononivå såväl som på binaural nivå, och förbättrar noggrannheten i ekomiljöer i båda fallen. Fördelarna med att använda prioritetseffekten kan dock bryta ner i en ekofri miljö.
HRTF:er
Kroppen hos en mänsklig lyssnare blockerar inkommande ljudvågor, vilket orsakar linjär filtrering av ljudsignalen på grund av störningar från huvudet, öronen och kroppen. Människor använder dynamiska signaler för att förstärka lokalisering. Dessa uppstår från aktiva, ibland omedvetna, rörelser hos lyssnaren, som ändrar källans relativa position. Det rapporteras att fram- och bakförvirringar som är vanliga i statiska lyssningstester försvinner när lyssnare tillåts vända på huvudet något för att hjälpa dem att lokalisera. Men om ljudscenen presenteras genom hörlurar utan kompensation för huvudrörelser, ändras inte scenen med användarens rörelse, och dynamiska signaler saknas.
Huvudrelaterade överföringsfunktioner innehåller alla deskriptorer för lokaliseringssignaler som ITD och IID såväl som monosignaler. Varje HRTF representerar unikt överföringen av ljud från en specifik position i 3D-rymden till lyssnarens öron. Avkodningsprocessen som utförs av hörselsystemet kan imiteras med hjälp av en artificiell uppställning bestående av två mikrofoner, två konstgjorda öron och en HRTF-databas. viks öroninsignalerna med inverserna av alla möjliga HRTF-par, där den korrekta inversen maximerar korskorrelationen mellan de konvolverade höger- och vänstersignalerna. I fallet med flera samtidiga ljudkällor kan överföringen av ljud från källan till öronen betraktas som en multipel ingång och multipel utmatning . Här kan de HRTF:er som källsignalerna filtrerades med på väg till mikrofonerna hittas med metoder som konvolutiv blind källseparation, vilket har fördelen av effektiv implementering i realtidssystem. Sammantaget kan dessa tillvägagångssätt med HRTF:er optimeras väl för att lokalisera flera rörliga ljudkällor. Den genomsnittliga människan har den anmärkningsvärda förmågan att lokalisera en ljudkälla med bättre än 5 ◦ noggrannhet i både azimut och höjd, i utmanande miljöer. [ citat behövs ]