Trollkarlen från Oz experiment

Inom området människa–datorinteraktion är ett Wizard of Oz- experiment ett forskningsexperiment där försökspersoner interagerar med ett datorsystem som försökspersonerna tror är autonoma, men som faktiskt drivs eller delvis drivs av en osynlig människa .

Begrepp

Frasen Wizard of Oz (ursprungligen OZ Paradigm ) har kommit till allmän användning inom områdena experimentell psykologi , mänskliga faktorer, ergonomi , lingvistik och användbarhetsteknik för att beskriva en testning eller iterativ designmetod där en experimenterare ("trollkarlen"), i en laboratoriemiljö, simulerar beteendet hos en teoretisk intelligent datorapplikation (ofta genom att gå in i ett annat rum och avlyssna all kommunikation mellan deltagare och system). Ibland görs detta med deltagarens förkunskaper och ibland är det ett bedrägeri på låg nivå som används för att hantera deltagarens förväntningar och uppmuntra naturliga beteenden.

Till exempel kan en testdeltagare tro att de kommunicerar med en dator med hjälp av ett talgränssnitt, när deltagarens ord faktiskt skrivs in i datorn i hemlighet av en person i ett annat rum ("trollkarlen") och bearbetas som en textström, snarare än som en ljudström. Den saknade systemfunktionaliteten som guiden tillhandahåller kan implementeras i senare versioner av systemet (eller kan till och med vara spekulativa funktioner som dagens system inte har), men dess exakta detaljer anses generellt vara irrelevanta för studien. I testsituationer kan målet med sådana experiment vara att observera användningen och effektiviteten av ett föreslaget användargränssnitt av testdeltagarna, snarare än att mäta kvaliteten på ett helt system.

Ursprung

Namnet på experimentet kommer från historien om The Wonderful Wizard of Oz , där en vanlig man gömmer sig bakom en gardin och låtsas, genom att använda "förstärkande" teknik, för att vara en kraftfull trollkarl .

John F. ("Jeff") Kelley myntade fraserna "Wizard of OZ" och "OZ Paradigm" för detta ändamål cirka 1980 för att beskriva den metod han utvecklade under sitt avhandlingsarbete vid Johns Hopkins University . ^{[ Citat behövs ]} (Hans avhandlingsrådgivare var den framlidne professorn Alphonse Chapatis , "Gudfadern för mänskliga faktorer och ingenjörspsykologi".) Roligt nog, förutom några enkelriktade speglar och sådant, fanns det bokstavligen en mörkläggningsgardin som skilde Jeff åt, som "Trollkarlen", från deltagarens syn under studien.

Tekniken "Experimenter-in-the-Loop" hade varit pionjär vid Chapatis' Communications Research Lab vid Johns Hopkins så tidigt som 1975 (JF Kelley anlände 1978). W. Randolph Ford använde experimenter-in-the-loop-tekniken med sitt innovativa CHECKBOOK-program där han fick språkprover i en naturalistisk miljö. I Fords metod skulle en preliminär version av det naturliga språkbehandlingssystemet placeras framför användaren. När användaren angav en syntax som inte kändes igen, fick de ett "Kan du omformulera det?" uppmaning från programvaran. Efter sessionen skulle algoritmerna för bearbetning av de nyligen erhållna proverna skapas eller förbättras och ytterligare en session skulle äga rum. Detta tillvägagångssätt ledde till den slutliga utvecklingen av hans naturliga språkbehandlingsteknik, "Multi-Stage Pattern Reduction". Dr. Fords minne var att Dr. Kelley faktiskt myntade frasen "Wizard of Oz Paradigm", men att tekniken hade använts i minst två separata studier innan Dr. Kelley hade börjat genomföra studier vid Johns Hopkins Telecommunications Lab. En liknande tidig användning av tekniken för att modellera ett naturligt språkförståelsesystem som utvecklas vid Xerox Palo Alto Research Center gjordes av Allen Munro och Don Norman omkring 1975 vid University of California, San Diego. Återigen, namnet "Wizard of Oz" hade ännu inte tillämpats på denna teknik. Resultaten publicerades i en uppsats från 1977 av teamet (Bobrow, et al.).

I den anställningen satt försöksledaren ("Trollkarlen") vid en terminal i ett angränsande rum åtskilda av en enkelriktad spegel så att försökspersonen kunde observeras. Varje input från användaren bearbetades korrekt av en kombination av mjukvarubearbetning och realtidsexperimenterarintervention. När processen upprepades i efterföljande sessioner lades fler och fler programvarukomponenter till så att försöksledaren hade mindre och mindre att göra under varje session tills asymptotisk uppnåddes vid tillväxt av fras-/ordordbok och försöksledaren kunde "gå och ta en kopp kaffe ” under sessionen (som vid det här laget var en korsvalidering av det slutliga systemets oövervakade prestanda).

En sista punkt: Dr Kelleys minne av termens mynt stöds av den avlidne professorn Al Chapanis. I sin tekniska rapport från University of Michigan från 1985 anger Green och Wei-Haas följande: Det första uppträdandet av "Wizard of Oz"-namnet i tryck var i Jeff Kellys avhandling (Kelley, 1983a, 1983b, 1984a). Man tror att namnet myntades som svar på en fråga vid ett examensseminarium på Hopkins (Chapanis, 1984; Kelley, 1984b). "Vad händer om försökspersonen ser försöksledaren [bakom "gardinen" i ett angränsande rum som fungerar som datorn]?" Kelley svarade: "Tja, det är precis som det som hände med Dorothy i Trollkarlen från Oz." Och så fastnade namnet. (Citerat med tillstånd.)

Det finns också en förbigående hänvisning till planerad användning av "Trollkarlen från Oz-experimenten" i ett förfarande från 1982 av Ford och Smith.

Ett faktum, som presenteras i Kelleys avhandling, om termens etymologi i detta sammanhang: Dr. Kelley hade ursprungligen en definition för "OZ"-förkortningen (bortsett från de uppenbara parallellerna med boken The Wonderful Wizard of Oz från 1900 av L Frank Baum ). "Offline Zero" var en referens till det faktum att en experimenterare ("Wizard") tolkade användarnas indata i realtid under simuleringsfasen.

Liknande experimentella uppsättningar hade ibland använts tidigare, men utan "Wizard of Oz"-namnet. Designforskaren Nigel Cross genomförde studier på 1960-talet med "simulerade" datorstödda designsystem där den påstådda simulatorn faktiskt var en mänsklig operatör, med hjälp av text och grafisk kommunikation via CCTV . Som han förklarade, "Allt som användaren uppfattar av systemet är denna fjärråtkomstkonsol, och resten är en svart låda för honom. ... man kan lika gärna fylla den svarta lådan med människor som med maskiner. Att göra det ger honom en jämförelsevis billig simulator, med de anmärkningsvärda fördelarna med den mänskliga operatörens flexibilitet, minne och intelligens, och som kan omprogrammeras för att ge ett brett utbud av datorroller bara genom att ändra reglerna för drift. Den saknar ibland den verkliga datorns hastighet och noggrannhet , men ett team av experter som arbetar samtidigt kan kompensera i tillräcklig grad för att ge en acceptabel simulering." Cross kallade senare detta som ett slags Reverse Turing-test .

Betydelse

Wizard of OZ-metoden är mycket kraftfull. I sin ursprungliga applikation kunde Dr. Kelley skapa ett enkelt tangentbordsinmatningssystem för naturligt språkigenkänning som vida översteg igenkänningsgraden för något av dagens mycket mer komplexa system. ^{[ citat behövs ]}

Tänkesättet bland många datavetare och lingvister på den tiden var att för att en dator skulle kunna "förstå" naturligt språk tillräckligt för att kunna hjälpa till med användbara uppgifter, måste programvaran vara kopplad till en formidabel " ordbok” med ett stort antal kategorier för varje ord. Kategorierna skulle möjliggöra en mycket komplex analysalgoritm för att reda ut de oklarheter som finns i naturligt framställda språk. Den skrämmande uppgiften att skapa en sådan ordbok fick många att tro att datorer helt enkelt aldrig riktigt skulle "förstå" språk förrän de kunde "uppfostras" och "uppleva livet" som människor, eftersom människor verkar använda livets erfarenheter på tolkningen av språket. ^{[ citat behövs ]}

Den viktigaste möjliggörande faktorn för den första användningen av OZ-metoden var att systemet designades för att fungera i ett enda sammanhang (kalenderhållning), vilket begränsade komplexiteten i språket som möter användare i den utsträckning där en enkel språkbehandlingsmodell var tillräcklig för att uppfylla målen för ansökan. Bearbetningsmodellen var ett tillvägagångssätt för matchning av sökord/nyckelfras med två pass, löst baserat på de algoritmer som används i Weizenbaums berömda Eliza -program. Genom att få deltagarna att generera språkprover i samband med att lösa en faktisk uppgift (med en dator som de trodde faktiskt förstod vad de skrev), reducerades variationen och komplexiteten i de insamlade lexikaliska strukturerna avsevärt och enkla sökordsmatchningsalgoritmer kunde utvecklas för att ta itu med det faktiska insamlade språket. ^{[ citat behövs ]}

Denna första användning av OZ var i samband med en iterativ designstrategi . Under de tidiga utvecklingssessionerna simulerade försöksledaren systemet i toto , utförde alla databasfrågor och komponerade alla svar till deltagarna för hand. När processen mognade kunde försöksledaren ersätta mänskliga ingrepp, bit för bit, med nyutvecklad kod (som, vid varje fas, utformades för att korrekt bearbeta alla indata som genererades i föregående steg). I slutet av processen kunde försöksledaren observera sessionerna i ett "hands-off"-läge (och mäta igenkänningsfrekvensen för det avslutade programmet). ^{[ citat behövs ]}

OZ var viktigt eftersom det tog upp den uppenbara kritiken att det skulle vara orealistiskt att använda en iterativ metod för att bygga ett separat naturligt språksystem (ordböcker, syntax) för varje nytt sammanhang (eftersom en sådan metod skulle kräva att man upprepade gånger lägger till nya strukturer och algoritmer för att hantera varje ny sats av ingångar). OZ:s empiriska tillvägagångssätt gjorde detta möjligt; i sin ursprungliga tillämpning nådde tillväxten av ordbok och syntax asymptotisk (uppnådde från 86 % till 97 % igenkänningsgrad, beroende på de mätningar som användes) efter endast 16 experimentella försök och det resulterande programmet, med ordböcker, var mindre än 300k kod.

Under de 23 åren som följde efter den första publiceringen har OZ-metoden använts i en mängd olika miljöer, särskilt i prototypframställning och användbarhetstester av föreslagna användargränssnittsdesigner innan verklig applikationsprogramvara på plats. ^{[ citat behövs ]}

Se även

Omvänd Turing-test - Ett Turing-test där målet eller rollerna mellan datorer och människor har vänts om
Kinesiskt rum - Ett tankeexperiment med en liknande premiss.
Turk - Wizard of Oz används som en falsk schackmaskin

Här är några av de ursprungliga (och efterföljande) referenserna i ämnet (metoden har plockats upp i många forskningsdomäner, och det finns många efterföljande referenser, varav bara ett fåtal listas här).

Sammanfattning av de tekniska aspekterna av arbetet:

Kelley, JF, "CAL - A Natural Language-program utvecklat med OZ Paradigm: Impplications for Supercomputing Systems". Första internationella konferensen om superdatorsystem (St. Petersburg, Florida, 16–20 december 1985), New York, ACM, s. 238–248.

Kort beskrivning av metoden:

Kelley, JF, "En empirisk metod för att skriva användarvänliga datorapplikationer för naturligt språk". Proceedings of ACM SIG-CHI '83 Human Factors in Computing systems (Boston, 12–15 december 1983), New York, ACM, s. 193-196. [1]

Den bästa beskrivningen av metoden:

Kelley, JF, "En iterativ designmetod för användarvänliga kontorsinformationsapplikationer för naturligt språk". ACM Transactions on Office Information Systems, mars 1984, 2:1, s. 26–41. [2]

Själva den opublicerade avhandlingen:

Kelley, JF, "Naturligt språk och datorer: Sex empiriska steg för att skriva en lättanvänd datorapplikation". Opublicerad doktorsavhandling, Johns Hopkins University, 1983. (Artikel 8321592 kan erhållas från University Microfilms International; 300 North Zeeb Road; Ann Arbor; Michigan; 48106; USA.)

University of California, San Diego arbete:

Bobrow, D., Kaplan, R., Kay, M., Norman, D., Thompson, H., & Winograd, T. (1977). GUS, ett ramdrivet dialogsystem. Artificiell intelligens, 8:2 (april 1977) 155-173., 8 (2), 155–173.

Efterföljande referenser och implementeringar (ett urval av cirka 30 år av citeringar):

Schieben, A., et al. 2009, "Theatre-system-tekniken: smidig design och testning av systembeteende och interaktion, tillämpad på högautomatiserade fordon." I samband med den första internationella konferensen om användargränssnitt för fordon och interaktiva fordonsapplikationer (Essen, Tyskland, 2009). ACM Press, New York, USA. [3]

Akers, D. 2006. Trollkarlen från Oz för deltagande design: uppfinna ett gestalt gränssnitt för 3D-val av uppskattningar av neurala vägar. I CHI '06 Extended Abstracts on Human Factors in Computing Systems (Montréal, Québec, Kanada, 22–27 april 2006). CHI '06. ACM Press, New York, USA, 454-459. [4]

Höysniemi, J., Hämäläinen, P., och Turkki, L. 2004. Wizard of Oz prototyper av datorseende baserade actionspel för barn. I Proceedings of the 2004 Conference on Interaction Design and Children: Building A Community (Maryland, 1–03 juni 2004). IDC '04. ACM Press, New York, USA, 27-34. [5]

Molin, L. 2004. Wizard-of-Oz prototyping för kooperativ interaktionsdesign av grafiska användargränssnitt. I Proceedings of the Third Nordic Conference on Human-Computer Interaction (Tammerfors, Finland, 23–27 oktober 2004). NordiCHI '04, vol. 82. ACM Press, New York, USA, 425-428. [6]

Lai, J. och Yankelovich, N. 2003. Konversationstalsgränssnitt. I Human-Computer Interaction Handbook: Fundamentals, Evolving Technologies and Emerging Applications, JA Jacko och A. Sears, Eds. ^{[ förtydligande behövs ]} Mänskliga faktorer och ergonomi. Lawrence Erlbaum Associates, Mahwah, New Jersey, USA, 698-713.

Gleicher, ML, Heck, RM och Wallick, MN 2002. Ett ramverk för virtuell videografi. I Proceedings of the 2nd international Symposium on Smart Graphics (Hawthorne, New York, 11–13 juni 2002). SMARTGRAPH '02, vol. 24. ACM Press, New York, USA, 9-16. [7]

Klemmer, SR, Sinha, AK, Chen, J., Landay, JA, Aboobaker, N. och Wang, A. 2000. Suede: a Wizard of Oz prototyping-verktyg för talanvändargränssnitt. I Proceedings of the 13th Annual ACM Symposium on User Interface Software and Technology (San Diego, Kalifornien, USA, 06–08 november 2000). UIST '00. ACM Press, New York, USA, 1-10. [8]

Hewett, Thomas T. (et al.), "Curricula for Human-Computer Interaction", ACM SIGCHI, 1992, 1996, kapitel 2. [ 9]

Piernot, PP, Felciano, RM, Stancel, R., Marsh, J. och Yvon, M. 1995. Designing the PenPal: blanda hårdvara och mjukvara i ett användargränssnitt för barn. I Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (Denver, Colorado, USA, 7–11 maj 1995). IR Katz, R. Mack, L. Marks, MB Rosson och J. Nielsen, red. ^{[ förtydligande behövs ]} Konferens om mänskliga faktorer i datorsystem. ACM Press/Addison-Wesley Publishing Co., New York, USA, 511–518. [10]

Prager, JM, Lamberti, DM, Gardner, DL och Balzac, SR 1990. REASON: en intelligent användarassistent för interaktiva miljöer. IBM Syst. J. 29, 1 (januari 1990), 141-164.

Dahlbäck, N. och Jönsson, A. 1989. Empiriska studier av diskursrepresentationer för naturliga språkgränssnitt. I Proceedings of the Fourth Conference on European Chapter av Association For Computational Linguistics (Manchester, England, 10–12 april 1989). Europeiska avdelningsmötet för ACL. Association for Computational Linguistics, Morristown, New Jersey, USA, 291–298. [11]

Carroll, J. och Aaronson, A. 1988. Lärande genom att göra med simulerad intelligent hjälp. Commun. ACM 31, 9 (aug. 1988), 1064-1079. [12]

Gould, JD och Lewis, C. 1985. Designa för användbarhet: nyckelprinciper och vad designers tycker. Commun. ACM 28, 3 (mars 1985), 300-311. [13]

Green, P. och Wei-Haas, L. 1985. Den snabba utvecklingen av användargränssnitt: Erfarenhet av Wizard of OZ-metoden. I Proceedings of the Human Factors and Ergonomics Society Annual Meeting, volym 29, nummer 5, 1985, s. 470 – 474 (5). [14]

Embley, DW och Kimbrell, RE 1985. En schemadriven frågeöversättare för naturligt språk. I Proceedings of the 1985 ACM Thirteenth Annual Conference on Computer Science (New Orleans, Louisiana, USA). CSC '85. ACM Press, New York, USA, 292–297. [15]

Good, MD, Whiteside, JA, Wixon, DR och Jones, SJ 1984. Bygga ett användarbaserat gränssnitt. Commun. ACM 27, 10 (okt. 1984), 1032–1043. [16]