Förklarlig artificiell intelligens

Explainable AI ( XAI ), eller Interpretable AI , eller Explainable Machine Learning ( XML ), är artificiell intelligens (AI) där människor kan förstå de beslut eller förutsägelser som AI gör. Det står i kontrast till " svarta lådan "-konceptet inom maskininlärning där inte ens dess designers kan förklara varför en AI kom fram till ett specifikt beslut. Genom att förfina de mentala modellerna för användare av AI-drivna system och ta bort deras missuppfattningar, lovar XAI att hjälpa användare att prestera mer effektivt. XAI kan vara en implementering av den sociala rätten till förklaring . XAI är relevant även om det inte finns några lagliga rättigheter eller regulatoriska krav. Till exempel kan XAI förbättra användarupplevelsen av en produkt eller tjänst genom att hjälpa slutanvändare att lita på att AI:n fattar bra beslut. På så sätt är syftet med XAI att förklara vad som har gjorts, vad som görs just nu, vad som kommer att göras härnäst och avslöja informationen som åtgärderna bygger på. Dessa egenskaper gör det möjligt (i) att bekräfta befintlig kunskap (ii) att utmana befintlig kunskap och (iii) att generera nya antaganden.

Algoritmerna som används i AI kan differentieras i white-box- och black-box- maskininlärningsalgoritmer (ML). White-box-modeller är ML-modeller som ger resultat som är begripliga för experter inom området. Black-box-modeller, å andra sidan, är extremt svåra att förklara och kan knappast förstås ens av domänexperter. XAI-algoritmer anses följa de tre principerna transparens, tolkningsbarhet och förklarabarhet. Transparens ges "om processerna som extraherar modellparametrar från träningsdata och genererar etiketter från testdata kan beskrivas och motiveras av tillvägagångssättsdesignern". Tolkbarhet beskriver möjligheten att förstå ML-modellen och presentera det bakomliggande beslutsunderlaget på ett sätt som är begripligt för människor. Förklarbarhet är ett begrepp som anses viktigt, men en gemensam definition är ännu inte tillgänglig. Det föreslås att förklaringsbarhet i ML kan betraktas som "samlingen av egenskaper hos den tolkningsbara domänen, som har bidragit till att ett givet exempel producerat ett beslut (t.ex. klassificering eller regression)". Om algoritmer uppfyller dessa krav ger de underlag för att motivera beslut, spåra och därmed verifiera dem, förbättra algoritmerna och utforska nya fakta.

Ibland är det också möjligt att uppnå ett resultat med hög noggrannhet med en white-box ML-algoritm som är tolkbar i sig. Detta är särskilt viktigt inom domäner som medicin, försvar, finans och juridik, där det är avgörande att förstå besluten och bygga upp förtroende för algoritmerna. Många forskare hävdar att, åtminstone för övervakad maskininlärning, vägen framåt är symbolisk regression , där algoritmen söker i utrymmet för matematiska uttryck för att hitta den modell som bäst passar en given datamängd.

AI-system optimerar beteendet för att tillfredsställa ett matematiskt specificerat målsystem som valts av systemdesignerna, till exempel kommandot "maximera noggrannheten för att bedöma hur positiva filmrecensioner är i testdatauppsättningen". AI:n kan lära sig användbara allmänna regler från testsetet, som "recensioner som innehåller ordet "hemsk" kommer sannolikt att vara negativa". Men det kan också lära sig olämpliga regler, såsom "recensioner som innehåller ' Daniel Day-Lewis ' är vanligtvis positiva"; sådana regler kan vara oönskade om de bedöms sannolikt misslyckas med att generalisera utanför tågsättet, eller om folk anser att regeln är "fusk" eller "orättvis". En människa kan granska regler i en XAI för att få en uppfattning om hur sannolikt systemet är att generalisera till framtida verkliga data utanför testsetet.

Mål

Samarbete mellan agenter , i detta fall algoritmer och människor, beror på förtroende. Om människor ska acceptera algoritmiska recept måste de lita på dem. Ofullständighet i formaliseringen av förtroendekriterier är ett hinder för enkla optimeringsmetoder. Av den anledningen ställs transparens, tolkningsbarhet och förklarabarhet som delmål för att kontrollera andra kriterier. Detta är särskilt relevant inom medicin, särskilt kliniska beslutsstödssystem (CDSS), där medicinsk personal bör kunna förstå hur och varför ett maskinbaserat beslut har fattats för att kunna lita på beslutet och förstärka deras beslutsprocess.

AI-system lär sig ibland oönskade knep som gör ett optimalt jobb med att tillfredsställa explicita förprogrammerade mål på träningsdata, men som inte återspeglar de komplicerade implicita önskemålen hos de mänskliga systemdesignerna. Till exempel lärde sig ett system från 2017 med bildigenkänning att "fuska" genom att leta efter en copyright-tagg som råkade vara associerad med hästbilder, snarare än att lära sig att se om en häst faktiskt var avbildad. I ett annat 2017-system lärde sig en övervakad inlärnings -AI med uppgift att greppa föremål i en virtuell värld att fuska genom att placera sin manipulator mellan objektet och betraktaren på ett sätt så att det felaktigt verkade fatta objektet.

Ett transparensprojekt, DARPA XAI-programmet, syftar till att producera "glaslåda"-modeller som kan förklaras för en "människa-i-slingan", utan att i någon större utsträckning offra AI-prestanda. Mänskliga användare bör kunna förstå AI:s kognition (både i realtid och i efterhand), och bör kunna avgöra när de ska lita på AI:n och när AI:n ska vara misstroende. Andra tillämpningar av XAI är kunskapsextraktion från black-box-modeller och modelljämförelser. Termen "glaslåda" har också använts för verktyg som övervakar input och output från ett system, i syfte att verifiera systemets efterlevnad av etiska och sociorättsliga värderingar och därför producera värdebaserade förklaringar. Vidare har samma term använts för att namnge en röstassistent som producerar kontrafaktiska påståenden som förklaringar.

Historia och metoder

Under 1970-talet till 1990-talet utforskades symboliska resonemangssystem, såsom MYCIN , GUIDON, SOPHIE och PROTOS som kunde representera, resonera kring och förklara deras resonemang för diagnostiska, instruktions- eller maskininlärningsändamål (förklaringsbaserad inlärning ) . MYCIN, utvecklad i början av 1970-talet som en forskningsprototyp för att diagnostisera bakteriemiinfektioner i blodomloppet, kunde förklara vilka av dess handkodade regler som bidrog till en diagnos i ett specifikt fall. Forskning i intelligenta handledningssystem resulterade i att utveckla system som SOPHIE som kunde fungera som en "artikulerad expert", förklara problemlösningsstrategi på en nivå som studenten kunde förstå, så att de skulle veta vad de skulle göra härnäst. Till exempel kunde SOPHIE förklara det kvalitativa resonemanget bakom sin elektronikfelsökning, även om den i slutändan förlitade sig på SPICE- kretssimulatorn. På samma sätt lade GUIDON till handledningsregler för att komplettera MYCINs regler på domännivå så att det kunde förklara strategin för medicinsk diagnos. Symboliska förhållningssätt till maskininlärning, särskilt de som förlitade sig på förklaringsbaserad inlärning, såsom PROTOS, förlitade sig uttryckligen på representationer av förklaringar, både för att förklara deras handlingar och för att skaffa ny kunskap.

Under 1980-talet till början av 1990-talet utvecklades sanningsunderhållssystem (TMS) för att utöka kapaciteten hos kausala resonemang, regelbaserade och logikbaserade slutledningssystem. En TMS agerar för att explicit spåra alternativa resonemang, motiveringar för slutsatser och resonemang som leder till motsägelser, vilket tillåter framtida resonemang att undvika dessa återvändsgränder. För att ge förklaringar spårar de resonemang från slutsatser till antaganden genom regeloperationer eller logiska slutledningar, vilket gör att förklaringar kan genereras från resonemangsspåren. Som ett exempel, överväg en regelbaserad problemlösare med bara några regler om Sokrates som drar slutsatsen att han har dött av gift:

Genom att bara spåra genom beroendestrukturen kan problemlösaren konstruera följande förklaring: "Sokrates dog för att han var dödlig och drack gift, och alla dödliga dör när de dricker gift. Sokrates var dödlig för att han var en man och alla människor är dödliga. Sokrates drack gift för att han hade en oliktänkande, regeringen var konservativ, och de som hade en konservativ oliktänkande under konservativa regeringar måste dricka gift."

På 1990-talet började forskare också studera om det är möjligt att på ett meningsfullt sätt extrahera de icke-handkodade regler som genereras av ogenomskinliga tränade neurala nätverk. Forskare inom kliniska expertsystem som skapar neuralt nätverksdrivet beslutsstöd för kliniker har försökt utveckla dynamiska förklaringar som gör att dessa teknologier blir mer pålitliga och trovärdiga i praktiken. På 2010-talet kan allmänhetens oro över ras och annan fördom i användningen av AI för straffrättsliga beslut och fynd om kreditvärdighet ha lett till ökad efterfrågan på transparent artificiell intelligens. Som ett resultat utvecklar många akademiker och organisationer verktyg för att upptäcka fördomar i sina system.

Marvin Minsky et al. tog upp frågan om att AI kan fungera som en form av övervakning, med de fördomar som är inneboende i övervakning, och föreslår HI (Humanistic Intelligence) som ett sätt att skapa en mer rättvis och balanserad "mänsklig-i-slingan" AI.

Moderna komplexa AI-tekniker, som djupinlärning och genetiska algoritmer är naturligt ogenomskinliga. För att komma till rätta med denna fråga har det skett en utveckling av många nya metoder för att göra nya modeller mer förklarliga och tolkbara. Detta inkluderar många metoder, såsom Layerwise Relevance Propagation (LRP), en teknik för att bestämma vilka egenskaper i en viss indatavektor som bidrar starkast till ett neuralt nätverks utdata. Andra tekniker har utvecklats för att förklara en viss förutsägelse gjord av en (icke-linjär) black-box-modell, ett mål som kallas "lokal tolkningsbarhet". Det är värt att notera att blotta införlivandet av begreppen lokal tolkning till ett avlägset sammanhang (där black-box-modellen utförs hos en tredje part) för närvarande är under granskning.

Dessutom har det arbetats med att göra glasboxmodeller som är mer genomskinliga för inspektion. Detta inkluderar beslutsträd, Bayesianska nätverk , glesa linjära modeller och mer. Association of Computing Machinery Conference on Fairness, Accountability, and Transparency (ACM FAccT) bildades 2018 för att studera transparens och förklarabarhet i samband med sociotekniska system, av vilka många inkluderar artificiell intelligens.

Vissa tekniker tillåter visualiseringar av de ingångar som enskilda mjukvarunuroner reagerar starkast på. Flera grupper har funnit att neuroner kan aggregeras till kretsar som utför mänskligt begripliga funktioner, av vilka några tillförlitligt uppstår över olika nätverk som tränas oberoende.

På en högre nivå finns det olika tekniker för att extrahera komprimerade representationer av egenskaperna hos givna indata, som sedan kan analyseras med vanliga klustringstekniker . Alternativt kan nätverk tränas att mata ut språkliga förklaringar av sitt beteende, som sedan är direkt mänskliga tolkbara. Modellbeteende kan också förklaras med hänvisning till träningsdata – till exempel genom att utvärdera vilka träningsinsatser som påverkade ett givet beteende mest.

förordning

Eftersom tillsynsmyndigheter, officiella organ och allmänna användare blir beroende av AI-baserade dynamiska system, kommer det att krävas tydligare ansvarsskyldighet för automatiserade beslutsprocesser för att säkerställa förtroende och transparens. Bevis på att detta krav tar mer fart kan ses med lanseringen av den första globala konferensen exklusivt tillägnad denna framväxande disciplin, den internationella gemensamma konferensen om artificiell intelligens : Workshop om Explainable Artificial Intelligence (XAI).

Europeiska unionen införde en rätt till förklaring i den allmänna dataskyddsrätten (GDPR) som ett försök att hantera de potentiella problem som härrör från den ökande betydelsen av algoritmer. Implementeringen av förordningen påbörjades 2018. Rätten till förklaring i GDPR omfattar dock endast den lokala aspekten av tolkningsbarhet. I USA krävs att försäkringsbolagen kan förklara sina beslut om ränta och täckning. I Frankrike Loi pour une République numérique (lagen om den digitala republiken) försökspersoner rätten att begära och få information om implementeringen av algoritmer som behandlar data om dem.

Begränsningar

Trots ansträngningar för att öka AI-modellernas förklaringsbarhet har de fortfarande ett antal begränsningar.

Motstridiga partier

Genom att göra ett AI-system mer förklarligt avslöjar vi också mer av dess inre funktioner. Till exempel identifierar förklaringsmetoden av särdragsviktiga egenskaper eller variabler som är viktigast för att bestämma modellens utdata, medan metoden för inflytelserika sampel identifierar de träningsprover som är mest inflytelserika för att bestämma utdata, givet en viss indata. Det finns dock ett antal motståndare som skulle kunna dra nytta av denna kunskap.

Till exempel kan konkurrerande företag replikera aspekter av det ursprungliga AI-systemet i sin egen produkt, vilket minskar konkurrensfördelar. Ett förklarligt AI-system är också känsligt för olika parter att "spela" systemet, eller påverka produktionen på ett sätt som undergräver det avsedda syftet. En studie ger exemplet med ett prediktivt polissystem; i det här fallet är de som potentiellt skulle kunna "spela" systemet de brottslingar som är föremål för systemets beslut. I den här studien diskuterade utvecklarna av systemet frågan om kriminella gäng som vill skaffa pass olagligt, och de uttryckte oro över att om de fick en uppfattning om vilka faktorer som skulle kunna utlösa en varning i passansökningsprocessen, skulle dessa gäng kunna " skicka marsvin" för att testa dessa utlösare, och så småningom hitta ett kryphål som skulle tillåta dem att "på ett tillförlitligt sätt få pass under näsan på myndigheterna".

Teknisk komplexitet

En grundläggande barriär för att göra AI-system förklarliga i första hand är den tekniska komplexiteten hos sådana system. Slutanvändare saknar ofta till och med den nödvändiga kodningskunskap som krävs för att förstå programvara av något slag. Nuvarande metoder som används för att förklara AI är huvudsakligen tekniska sådana, inriktade på maskininlärningsingenjörer för felsökningsändamål, snarare än slutanvändarna som i slutändan påverkas av systemet, vilket orsakar "en klyfta mellan förklarbarhet i praktiken och målet för transparens". Föreslagna lösningar för att ta itu med frågan om teknisk komplexitet inkluderar antingen främjande av kodningsutbildning för allmänheten som skulle göra tekniska förklaringar mer tillgängliga för slutanvändare, eller att utveckla en utåtvänd komponent som skulle ge förklaringar i lekmannatermer.

Oavsett lösning måste den dock undvika fallgropen med alltför förenkling. Det är viktigt att hitta en balans mellan noggrannhet – hur troget återspeglar förklaringen den faktiska processen i AI-systemet – och förklaringsbarhet – hur väl slutanvändare förstår processen. Detta är dock en svår balansgång, eftersom komplexiteten i maskininlärning gör det svårt för även ML-ingenjörer att helt förstå, än mindre för icke-experter.

Förståelse kontra tillit

Målet med förklaringsbarhet för slutanvändare av AI-system är i slutändan att öka förtroendet för systemet, till och med "ta itu med farhågor om bristande 'rättvisa' och diskriminerande effekter". Men även med en god förståelse för ett AI-system kan slutanvändare inte nödvändigtvis lita på systemet. I en studie presenterades deltagarna för kombinationer av white-box- och black-box-förklaringar och statiska och interaktiva förklaringar av AI-system. Även om dessa förklaringar tjänade till att öka både deras självrapporterade och objektiva förståelse, hade det ingen inverkan på deras förtroendenivå, som förblev skeptisk.

Detta resultat gällde särskilt för beslut som påverkade slutanvändaren på ett betydande sätt, såsom antagning till forskarskolor. Deltagarna bedömde att algoritmer var för oflexibla och oförlåtande i jämförelse med mänskliga beslutsfattare; istället för att strikt följa en uppsättning regler kan människor överväga exceptionella fall och överklaga till deras ursprungliga beslut. Så för sådana beslut kommer förklaring inte nödvändigtvis att få slutanvändare att acceptera användningen av beslutsalgoritmer. Vi kommer att behöva antingen vända oss till en annan metod för att öka förtroendet och acceptansen för beslutsalgoritmer, eller ifrågasätta behovet av att förlita oss enbart på AI för sådana effektfulla beslut i första hand.

Kritik

Nyligen stipendier har föreslagit att strävan efter förklarbarhet i AI-tekniker bör betraktas som ett sekundärt mål till strävan efter AI:s effektivitet, och att uppmuntran till exklusiv utveckling av XAI kan begränsa AI-funktionaliteten mer allmänt. Kritik av XAI förlitar sig på utvecklade koncept av mekanistiskt och empiriskt resonemang från evidensbaserad medicin för att antyda att AI-tekniker kan valideras kliniskt även när deras funktion inte kan förstås av deras operatörer.

Dessutom har XAI-system i första hand fokuserat på att göra AI-system begripliga för AI-utövare snarare än för slutanvändare, och deras resultat på användarnas uppfattningar om dessa system har varit något fragmenterade. Vissa forskare har också förespråkat användningen av i sig tolkbara maskininlärningsmodeller, snarare än att använda post-hoc-förklaringar, där en andra modell skapas för att förklara den första. Detta beror dels på att post-hoc-modeller ökar komplexiteten i en beslutsväg och dels på att det ofta är oklart hur troget en post-hoc-förklaring kan efterlikna beräkningarna av en helt separat modell.

Analys av målen för XAI finner att det kräver en form av förlustkompression som kommer att bli mindre effektiv när AI-modeller växer i antalet parametrar, och i kombination med andra faktorer leder detta till en teoretisk gräns för förklaringsbarhet.

Se även

externa länkar