A/B-testning

Exempel på A/B-testning på en webbplats. Genom att slumpmässigt betjäna besökare två versioner av en webbplats som endast skiljer sig åt i designen av ett enda knappelement, kan den relativa effektiviteten av de två designerna mätas.

A/B-testning (även känd som bucket testing , split-run testing eller split testing ) är en metod för undersökning av användarupplevelser . A/B-tester består av ett randomiserat experiment som vanligtvis involverar två varianter (A och B), även om konceptet även kan utvidgas till flera varianter av samma variabel. Det inkluderar tillämpning av statistisk hypotestestning eller " tvåprovshypotestestning " som används inom statistikområdet . A/B-testning är ett sätt att jämföra flera versioner av en enskild variabel , till exempel genom att testa en försökspersons svar på variant A mot variant B, och avgöra vilken av varianterna som är mer effektiv.

Översikt

"A/B-testning" är en förkortning för ett enkelt randomiserat kontrollerat experiment, där ett antal prover (t.ex. A och B) av en enskild vektorvariabel jämförs. Dessa värden liknar varandra förutom en variant som kan påverka en användares beteende. A/B-tester anses allmänt vara den enklaste formen av kontrollerat experiment, särskilt när de bara involverar två varianter. Men genom att lägga till fler varianter till testet växer dess komplexitet.

A/B-tester är användbara för att förstå användarnas engagemang och tillfredsställelse av onlinefunktioner som en ny funktion eller produkt. Stora sociala medier som LinkedIn , Facebook och Instagram använder A/B-tester för att göra användarupplevelser mer framgångsrika och som ett sätt att effektivisera sina tjänster.

Idag används A/B-tester även för att utföra komplexa experiment om ämnen som nätverkseffekter när användare är offline, hur onlinetjänster påverkar användarnas handlingar och hur användare påverkar varandra. A/B-testning används av bland annat dataingenjörer, marknadsförare, designers, mjukvaruingenjörer och entreprenörer. Många positioner förlitar sig på data från A/B-tester, eftersom de tillåter företag att förstå tillväxt, öka intäkterna och optimera kundnöjdheten.

Version A kan användas för närvarande (som bildar kontrollgruppen), medan version B är modifierad i något avseende jämfört med A (som bildar behandlingsgruppen). Till exempel, på en e-handelswebbplats köptratten vanligtvis en bra kandidat för A/B-testning, eftersom även marginella minskningar av avhoppsfrekvenser kan representera en betydande försäljningsvinst. Betydande förbättringar kan ibland ses genom att testa element som kopiering av text, layouter, bilder och färger, men inte alltid. I dessa tester ser användarna bara en av två versioner, eftersom målet är att upptäcka vilken av de två versionerna som är att föredra.

Multivariattestning eller multinomialtestning liknar A/B-testning, men kan testa fler än två versioner samtidigt eller använda fler kontroller. Enkla A/B-tester är inte giltiga för observationella , kvasi-experimentella eller andra icke-experimentella situationer - vardagligt med undersökningsdata, offlinedata och andra, mer komplexa fenomen.

A/B-testning hävdas av vissa vara en förändring i filosofi och affärsstrategi inom vissa nischer, även om tillvägagångssättet är identiskt med en design mellan ämnena, som vanligtvis används i en mängd olika forskningstraditioner. A/B-testning som en filosofi för webbutveckling bringar området i linje med en bredare rörelse mot evidensbaserad praktik . Fördelarna med A/B-tester anses vara att de kan utföras kontinuerligt på nästan vad som helst, särskilt eftersom de flesta mjukvaror för marknadsföringsautomation numera vanligtvis kommer med möjligheten att köra A/B-tester löpande.

Vanlig teststatistik

"Tvåprovshypotestest" är lämpliga för att jämföra de två proverna där proverna delas med de två kontrollfallen i experimentet. Z-tester är lämpliga för att jämföra medel under stringenta förhållanden vad gäller normalitet och en känd standardavvikelse. Elevens t-test är lämpliga för att jämföra medelvärden under avslappnade förhållanden när mindre antas. Welchs t-test förutsätter det minsta och är därför det vanligaste testet i ett tvåprovshypotestest där medelvärdet av ett mått ska optimeras. Medan medelvärdet för variabeln som ska optimeras är det vanligaste valet av estimator , används andra regelbundet.

För en jämförelse av två binomialfördelningar, såsom en klickfrekvens, skulle man använda Fishers exakta test .

Antagen fördelning Exempelfall Standardtest Alternativt test
Gaussisk Genomsnittlig intäkt per användare Welchs t-test (oparat t-test) Elevens t-test
Binom Klickfrekvens Fishers exakta test Barnards test
Poisson Transaktioner per betalande användare E-test C-test
Multinomial Antalet på varje köpt produkt Chi-kvadrattest G-test
Okänd Mann–Whitney U-test Gibbs provtagning

Utmaningar

När man utför A/B-tester bör användaren utvärdera för- och nackdelarna med det för att se om det stämmer bäst överens med de resultat som de hoppas på.

Fördelar: Genom A/B-testning är det lätt att få en tydlig uppfattning om vad användarna föredrar, eftersom det direkt testar det ena framför det andra. Det är baserat på verkligt användarbeteende så data kan vara till stor hjälp, särskilt när man avgör vad som fungerar bättre mellan två alternativ. Dessutom kan den också ge svar på mycket specifika designfrågor. Ett exempel på detta är Googles A/B-testning med hyperlänksfärger. För att optimera intäkterna testade de dussintals olika hyperlänksnyanser för att se vilken färg användarna tenderar att klicka mer på.

Nackdelar: Det finns dock ett par nackdelar med A/B-testning. Som nämnts ovan är A/B-testning bra för specifika designfrågor men det kan också vara en nackdel eftersom det oftast bara är bra för specifika designproblem med mycket mätbara resultat. Det kan också vara en mycket kostsam och snabb process. Beroende på storleken på företaget och/eller teamet kan det bli många möten och diskussioner om exakt vad som ska testas och vilken effekt A/B-testet har. Om det inte finns en betydande inverkan kan det sluta som ett slöseri med tid och resurser.

deltog representanter med erfarenhet av storskaliga A/B-tester från tretton olika organisationer ( Airbnb , Amazon , Booking.com , Facebook , Google , LinkedIn , Lyft , Microsoft , Netflix , Twitter , Uber och Stanford University) en toppmöte och sammanfattade de främsta utmaningarna i ett SIGKDD Explorations paper. Utmaningarna kan grupperas i fyra områden: Analys, Teknik och Kultur, Avvikelser från traditionella A/B-tester och Datakvalitet.

Historia

Det är svårt att definitivt fastställa när A/B-testning först användes. Den första randomiserade dubbelblinda studien, för att bedöma effektiviteten av ett homeopatiskt läkemedel, inträffade 1835. Experiment med reklamkampanjer, som har jämförts med moderna A/B-tester, började i början av nittonhundratalet. Reklampionjären Claude Hopkins använde reklamkuponger för att testa effektiviteten av sina kampanjer. Denna process, som Hopkins beskrev i sin Scientific Advertising , inkorporerade dock inte begrepp som statistisk signifikans och nollhypotesen , som används i statistisk hypotestestning . Moderna statistiska metoder för att bedöma signifikansen av provdata utvecklades separat under samma period. Detta arbete gjordes 1908 av William Sealy Gosset när han ändrade Z-testet för att skapa Students t-test .

Med internets tillväxt har nya sätt att ta prov på populationer blivit tillgängliga. Googles ingenjörer körde sitt första A/B-test år 2000 i ett försök att fastställa vad det optimala antalet resultat att visa på sökmotorns resultatsida skulle vara. Det första testet misslyckades på grund av fel som berodde på långsamma laddningstider. Senare A/B-testforskning skulle vara mer avancerad, men grunden och de underliggande principerna förblir i allmänhet desamma, och 2011, 11 år efter Googles första test, körde Google över 7 000 olika A/B-tester.

2012 skapade en Microsoft -anställd som arbetade på sökmotorn Microsoft Bing ett experiment för att testa olika sätt att visa reklamrubriker. Inom några timmar gav det alternativa formatet en intäktsökning på 12 % utan påverkan på mätvärdena för användarupplevelsen. Idag genomför företag som Microsoft och Google vardera över 10 000 A/B-tester årligen.

Många företag använder nu "designed experiment"-metoden för att fatta marknadsföringsbeslut, med förväntningen att relevanta provresultat kan förbättra positiva konverteringsresultat. [ citat behövs ] Det är en allt vanligare praxis när verktygen och expertis växer inom detta område.

Exempel

E-post marknadsföring

Ett företag med en kunddatabas på 2 000 personer bestämmer sig för att skapa en e-postkampanj med en rabattkod för att generera försäljning via sin hemsida. Den skapar två versioner av e-postmeddelandet med olika uppmaning (den del av kopian som uppmuntrar kunderna att göra något - i fallet med en försäljningskampanj, gör ett köp) och identifierande kampanjkod.

  • Till 1 000 personer skickas e-postmeddelandet med en uppmaning som säger "Erbjudandet slutar på lördag! Använd kod A1",
  • och till ytterligare 1 000 personer skickas e-postmeddelandet med uppmaningen som säger "Erbjudandet upphör snart! Använd kod B1".

Alla andra delar av e-postmeddelandenas kopia och layout är identiska. Företaget övervakar sedan vilken kampanj som har den högre framgångsfrekvensen genom att analysera användningen av kampanjkoderna. E-postmeddelandet som använder koden A1 har en svarsfrekvens på 5 % (50 av de 1 000 personer som mejlades använde koden för att köpa en produkt), och e-postmeddelandet med koden B1 har en svarsfrekvens på 3 % (30 av mottagarna använde koden för att köpa en produkt). Företaget bedömer därför att den första Call To Action i detta fall är mer effektiv och kommer att använda den i framtida försäljning. Ett mer nyanserat tillvägagångssätt skulle innebära att man tillämpar statistisk testning för att avgöra om skillnaderna i svarsfrekvens mellan A1 och B1 var statistiskt signifikanta (det vill säga högst sannolikt att skillnaderna är verkliga, repeterbara och inte beror på slumpmässig slump).

I exemplet ovan är syftet med testet att avgöra vilket som är det effektivaste sättet att uppmuntra kunder att göra ett köp. Om syftet med testet däremot hade varit att se vilket e-postmeddelande som skulle generera den högre klickfrekvensen – det vill säga antalet personer som faktiskt klickar sig in på webbplatsen efter att ha fått e-postmeddelandet – så hade resultaten kanske blivit annorlunda.

Till exempel, även om fler av kunderna som fick koden B1 gick in på webbplatsen, eftersom uppmaningen inte angav slutdatumet för kampanjen kanske många av dem inte känner någon brådska att göra ett omedelbart köp. Följaktligen, om syftet med testet helt enkelt hade varit att se vilken e-post som skulle ge mer trafik till webbplatsen, så skulle e-postmeddelandet med koden B1 mycket väl ha varit mer framgångsrikt. Ett A/B-test bör ha ett definierat resultat som är mätbart såsom antal gjorda försäljningar, klickfrekvenskonvertering eller antal personer som registrerar sig/registrerar sig.

A/B-testning för produktprissättning

A/B-testning kan användas för att fastställa rätt pris för produkten, eftersom detta kanske är en av de svåraste uppgifterna när en ny produkt eller tjänst lanseras. A/B-testning (särskilt giltigt för digitala varor) är ett utmärkt sätt att ta reda på vilken prispunkt och vilket erbjudande som maximerar den totala intäkten.

Politisk A/B-testning

A/B-tester har också använts av politiska kampanjer . 2007 Barack Obamas presidentkampanj A/B-tester som ett sätt att få attraktion online och förstå vad väljarna ville se från presidentkandidaten. Till exempel testade Obamas team fyra distinkta knappar på deras webbplats som ledde till att användare registrerade sig för nyhetsbrev. Dessutom använde teamet sex olika medföljande bilder för att rita in användare. Genom A/B-tester kunde personalen avgöra hur de effektivt kunde dra in väljare och få ytterligare intresse.

HTTP Routing och API funktionstestning

HTTP-router med A/B-testning

A/B-testning är mycket vanligt när man distribuerar en nyare version av ett API. För testning av användarupplevelse i realtid är en HTTP Layer-7 Reverse proxy konfigurerad på ett sådant sätt att N % av HTTP- trafiken går in i den nyare versionen av backend-instansen, medan de återstående 100-N % av HTTP-trafiken träffar den (stabila) äldre versionen av backend-HTTP-applikationstjänsten. Detta görs vanligtvis för att begränsa exponeringen av kunder till en nyare backend-instans så att, om det finns en bugg på den nyare versionen, bara N % av de totala användaragenterna eller klienterna påverkas medan andra dirigeras till en stabil backend, vilket är en vanlig intrångskontrollmekanism.

Segmentering och inriktning

A/B-tester tillämpar oftast samma variant (t.ex. användargränssnittselement) med lika sannolikhet för alla användare. Men under vissa omständigheter kan svar på varianter vara heterogena. Det vill säga, medan en variant A kan ha en högre svarsfrekvens totalt sett, kan variant B ha en ännu högre svarsfrekvens inom ett specifikt segment av kundbasen.

Till exempel, i exemplet ovan, kunde uppdelningen av svarsfrekvensen efter kön ha varit:

Kön Övergripande Män Kvinnor
Totalt skickar 2 000 1 000 1 000
Totalt antal svar 80 35 45
Variant A 50 / 1 000 (5 %) ) 10/500 ( 2 % ) 40/500 ( 8 %
Variant B 30 / 1 000 (3 %) ) 25/500 ( 5 % ) 5/500 ( 1 %

I det här fallet kan vi se att medan variant A hade en högre svarsfrekvens totalt sett, hade variant B faktiskt högre svarsfrekvens hos män.

Som ett resultat kan företaget välja en segmenterad strategi som ett resultat av A/B-testet och skicka variant B till män och variant A till kvinnor i framtiden. I det här exemplet skulle en segmenterad strategi ge en ökning av förväntad svarsfrekvens från till vilket utgör en ökning med 30 %.

Om segmenterade resultat förväntas från A/B-testet, bör testet vara korrekt utformat från början för att vara jämnt fördelat över nyckelkundattribut, såsom kön. Det vill säga, testet ska både (a) innehålla ett representativt urval av män vs. kvinnor, och (b) tilldela män och kvinnor slumpmässigt till varje "variant" (variant A vs. variant B). Underlåtenhet att göra det kan leda till experimentfördomar felaktiga slutsatser som kan dras från testet.

Denna segmenterings- och inriktningsmetod kan generaliseras ytterligare till att inkludera flera kundattribut snarare än ett enda kundattribut – till exempel kunders ålder och kön – för att identifiera mer nyanserade mönster som kan finnas i testresultaten.

Se även