Förväntade mål
I föreningsfotboll är förväntade mål ( xG ) ett prestationsmått som används för att utvärdera fotbollslags och spelarprestationer . Det kan användas för att representera sannolikheten för en målmöjlighet som kan resultera i ett mål . Det används även i ishockey .
Metrisk
Föreningsfotboll
Det finns en viss debatt om ursprunget till termen förväntade mål . Vic Barnett och hans kollega Sarah Hilditch hänvisade till "förväntade mål" i sin tidning från 1993 som undersökte effekterna av konstgjorda planytor (AP) på hemmalagets prestation i förbundsfotboll i England. Deras papper inkluderade denna observation:
Kvantitativt finner vi för AP-gruppen cirka 0,15 fler mål per hemmamatch än förväntat och, med hänsyn till de lägre än förväntade målen mot i hemmamatcher, en överskjutande målskillnad (för hemmamatcher) på cirka 0,31 mål per hemmamatch. Under en säsong ger detta cirka 3 mål till, en förbättrad målskillnad på cirka 6 mål.
Jake Ensum, Richard Pollard och Samuel Taylor (2004) rapporterade sin studie av data från 37 matcher i VM 2002 där 930 skott och 93 mål registrerades. Deras forskning försökte "undersöka och kvantifiera 12 faktorer som kan påverka framgången för ett skott". Deras logistiska regression identifierade fem faktorer som hade en betydande effekt på att bestämma framgången för ett sparkat skott: avstånd från målet; vinkel från målet; huruvida spelaren som tog skottet befann sig minst 1 m från närmaste försvarare eller inte; huruvida skottet omedelbart föregicks av ett kors eller inte; och antalet utespelare mellan skotttagare och mål. De drog slutsatsen att "beräkningen av skottsannolikheter möjliggör en större analys av skottmöjligheter jämfört med att bara registrera antalet skott". I en efterföljande artikel (2004) kombinerade Ensum, Pollard och Taylor data från världscuptävlingarna 1986 och 2002 för att identifiera tre viktiga faktorer som avgjorde framgången för ett sparkat skott: avstånd från målet ; vinkel från målet; och om spelaren som tog skottet befann sig minst 1 m från närmaste försvarare eller inte.
Howard Hamilton (2009) föreslog "en användbar statistik inom fotboll" som "i slutändan kommer att bidra till vad jag kallar ett "förväntat målvärde" - för varje åtgärd på planen under en match, är sannolikheten att nämnda åtgärd kommer att skapa en mål".
Sander Itjsma (2011) diskuterade "en metod för att tilldela olika chanser skapade under en fotbollsmatch olika värden" och drog därigenom slutsatsen:
vi har nu ett system på plats för att uppskatta det totala värdet av de chanser som skapas av båda lagen under matchen. Att veta hur många mål ett lag förväntas göra från sina chanser är av mycket mer värde än att bara veta hur många försök att göra ett mål som gjordes. Andra tillämpningar av denna utvärderingsmetod skulle vara att skilja en brist på kvalitetsförsök skapade från ett avslutningsproblem eller att utvärdera defensiva och målvaktsprestationer. Och ett tredje alternativ skulle vara att plotta spelbalansen under matchen i form av kvaliteten på skapade chanser för att grafiskt representera hur balansen i spelet utvecklades under matchen.
Sarah Rudd (2011) diskuterade troliga målsättningsmönster (P(Goal)) i sin användning av Markov Chains för taktisk analys (inklusive närheten till försvarare) från 123 matcher under säsongen 2010-2011 i engelska Premier League . I en videopresentation av hennes uppsats vid New England Symposium of Statistics in Sport 2011, rapporterade Rudd hur hon använde analysmetoder för att jämföra "förväntade mål" med faktiska mål och hennes process för att tillämpa viktningar på inkrementella åtgärder för P(goal)-resultat.
I april 2012 skrev Sam Green om "förväntade mål" i sin bedömning av Premier League- målskyttar. Han frågade "Så hur kvantifierar vi vilka områden på planen som är mest sannolikt att resultera i ett mål och därför, vilka skott har störst sannolikhet att resultera i ett mål?". Han lade till:
Om vi kan fastställa detta mått, kan vi sedan exakt och effektivt öka våra chanser att göra mål och därmed vinna matcher. På samma sätt kan vi använda dessa data ur ett defensivt perspektiv för att begränsa de bättre chanserna genom att försvara nyckelområden på planen.
Green föreslog en modell för att bestämma "ett skotts sannolikhet att vara på mål och/eller göra mål". Med denna modell "kan vi titta på varje spelares skott och räkna upp sannolikheten för att var och en av dem är ett mål för att ge ett förväntat mål (xG) värde".
Ishockey
2004 delade Alan Ryder en metodik för att studera kvaliteten på ett ishockeyskott på mål . Hans diskussion började med denna mening "Inte alla skott på mål skapas lika". Ryders modell för mätning av skottkvalitet var:
- Samla in data och analysera målsannolikheter för varje skottomständighet
- Bygg en modell av målsannolikheter som förlitar sig på den uppmätta omständigheten
- Bestäm målsannolikheten för varje skott
- Förväntade mål: EG = summan av målsannolikheterna för varje skott
- Neutralisera variationen i skott på mål genom att beräkna normaliserade förväntade mål
- Skottkvalitet mot
Ryder avslutade:
Modellen för att nå förväntade mål givet skottkvalitetsfaktorerna är helt enkelt baserad på data. Det finns inga meningsfulla antaganden. Analysmetoderna är klassikerna från statistik och försäkringsteknisk vetenskap. Resultaten är därför mycket trovärdiga.
2007 utfärdade Ryder ett meddelande om produktåterkallelse för sin skottkvalitetsmodell. Han presenterade "en varning om beräkningen av skottkvalitet" och pekade på "datakvalitetsproblem med mätningen av kvaliteten på ett hockeylags tagna och tillåtna skott".
Han rapporterade:
Jag har varit orolig för att det finns en systemisk bias i uppgifterna. Slumpmässiga fel berör mig inte. De jämnar ut över stora datamängder. Men jag tror att ... poängsättningen i vissa rinkar har en bias mot längre eller kortare skott, den mest dominerande faktorn i en skottkvalitetsmodell. Och jag gav mig i kast med att undersöka den möjligheten.
Termen "förväntade mål" förekom i en artikel om ishockeyprestanda som presenterades av Brian Macdonald vid MIT Sloan Sports Analytics Conference 2012. Macdonalds metod för att beräkna förväntade mål rapporterades i tidningen:
Vi använde data från de senaste fyra hela NHL- säsongerna. För varje lag delades säsongen upp i två halvor. Eftersom mellansäsongsbyten och skador kan ha en inverkan på ett lags prestation använde vi inte statistik från första halvan av säsongen för att förutsäga mål i andra halvlek. Istället delade vi upp säsongen i udda och jämna matcher, och använde statistik från udda matcher för att tippa mål i jämna matcher. Data från 2007-08 , 2008-09 och 2009-10 användes som träningsdata för att uppskatta parametrarna i modellen, och data från hela 2010-11 avsattes för att validera modellen. Modellen validerades också med 10-faldig korsvalidering. Mean squared error (MSE) för faktiska mål och förutspådda mål var vårt val för att mäta prestandan för våra modeller.
externa länkar
- WikiEducator-sidan presenterar en kronologi för diskussionerna om förväntade mål i föreningsfotbollslitteratur från 2013 till 2018