Hej, jest to pierwszy z kilku artykułów, dokumentujących moje starania dotyczące zbudowania modelu statystycznego przewidującego wyniki meczów piłki nożnej. Ten post będzie opisywał ogólne założenia. Napiszę o danych, z których korzystam, wybiorę problem do zamodelowania i określę zmienną celu. W kolejnych wpisach sprawdzę, jak dobrze z przewidywaniem wyników radzą sobie bukmacherzy, a następnie kawałek po kawałku, zacznę budować własny model.
Dane historyczne
Dane do moich zabaw pobieram stąd: https://www.kaggle.com/sashchernuh/european-football.
Dane pochodzą ze strony http://football-data.co.uk, gdzie autor odświeża zbiór 2 razy w tygodniu i publikuje zapowiedzi meczów.
Zmienna celu – wygrana gospodarzy
Zdarzeniem, które będziemy przewidywać jest wygrana gospodarzy. Ponieważ lubię pracować ze zmiennymi binarnymi, to zdarzeniem przeciwnym będzie remis lub wygrana gości.
Czyli nasza zmienna jest równa 1 jeśli wygrali gospodarze i 0 w innych sytuacjach.
Sprawdźmy czy częstość wygranych gospodarzy rożni się znacznie między ligami.
Sprawdźmy też czy średni poziom naszej zmiennej celu jest stabilny w czasie.
Różnice między ligami i kolejnymi sezonami są na tyle niewielkie, że możemy modelować wszystkie ligi razem.
Co dalej?
W kolejnym wpisie sprawdzę jak dobrze z przewidywaniem wyników radzą sobie bukmacherzy.
Webmentions
[…] Modelowanie wyników w piłce nożnej – dane i zmienna celu […]
[…] W poprzednim wpisie pisałem już o tym na podstawie jakiego zbioru danych robię swoje analizy. Mamy tam podane kursy bukmacherów. Jest tam jednak sporo braków. Dla części bukmacherów archiwum nie sięga daleko w przeszłość. Po części braki mogą wynikać z tego, że niektóre ligi nie są dostępne w ofercie danego bukmachera. […]