in data science, Modele Statystyczne, Programowanie w R

Piłka nożna – Drzewo decyzyjne

Pierwszym modelem któremu dam szansę będzie drzewo decyzyjne. Zwykle nie daje rzucających na kolana rezultatów i łatwo się przeucza. Po stronie zalet natomiast można zapisać łatwość użycia i interpretacji. Sprawdźmy więc na co, z wykorzystaniem tego modelu, możemy liczyć.

Jest to czwarty z serii artykułów dotyczących modelowania wyników piłki nożnej. Poprzednie trzy artykuły to:

  1. Modelowanie wyników w piłce nożnej – dane i zmienna celu
  2. Piłka nożna – modele bukmacherów
  3. Piłka nożna – wyliczenie zmiennych ich ranking i korelacja

Zbiór danych

Przygotowany w poprzednim wpisie zbiór danych dodatkowo odfiltrowuję. Pozbywam się obserwacji dotyczących meczów, dla których nie mamy szczegółowych informacji (o strzałach, ich celności, rzutach rożnych) oraz początkowych kolejek każdego sezonu. Opieramy się na zmiennych podsumowujących trzy ostatnie mecze u siebie (dla gospodarzy) lub na wyjeździe (dla gości) i możemy stawiać  prognozy dopiero, gdy każda ze stron taką liczbę meczów rozegra.

Po nałożeniu tych ograniczeń do naszej dyspozycji pozostaje ok. 41 000 meczów. Zbiór dzielę na zbiór treningowy i walidacyjny w równych proporcjach.

Drzewo decyzyjne

Zbudowane drzewo decyzyjne ma następującą postać:

drzewo decyzyjne - piłka nożna

Ma ono 11 liści, w których odsetek meczów wygranych przez gospodarzy waha się od 29% do 68%.

Wyniki

Sprawdziłem metryki takie jak dokładność (accuracy) i polę pod krzywą ROC (ROC AUC) na zbiorze treningowym i walidacyjnym. W poniższej tabeli znajduje się również przypomnienie wartości tych statystyk dla modeli bukmacherów.

Zbiór Dokładność (Accuracy) ROC AUC
Treningowy 60% 0.61
Walidacyjny 59% 0.60
Kursy bet365 63% 0.67
  • Wyniki są stabilne. Drzewo nie jest przeuczone.
  • Drzewo decyzyjne daje słabsze rezultaty niż model bukmachera.
  • Wyniki są jednak na tyle dobre, że można mieć nadzieję, że przy zastosowaniu bardziej skomplikowanych modeli statystycznych zbliżę się do wyników bukmachera.

 

Write a Comment

Comment