Nessa série de posts nós vamos estudar alguns métodos para tentar prever a porcentagem de vitória dos clubes de futebol. Neste primeiro post iremos falar sobre duas estatísticas: a porcentagem de vitória e uma variação dela chamada de expectativa pitagórica. Serão utilizados dados das últimas temporadas de algumas das grandes ligas europeias (23-24) e do Brasileirão (24), extraídos no site FBREF.
O que é a Expectativa Pitagórica
A expectativa pitagórica é uma fórmula analítica utilizada inicialmente no beisebol. Ela foi criada pelo Bill James, um famoso estatístico pioneiro na área de dados esportivos que criou dúzias de livros com o objetivo de estudar o beisebol por meio de dados estatísticos, tentando determinar o porquê times ganham e perdem. Enfim, essa expectativa pitagórica tem o objetivo de estimar a porcentagem de jogos que um time deveria ter vencido baseado no número de corridas que eles completaram e concederam. No cenário do futebol, o utilizado seria gols feitos e gols concedidos.
O nome da estatística se dá a semelhança da fórmula ao teorema de pitágoras.
Comparar a porcentagem de vitória de um time com a expectativa pitagórica pode ser usado para avaliar quais times estão performando acima do esperado e quais estão piores do que se espera deles.
A Pesquisa
Os dados utilizados consistem em uma tabela com todos os resultados de partidas da temporada de cada liga, coletados no FBREF.
Preparação dos dados e definição das porcentagens
Após extração dos dados e uma limpeza básica da tabela, o resultado é um DataFrame no formato abaixo. Uma temporada tem 380 jogos, e para o cálculo da porcentagem de vitória e da expectativa pitagórica, precisaremos das seguintes informações: o resultado da partida definirá a porcentagem de vitória do time e os gols marcados e concedidos irão definir a expectativa pitagórica.
Esse é o formato dos dados extraídos do FBREF.
Separamos os gols de cada equipe e definimos qual time foi o vencedor de cada partida do campeonato. Assim, podemos calcular a porcentagem de vitória -vitória vale 1, empate vale 0.5 e derrota vale nada-, e a soma desses valores é dividida pelo número de partidas jogadas. (Wikipedia).
Depois de ajustar a tabela e calcular a porcentagem de vitória das equipes, separamos os dados entre Primeiro Turno e Segundo Turno, ou seja, antes e depois da rodada 20. A tabela do Primeiro Turno do campeonato fica mais ou menos assim:
G: número de partidas jogadas; W: valor de cada partida, estimado para o cálculo da porcentagem de vitórias; GF: gols feitos; GA: gols concedidos; wpc: porcentagem de vitória
Para finalizar nossa tabela, calculamos a expectativa pitagórica e juntamos as tabelas do Primeiro e do Segundo Turno de acordo com o time.
Valores com x são relacionados ao primeiro turno, e os valores com y são do segundo turno
Como podemos ver na imagem abaixo, a expectativa pitagórica no primeiro turno da Premier League é bastante relacionada com a porcentagem de vitória, como esperado.
Relação entre a pythagorean_x e a win_percentage_x no Primeiro Turno. A linha no gráfico é uma regressão linear ajustada aos dados, que representa a relação entre as duas variáveis.
Mas o que nós queremos saber é: qual das duas estatísticas têm uma relação maior com a porcentagem de vitória da equipe ao final do campeonato? Para analisar isso, podemos gerar uma tabela de correlação entre essas estatísticas no Primeiro Turno do campeonato e no Segundo Turno.
Tabela de Correlação da Premier League.
Como podemos ver pelos valores marcados na imagem, existe uma correlação maior entre pythagorean_x e win_percentage_y (0.80) do que entre win_percentage_x e win_percentage_y (0.75). Apesar de ser uma diferença pequena, isso mostra que a expectativa pitagórica tem um poder preditivo melhor que a porcentagem de vitória. Esse é o resultado da Premier League. Qual seria o resultado em outras ligas?
Bundesliga
Tabela de Correlação da Bundesliga.
La Liga
Tabela de Correlação da La Liga.
Serie A
Tabela de Correlação da Serie A.
Ligue One
Tabela de Correlação da Ligue One.
Como podemos ver, na liga alemã, espanhola e italiana os valores são um pouco menores, mas a expectativa pitagórica continua tendo um poder preditivo maior que a porcentagem de vitória. Já na liga francesa, apesar do valor abaixo de 50% da correlação entre os resultados do Primeiro Turno com os resultados do Segundo Turno, a expectativa pitagórica continua tendo um valor maior do que a porcentagem de vitória. Por enquanto, está tudo dentro do esperado. O interessante é quando começamos a analisar a liga brasileira.
Brasileirão
Tabela de Correlação do Brasileirão.
Na liga brasileira, além dos valores do Primeiro Turno terem menos de 30% de correlação com os resultados da segunda metade do campeonato, a porcentagem de vitória tem uma correlação maior que a expectativa pitagórica! É a única das 6 ligas estudadas onde esse fato é observado.
Conclusion
A partir do resultado do experimento, decidimos analisar quanto o rendimento difere de um turno para o outro de acordo com a liga para entendermos melhor as ligas mais ‘imprevisíveis’. Para isso, calculamos a média e a mediana dessa variação em todas as ligas estudadas. O Brasileirão se destacou como a competição com a maior oscilação entre turnos, superando as ligas europeias. A surpresa ficou por conta da La Liga, que apresentou uma variação relativamente alta para os padrões europeus.
Variação entre os aproveitamentos dos clubes brasileiros no Primeiro Turno e no Segundo Turno do Brasileirão.
O gráfico acima mostra a alta variação entre os aproveitamentos dos clubes brasileiros no Primeiro Turno e no Segundo Turno do Brasileirão. Clubes como Vitória, Grêmio, Fluminense e Corinthians tiveram péssimos resultados na primeira metade do campeonato, mas tiveram valores acima da média na segunda metade, enquanto clubes como Atlético Mineiro, Cruzeiro e Bahia foram bem no Primeiro Turno e pioraram no Segundo. Por que será que isso acontece?
Podemos supor alguns motivos, como aumento do investimento com o passar do tempo, a constante troca de técnicos ou a pressão da torcida após resultados ruins, forçando diretorias a investir mais em reforços; mas o motivo real necessitaria de uma pesquisa mais aprofundada sobre o tema.
No próximo post, abordaremos a previsão de resultados com base no valor de mercado dos clubes, que será nossa variável principal. Fique atento às nossas redes sociais para não perder nenhuma novidade do blog!