Inttrodução

Nessa série de posts nós vamos estudar alguns métodos para tentar prever a porcentagem de vitória dos clubes de futebol. Neste primeiro post iremos falar sobre duas estatísticas: a porcentagem de vitória e uma variação dela chamada de expectativa pitagórica. Serão utilizados dados das últimas temporadas de algumas das grandes ligas europeias (23-24) e do Brasileirão (24), extraídos no site FBREF.

O que é a Expectativa Pitagórica

A expectativa pitagórica é uma fórmula analítica utilizada inicialmente no beisebol. Ela foi criada pelo Bill James, um famoso estatístico pioneiro na área de dados esportivos que criou dúzias de livros com o objetivo de estudar o beisebol por meio de dados estatísticos, tentando determinar o porquê times ganham e perdem. Enfim, essa expectativa pitagórica tem o objetivo de estimar a porcentagem de jogos que um time deveria ter vencido baseado no número de corridas que eles completaram e concederam. No cenário do futebol, o utilizado seria gols feitos e gols concedidos.

O nome da estatística se dá a semelhança da fórmula ao teorema de pitágoras.

Comparar a porcentagem de vitória de um time com a expectativa pitagórica pode ser usado para avaliar quais times estão performando acima do esperado e quais estão piores do que se espera deles.

A Pesquisa

Os dados utilizados consistem em uma tabela com todos os resultados de partidas da temporada de cada liga, coletados no FBREF.

Preparação dos dados e definição das porcentagens

Após extração dos dados e uma limpeza básica da tabela, o resultado é um DataFrame no formato abaixo. Uma temporada tem 380 jogos, e para o cálculo da porcentagem de vitória e da expectativa pitagórica, precisaremos das seguintes informações: o resultado da partida definirá a porcentagem de vitória do time e os gols marcados e concedidos irão definir a expectativa pitagórica.

Esse é o formato dos dados extraídos do FBREF.

Separamos os gols de cada equipe e definimos qual time foi o vencedor de cada partida do campeonato. Assim, podemos calcular a porcentagem de vitória -vitória vale 1, empate vale 0.5 e derrota vale nada-, e a soma desses valores é dividida pelo número de partidas jogadas. (Wikipedia).

Depois de ajustar a tabela e calcular a porcentagem de vitória das equipes, separamos os dados entre Primeiro Turno e Segundo Turno, ou seja, antes e depois da rodada 20. A tabela do Primeiro Turno do campeonato fica mais ou menos assim:

G: número de partidas jogadas; W: valor de cada partida, estimado para o cálculo da porcentagem de vitórias; GF: gols feitos; GA: gols concedidos; wpc: porcentagem de vitória

Para finalizar nossa tabela, calculamos a expectativa pitagórica e juntamos as tabelas do Primeiro e do Segundo Turno de acordo com o time.

Valores com x são relacionados ao primeiro turno, e os valores com y são do segundo turno
Código do cálculo de wpc e pyth:

1
2
PrimeiroTurno['win_percentage'] = PrimeiroTurno['W'] / PrimeiroTurno['G']  # percentual de vitórias - (Vitórias) / (Jogos Jogados)  
PrimeiroTurno['pythagorean'] = PrimeiroTurno['GF']**2 / (PrimeiroTurno['GF']**2 + PrimeiroTurno['GA']**2)  # expectativa pitagórica - (Gols Pró)^2 / ((Gols Pró)^2 + (Gols Contra)^2)  


Falando dos gráficos de regressão e da correlação

Como podemos ver na imagem abaixo, a expectativa pitagórica no primeiro turno da Premier League é bastante relacionada com a porcentagem de vitória, como esperado.

Relação entre a pythagorean_x e a win_percentage_x no Primeiro Turno. A linha no gráfico é uma regressão linear ajustada aos dados, que representa a relação entre as duas variáveis.

Mas o que nós queremos saber é: qual das duas estatísticas têm uma relação maior com a porcentagem de vitória da equipe ao final do campeonato? Para analisar isso, podemos gerar uma tabela de correlação entre essas estatísticas no Primeiro Turno do campeonato e no Segundo Turno.

Tabela de Correlação da Premier League.

Como podemos ver pelos valores marcados na imagem, existe uma correlação maior entre pythagorean_x e win_percentage_y (0.80) do que entre win_percentage_x e win_percentage_y (0.75). Apesar de ser uma diferença pequena, isso mostra que a expectativa pitagórica tem um poder preditivo melhor que a porcentagem de vitória. Esse é o resultado da Premier League. Qual seria o resultado em outras ligas?

Bundesliga

Tabela de Correlação da Bundesliga.

La Liga

Tabela de Correlação da La Liga.

Serie A

Tabela de Correlação da Serie A.

Ligue One

Tabela de Correlação da Ligue One.

Como podemos ver, na liga alemã, espanhola e italiana os valores são um pouco menores, mas a expectativa pitagórica continua tendo um poder preditivo maior que a porcentagem de vitória. Já na liga francesa, apesar do valor abaixo de 50% da correlação entre os resultados do Primeiro Turno com os resultados do Segundo Turno, a expectativa pitagórica continua tendo um valor maior do que a porcentagem de vitória. Por enquanto, está tudo dentro do esperado. O interessante é quando começamos a analisar a liga brasileira.

Brasileirão

Tabela de Correlação do Brasileirão.

Na liga brasileira, além dos valores do Primeiro Turno terem menos de 30% de correlação com os resultados da segunda metade do campeonato, a porcentagem de vitória tem uma correlação maior que a expectativa pitagórica! É a única das 6 ligas estudadas onde esse fato é observado.

Conclusion

A partir do resultado do experimento, decidimos analisar quanto o rendimento difere de um turno para o outro de acordo com a liga para entendermos melhor as ligas mais ‘imprevisíveis’. Para isso, calculamos a média e a mediana dessa variação em todas as ligas estudadas. O Brasileirão se destacou como a competição com a maior oscilação entre turnos, superando as ligas europeias. A surpresa ficou por conta da La Liga, que apresentou uma variação relativamente alta para os padrões europeus.

Ligas Mediana da Diferença de Aproveitamento Média da Diferença de Aproveitamento
Premier League 20.78% 27.13%
La Liga 21.64% 36.83%
Ligue 1 23.25% 32.35%
Série A 18.61% 27.39%
Bundesliga 21.30% 26.35%
Brasileirão 32.14% 38.76%


Cálculo da diferença de aproveitamento:

\[ \left( \frac{\text{Aproveitamento 2° Turno}}{\text{Aproveitamento 1° Turno}} - 1 \right) \times 100\% \]
Variação entre os aproveitamentos dos clubes brasileiros no Primeiro Turno e no Segundo Turno do Brasileirão.

O gráfico acima mostra a alta variação entre os aproveitamentos dos clubes brasileiros no Primeiro Turno e no Segundo Turno do Brasileirão. Clubes como Vitória, Grêmio, Fluminense e Corinthians tiveram péssimos resultados na primeira metade do campeonato, mas tiveram valores acima da média na segunda metade, enquanto clubes como Atlético Mineiro, Cruzeiro e Bahia foram bem no Primeiro Turno e pioraram no Segundo. Por que será que isso acontece?

Podemos supor alguns motivos, como aumento do investimento com o passar do tempo, a constante troca de técnicos ou a pressão da torcida após resultados ruins, forçando diretorias a investir mais em reforços; mas o motivo real necessitaria de uma pesquisa mais aprofundada sobre o tema.

No próximo post, abordaremos a previsão de resultados com base no valor de mercado dos clubes, que será nossa variável principal. Fique atento às nossas redes sociais para não perder nenhuma novidade do blog!