21 de set. de 2022

Niemann x Carlsen, uma análise objetiva dos fatos

Um estudo detalhado da maior polêmica de Xadrez das últimas décadas.


Por Hindemburg Melão Jr.

Agradecimentos especiais a Tamara Rodrigues


English version


Magnus Carlsen é detentor do recorde mundial de rating mais alto da história e campeão mundial de Xadrez desde 2013. Hans Niemann é um jovem Grande Mestre que tem suscitado polêmicas nos últimos anos, especialmente nas duas últimas semanas, depois de vencer Carlsen no torneio Sinquefield e ser acusado de trapacear. Esse episódio ganhou manchetes em jornais no mundo inteiro. Desde então, foram feitas muitas especulações sobre o assunto, alguns defendendo Niemann, outros colocando em dúvida sua integridade.


Entre as muitas pessoas que opinaram sobre o assunto, estão alguns dos melhores jogadores do mundo, inclusive Carlsen, Aronian, Nakamura, Shirov e Nepomniachtchi, e alguns dos maiores especialistas em fraudes, com destaque para Kenneth Regan, professor de Matemática na Universidade de Oxford e mestre internacional de Xadrez, apresentado no site da ChessBase como “The world's greatest expert on cheating detection in Chess” (o maior especialista do mundo em detecção de trapaças no Xadrez). Entretanto, a conclusão que Regan apresenta está objetivamente incorreta, conforme demonstraremos a seguir.


Em 05/09/2022, dia seguinte à vitória de Niemann contra Carlsen no torneio Sinquefield, analisei a partida entre eles, com foco exclusivamente nos lances da partida, em aspectos técnicos ligados ao Xadrez, e cheguei à mesma conclusão de Regan: não há evidência do uso de engines, o jogo de Niemann é indistinto do de um humano com 2700. Finalizei o assunto naquele ponto e dei por encerrado, entendendo que Niemann era inocente. Mas depois da conduta de Carlsen na partida online do dia 19/09/2022, achei que deveria me aprofundar na análise, porque Carlsen não agiria daquela maneira se ele não estivesse se sentindo profundamente indignado e injustiçado. Ao mesmo tempo, a conduta de Niemann me pareceu inadequada. Se eu fosse suspeito de fraude numa situação similar e meu oponente abandonasse a partida por isso, da maneira como fez Carlsen, eu recusaria o ponto e entregaria o ponto a ele. Mas Niemann simplesmente recebeu o ponto de Carlsen, sem qualquer contestação. Isso reacendeu minhas dúvidas sobre esse assunto e decidi investigar mais a fundo.

Para quem tiver interesse na análise técnica da partida, pode baixá-la aqui (PGN, PDF).


Ni_Ca_Melao_analysis
.pdf
Download PDF • 46KB

carlsen_niemann_2022
.zip
Download ZIP • 4KB

As suspeitas contra Niemann podem ser divididas em dois grupos:


1. Uso de engines.

2. Acesso não autorizado ao treinamento de Carlsen.

No caso do item 2, as acusações são mais especulativas, por isso prefiro me abster de comentar.

Em relação ao item 1, há indícios frágeis e outros fortes. Vamos analisar os indícios fortes, com ênfase num ponto que não foi discutido até o momento, e pode ser de crucial importância para desvendar o que está acontecendo: a evolução do rating em função da idade, como é essa evolução para os jovens da elite mundial, como é essa evolução para os jogadores em geral e como é essa evolução no caso de Niemann.

Nossa análise será dividida em 5 partes:

1. Assimetria de resultados em eventos com DGT board.

2. Evolução do rating FIDE ao longo do tempo.

3. Análise dos lances das partidas, vídeos e outras evidências.

4. Conclusão.

5. Apêndice


 

PARTE 1



Um DGT board é um tabuleiro eletrônico com a superfície sensível ao toque e uma estrutura computadorizada que reconhece os lances executados e os transmite para um computador via USB (ou porta serial ou equivalente). Nos últimos anos, grande parte dos torneios mais importantes utilizam esse tipo de tabuleiro, devido à facilidade para transmissão em tempo real dos jogos para a Internet e TV. Ao mesmo tempo, esse tipo de tabuleiro pode dar margem para dúvidas sobre a possibilidade de trapaças.


O processo por meio do qual uma pessoa poderia utilizar um DGT board para trapacear não é um ponto que será discutido aqui. Elon Musk chegou a comentar sobre uma hipótese de como ele achava que seria possível a transmissão de lances. Não ficou claro se ele estava sendo irônico, mas o fato é que alternativas similares certamente são possíveis.

Nessa primeira parte da análise, o ponto que vamos analisar é sobre os resultados de Niemann serem melhores em torneios nos quais foi utilizado DGT board. O site https://www.chessdom.com/new-allegations-within-niemann-carlsen-case-hans-niemann-performs-much-better-with-live-dgt-boards/ fornece alguns dados sobre isso. Mais adiante veremos outra fonte com dados similares, com a qual esses resultados serão comparados, por isso chamaremos a essa tabela “A” e a outra “B”.

Assumindo que os dados apresentados na tabela A estivessem corretos, foram realizados alguns testes de hipótese para investigar se as performances de Niemann em eventos com transmissão ao vivo eram diferentes das performances em eventos sem transmissão ao vivo. Os resultados foram:


  • t de Student: 99,987%

  • Kolmogorov-Smirnov: 99,998%

  • Anderson-Darling: 99,983%

[Na introdução do apêndice há uma breve explicação sobre o significado desses números e a utilidade desses testes]


Portanto são resultados praticamente conclusivos, sobre haver uma diferença estatisticamente significativa a um nível 0,0002. Entretanto, há alguns erros e algumas possíveis distorções na tabela A. Por exemplo: a tabela cita que Niemann teria obtido performance 2893 no “USCF K12 Grade National” em 2019, mas o nome de Niemann não aparece no site oficial desse evento: https://www.uschess.org/results/2019/k12/. Por isso foi considerada a possibilidade de excluir esse evento da análise e foram comparados os resultados com e sem esse evento. Uma discussão mais detalhada sobre isso foi incluída no apêndice [0], para não interromper o fluxo do texto.

Outros possíveis erros mais graves são apontados naquela tabela e as informações supostamente corretas são apresentadas nessa tabela (B): tinyurl.com/bwaucm78

Comparando as tabelas A e B, temos o seguinte:

Tabela A, fonte: https://www.chessdom.com/new-allegations-within-niemann-carlsen-case-hans-niemann-performs-much-better-with-live-dgt-boards/




Tabela B, fonte: tinyurl.com/bwaucm78


A questão sobre qual das tabelas está mais próxima da verdade foi discutida nesse tópico: https://twitter.com/thestrongchess/status/1568813904750411776 e ponderando sobre os argumentos dos dois lados, a tabela B parece ter sido elaborada com muito mais cuidado, ter menos erros e está aberta para ser revisada publicamente por outras pessoas. Entretanto a tabela A é mais famosa e está influenciando mais pessoas, porque foi amplamente divulgada num site de grande visibilidade. Com esse artigo, esperamos também corrigir essa distorção.

Nas colunas “Q” e “R” da planilha acima, são apontados vários erros nos quais a tabela A teria assinalando eventos nos quais teria sido ou não utilizado DGT board. Além disso, vários eventos no período de março de 2019 a novembro de 2020, dos quais Niemann participou, foram omitidos na tabela A. Na tabela B foi tomado inclusive o cuidado de separar as partidas das rodadas 2, 3 e 8 do “US Masters 2019”, que foram transmitidas ao vivo, das outras partidas do mesmo evento, que não foram transmitidas ao vivo.

Por outro lado, a tabela B inclui 7 eventos nos quais Niemann obteve 100% de vitórias, e o rating performance não pode ser calculado quando o escore é 0 ou 100%, porque implica uma divisão por 0 ou um logaritmo de 0. A tabela A inclui apenas 1 evento com esse problema. Incluíamos uma nota técnica sobre isso no apêndice [1]. Os ratings performances na tabela B, assim como na A, estão sendo calculados com base na fórmula proposta pela FIDE, que não é apropriada, conforme também analisamos no apêndice [1].


O gráfico abaixo mostra a variação nos tamanhos das disparidades produzidas pela fórmula da FIDE para cálculo de rating performance em função das porcentagens de pontos obtidos. Embora na maior parte dos casos essas diferenças sejam menores que 5 pontos, quando as porcentagens se aproximam de 100% os erros podem ultrapassar 175 pontos de rating. Na verdade, para 100% o erro pode ser infinito, dependendo de como seja tratado o peso do empate:



Portanto, ambas as tabelas apresentam erros e distorções, mas na tabela A os problemas são muito mais numerosos e mais graves, de modo que se torna mais apropriado tomar como referência a tabela B.


A diferença entre os ratings USCF em eventos com e sem DGT (ou dispositivos equivalentes) assinalada na tabela A é de 206 pontos. Se utilizar os ratings FIDE em vez dos USCF, ainda seria 182 pontos. Mas quando considera as diferenças na tabela B, essa diferença é de apenas 28,5 pontos. Não obstante, os cálculos apresentados na tabela B não foram realizados da maneira mais apropriada, devido às distorções quando a pontuação é 100%. Por isso refiz os cálculos da seguinte maneira: todas as 90 partidas com transmissão ao vivo (BC) foram incluídas num grupo e todas as 83 sem transmissão ao vivo em outro grupo (NBC). Em seguida, foram calculadas as performances em cada um desses grupos. Esse procedimento permite eliminar as divisões por 0, sem ajustes arbitrários nos casos de eventos com 100% de vitórias. Embora esse procedimento corrija o problema da divisão por zero, introduz algumas outras distorções, porém menores. Com isso o resultado é um rating performance 2544,3 no grupo com DGT e 2501,5 sem DGT.


Embora o resultado não seja os 28,5 pontos indicados na tabela B, a diferença é realmente muito menor do que indicada na tabela A. Considerando que há muitos outliers com rating muito acima e muito abaixo da média, é mais apropriado o uso de biweight de Tukey (ou ondas de Andrews) em vez de utilizar a média aritmética. Nesse caso, os resultados são 2554.1 e 2508.9. Portanto, se os dados citados na tabela B estiverem corretos sobre em quais jogos foi utilizado tabuleiro DGT, a diferença é de apenas 45,2 pontos, em vez de 206 pontos. A título de curiosidade, se utilizar o método da FIDE, os resultados são 2546,5 e 2500,9.


Mas ainda há um problema, porque os testes de contraste entre médias, assim como a análise de variância, não podem ser realizados em amostras com apenas 1 elemento, e se incluir os resultados de todas as partidas com DGT num grupo e todas sem DGT no outro grupo, haverá apenas 1 performance em cada grupo. Por isso acaba sendo inevitável aplicar alguma condição de contorno para lidar com as divisões por 0 e atribuir algum rating performance plausível nos casos de eventos com 100% de vitórias, ou eliminar esses eventos do cálculo. Mas eliminar esses eventos produziria um resultado enviesado, porque em 5 dos 7 eventos não houve transmissão ao vivo. Então decidi investigar como ficariam os testes de hipótese assumindo que os ratings performance indicados na tabela B estejam razoavelmente próximos dos valores corretos, ou pelo menos não tão distantes dos corretos a ponto de alterar a inferência. Isso nos leva aos seguintes resultados:


  • t de Student: 67,42%

  • Kolmogorov-Smirnov: 75,22%

  • Anderson-Darling: 69,81%


Se remover os 7 eventos com 100% de vitórias, os resultados ficam:


  • t de Student: 99,69%

  • Kolmogorov-Smirnov: 51,14%

  • Anderson-Darling: 76,68%


Portanto, onde havia um elevado grau de certeza (com base na tabela A), tem-se uma situação inconclusiva (com base na tabela B). As diferenças observadas entre eventos com DGT e sem DGT não são estatisticamente significativas.

Isso não é um ponto favorável à inocência de Niemann. Apenas mostra que um dos argumentos usados contra ele não tem validade estatística. Além disso, como as probabilidades de culpa e inocência são complementares, quando se reduz as probabilidades de culpa se está automaticamente aumentando as probabilidades de inocência. Nesse contexto, se as diferenças entre resultados com e sem DGT estavam sendo encaradas como uma evidência contra Niemann, e essa “evidência” precisa ser descartada, a balança que estava pendendo contra ele volta a uma posição mais próxima de neutralidade.


 

PARTE 2


Para tentar detectar indícios de anomalias, uma análise interessante que pode ser realizada consiste em investigar como o rating FIDE de Niemann evolui em função da idade e comparar com a evolução de outros garotos prodígio do Xadrez. Entre os jovens da elite mundial, pode-se observar uma curva característica que representa a evolução da força de jogo em função da idade e essa curva se mostra muito semelhante entre todos eles. Isso pode ser observado desde Morphy, Capablanca e Reshevsky (veja o livro “Xadrez, os 2022 melhores jogadores de todos os tempos, dois novos sistemas de rating” em https://www.saturnov.org/livro/rating) até os novos talentos como Firouzja, Wei, Duda, Gukesh e Erigaisi, passando por Fischer, Kasparov, Kamsky, Leko, Carlsen etc.

No caso de Carlsen, essa curva assume esse aspecto (rating FIDE):



O jogador evolui muito rapidamente até se aproximar de um limite assintótico, então decai um pouco após alcançar o auge e continua a decair lentamente ao longo das décadas. Mais adiante, veremos mais alguns exemplos.


Agora vejamos a curva de evolução de Hans Niemann:


O comportamento geral é muito diferente. Em lugar de uma curva suave que desacelera gradualmente, a curva de evolução para Niemann tem alguns degraus e algumas oscilações com amplitude relativamente grande. Entre o início de 2016 e meados de 2018, praticamente não houve evolução no rating, passando-se 30 meses com rating praticamente inalterado. De repente, em 6 meses (meados de 2018 para início de 2019) subiu de patamar médio de 2300 para um patamar médio de 2460, e novamente se manteve estável por mais 2 anos. Em seguida (2021), voltou a crescer.

Isso é um comportamento bastante anormal entre jogadores da elite mundial, que geralmente crescem muito rápido até os 15 anos e depois continuam um crescimento menos rápido até os 20 anos. Há uma progressiva desaceleração no ritmo de crescimento em função da idade até chegar em torno de 25 anos, quando começa um lento decrescimento. Esse decrescimento na força de jogo pode ser mascarado pela inflação no rating (mais detalhes no livro citado alguns parágrafos acima), porque é lento. Mas durante a fase inicial de crescimento, o ritmo é muito rápido. Carlsen subiu de 2050 para 2550 em 4 anos. Depois foi de 2550 a 2850 em 8 anos. A evolução do rating de Niemann é muito diferente, ele acelera, desacelera durante anos, depois acelera novamente durante alguns meses, depois novamente desacelera durante anos, e novamente acelera durante alguns meses. Isso é extremamente incomum e antinatural. Não é apenas diferente de Carlsen; é muito diferente de mais de 95% dos jogadores de elite. Mais adiante, apresentaremos alguns estudos avaliando quantitativamente essa disparidade.

O rating de Capablanca, por exemplo, durante seu período de ascensão, apresentou comportamento muito semelhante ao de Carlsen, com a diferença que o rating de Capablanca começou a declinar depois do auge porque o método de cálculo utilizado por Rob. Edwards (link abaixo) é imune à inflação, enquanto o rating FIDE apresenta atualmente cerca de 5,7 pontos de inflação a cada ano. Por isso o rating do Carlsen se mantém estável desde 2013, embora sua força esteja diminuindo. Há também uma evolução na compreensão do jogo que torna os jogadores mais fortes a cada ano, mas isso não acompanha a inflação. Essa evolução na compreensão do jogo aumenta cerca de 1,4 pontos a cada ano, portanto se o rating permanece estável, significa que está ocorrendo um declínio real de 4,3 pontos por ano na força de jogo.


Fonte: http://www.edochess.ca/players/p864.html

Além das curvas de evolução do rating em função da idade para garotos prodígio, podemos observar as curvas dos jogadores em geral, que também diferem dramaticamente da curva de rating de Niemann. Isso porque há uma variação típica da evolução da capacidade cognitiva em função da idade, e todas as performances que dependam de habilidades cognitivas acompanham aproximadamente essa variação.


O gráfico abaixo mostra a evolução do rating em função da idade para 396.311 jogadores na lista de setembro de 2022 da FIDE:



As variáveis representadas nos eixos x e y no gráfico acima não são as mesmas dos gráficos anteriores e posteriores. Neste podemos observar como o rating está relacionado à idade para 396.311 pessoas diferentes. Os outros gráficos mostram a evolução do rating em função da idade para uma mesma pessoa ao longo da vida. Embora não sejam exatamente as mesmas informações, quando se considera grandes amostras de dados, acabam assumindo comportamentos estatisticamente muito semelhantes.

O próximo gráfico mostra as evoluções de alguns dos prodígios recentes do Xadrez:



Os mesmos jogadores do gráfico acima (exceto Carlsen, que já tem um gráfico exclusivo) são apresentados a seguir em quadros separados, para facilitar a visualização das formas das curvas:



Conforme se pode observar, embora algumas curvas, como as de Wei e So, sejam um pouco diferentes do padrão das outras, elas preservam algumas das propriedades gerais mais importantes, como a monotonicidade crescente (se discretizadas em intervalos bienais) até os 23 anos. Quase todos os jogadores mais jovens que ocupam as primeiras posições no ranking mundial apresentam essa característica em suas curvas de crescimento. Uma exceção é o jovem Abdusattorov, que permaneceu praticamente sem variação no rating durante 30 meses, entre os 7 e 9 anos de idade. Isso é extremamente incomum. Depois apresentou um aumento de 270 pontos de rating em apenas 2 meses, aos 11 anos de idade. Isso pode acontecer se a criança tem seus estudos de Xadrez interrompidos, como aconteceu com Reshevsky e Kamsky, por exemplo. Mas são casos raros, e não apresentam grandes quedas nem inconsistências nos resultados. O caso de Niemann é diferente, porque além de sua curva de evolução estar muito fora do padrão, também apresenta quedas e instabilidades.


Para investigar mais fundo essas diferenças sob uma perspectiva quantitativa, propus um modelo teórico de ajuste em que o rating de cada jogador evolui com sua idade conforme uma função logística do tipo:


Onde “e” é o número de Napier 2,71828..., “x” é a idade em anos com decimais e “R” é o rating em função da idade. Os valores dos parâmetros “a, b, c” são determinados de maneira a minimizar a soma dos quadrados das distâncias entre a curva teórica e os valores empíricos para cada jogador.

Em seguida, testei se esse modelo realmente oferecia um bom ajuste aos dados experimentais, e os resultados foram acima das expectativas. O modelo descreve muito bem como o rating de cada jogador se comporta ao longo do tempo até atingir seu apogeu. Porém meu modelo não contempla a redução no rating depois dos 30-40 anos. Um ajuste complementar com essa finalidade seria trabalho para outro artigo ou livro.

Os valores dos parâmetros “a, b, c” variam de um jogador para outro, mas o formato da curva de melhor ajuste é muito semelhante para todos eles. Alguns jogadores apresentam evolução muito próxima da curva teórica, enquanto outros não ficam tão próximos, mas todas as curvas apresentam mesma classe morfológica, aderente à parte superior de uma função logística. A única exceção gritante é o caso de Niemann, em que o melhor ajuste é quase uma reta, e as distâncias dos pontos em relação à curva são muito maiores do que as de qualquer outro jogador. A seguir estão as curvas para Carlsen e Niemann:




Os gráficos dos outros jogadores podem ser baixados aqui:

Gráficos
.pdf
Download PDF • 2.16MB

Conforme se pode observar no caso de Carlsen, e o mesmo para todos os outros jogadores com evolução “normal”, a curva de melhor ajuste tem um limite cuja assíntota se encontra próxima ao rating máximo alcançado. No caso de Niemann é quase uma reta inclinada. Além das disparidades visualmente evidentes, foram realizadas algumas medidas objetivas para investigar a probabilidade de que as diferenças observadas sejam casuais.


O teste de contingência de Chi quadrado é útil para medir a qualidade de ajuste de uma curva teórica aos dados experimentais, e para todos os jogadores indica quase 100% de probabilidade de que o modelo teórico descreve a evolução do rating em função da idade, exceto no caso de Niemann, em cujo caso a probabilidade é de 61%. Para efeito de comparação, entre os 13 outros jogadores analisados, o segundo pior ajuste foi o de Firouzja: 99,99999951%. Os melhores ajustes estão indicando 100% porque o limite no Python é 15-16 algarismos significativos nas operações com ponto flutuante. Seria possível conseguir mais decimais usando a biblioteca mpmath, mas como o programa já está implementado usando numpy e scipy, e como 99,9999999999999% é suficiente para nossos propósitos, não precisamos de mais do que 15 algarismos significativos. Apenas convém esclarecer que onde está indicado “100%” não significa de fato 100%, mas sim algo acima de 99,9999999999999%. Também é importante esclarecer que a maioria desses cálculos tem incerteza muito maior do que esses números indicam. O fato de indicar probabilidade 99,99% não significa que tenha de fato essa probabilidade. Os testes de DNA, por exemplo, que indicam 99,9999% de probabilidade de um homem ser pai de uma criança desconsideram que há 0,4% de probabilidade de esse homem ter um irmão gêmeo, entre outros erros de superestimação. Portanto uma indicação de probabilidade 99,9999999999999% deve ser interpretada como “muito alta”, mas não necessariamente tão alta quanto o número correspondente.


Outro teste realizado foi sobre o tamanho do erro típico no ajuste da curva. Essa medida também fornece dados importantes para análise. O menor erro de ajuste foi o de Karjakin: 1,78. O maior erro de ajuste (exceto Niemann) foi o de Firouzja: 13,34. No caso de Niemann o erro foi 212,41, cerca de 16 vezes maior que o maior erro de ajuste observado entre os outros jogadores.





Dynamic Time Warping (DTW) é uma ferramenta estatística com propriedades diferenciadas para medida de similaridade entre séries temporais. A maioria das medidas de similaridade, como Chi quadrado e Kolmogorov-Smirnov, consideram exclusivamente a distância vertical (no eixo y), e isso algumas vezes não proporciona uma avaliação correta da separação entre curvas, especialmente em casos como esse, nos quais os ratings podem ficar defasados se a pessoa passa muitos meses sem jogar torneios. Ding Liren, por exemplo, entre os 13 e 15 anos de idade, foi prejudicado por isso, ficando com uma longa linha horizontal em seu histórico. Em situações assim, o uso de DTW permite aferições mais acuradas e fidedignas. Os valores obtidos para DTW dos 13 jogadores considerados, exceto Niemann, ficaram entre o mínimo de 1507 (para Deac) e o máximo de 2297 (para Caruana). No caso de Niemann, esse valor ficou em 3571, muito maior que o maior observado entre os outros jogadores. O gráfico a seguir resume essa situação:



Por outro lado, as dissimilaridades medidas por distância discreta de Frechet, que tem propriedades similares à DTW, não apresentou diferença tão grande entre o caso de Niemann e os de outros jogadores. Embora a dissimilaridade entre a curva de evolução de rating de Niemann e o modelo tenha sido a maior entre todos os jogadores considerados, ele não ficou isolado do grupo, como nos outros casos, conforme se pode verificar no próximo gráfico:



Há também outras métricas que podem ser utilizadas em situações como essa, inclusive a medida da área da região que separa as curvas, que indica não apenas o tamanho das disparidades, mas também o tempo que a disparidade permaneceu. Mas nesse caso não teria utilidade, pois os efeitos produzidos pelo uso de engine produzem grandes anomalias locais de curta duração, como se pode observar nos eventos ocorridos aos 12 e aos 16 anos, e nesse caso essas métricas não ajudam a revelar se houve uso de engine, podendo inclusive confundir mais do que esclarecer. O uso de Partial Curve Mapping (PCM), por exemplo, pode ajudar a lidar com casos nos quais cada valor de x corresponde a mais de um valor de y (curvas histeréticas), mas não contribui para a investigação do fenômeno que desejamos analisar.

Outro ponto interessante a ser considerado é a projeção do rating máximo que a pessoa deve alcançar (se ela tiver menos de 30-35 anos) ou já alcançou (se tiver mais de 30-35 anos). Isso é determinado pelo parâmetro “c” da função de ajuste. No caso de Carlsen, o valor do parâmetro c é 2862, um pouco menor que o rating máximo a que ele realmente chegou (2882). Para Caruana o parâmetro c vale 2837, e o máximo que ele chegou foi 2844. Para Firouzja a projeção é 2821, que ele ainda não alcançou, mas é provável que ultrapasse. Por enquanto o máximo de Firouzja foi 2810. Como as curvas de rating oscilam por cima e por baixo da curva teórica, é provável que a maioria dos jogadores alcance em seu melhor momento uns 20 pontos acima do valor do parâmetro c. Para Deac a projeção era 2664, que ele já ultrapassou com cerca folga, chegando a 2710, sendo um dos que obteve rating mais acima do valor do parâmetro c para sua curva de crescimento. No caso de Niemann, a projeção para ele é 3103, e como a maioria chega um pouco acima do parâmetro c, a expectativa para Niemann, se o rating dele fosse real, seria de chegar a cerca de 3120.

As curvas de evolução do rating em função da idade possibilitam a investigação de uma extensa lista de propriedades quantitativas que denunciam anomalias muito acentuadas. A presença de uma dessas anomalias não seria um indicativo relevante de que há algum problema a ser investigado, mas o que se observa no histórico de Niemann é que todas as medidas consideradas assinalaram a ocorrência de grandes anomalias, algumas das quais a probabilidade pode ser estimada diretamente; em outros casos a probabilidade pode ser estimada indiretamente, com base na ausência de ocorrências de magnitude similar entre os outros jogadores e com base no número de desvios padrão que a anomalia é observada no caso de Niemann.

Com exceção das distâncias discretas de Frechet, todas as outras métricas consideradas para verificar a evolução do rating em função da idade indicaram mais de 99% de probabilidade de que a curva de evolução de rating de Niemann não segue o curso normal e em alguns casos essa probabilidade se mostrou acima de 99,9%.


Esse conjunto de anomalias na evolução do rating em função da idade proporciona uma ideia clara sobre a disparidade entre o caso de Niemann se comparado aos de outros jovens talentos da elite mundial. Além disso, os ratings e as idades dos jogadores estão disponíveis em fontes oficiais para consulta, em https://ratings.fide.com/ e a probabilidade de que haja erros nesses dados é muito baixa, quase 0, diferentemente das informações mais controvertidas sobre DGT, que dependem da exatidão de dados provenientes de fontes incertas, nas quais já foram verificadas inexatidões e inconsistências.

Isso não exclui a possibilidade de que Niemann simplesmente seja uma pessoa com desenvolvimento incomum. Mas se for esse o caso, seria necessário que fossem apresentadas evidências concretas disso.


 

PARTE 3

O próximo gráfico mostra a evolução da capacidade intelectual em função da idade, com base em escores no WPPSI, WISC e WAIS entre 3 e até 91 anos, com extrapolações fora desse intervalo. A curva é semelhante à da evolução do rating em função da idade, já que os processos cognitivos necessários para o bom desempenho no Xadrez compartilham vários traços latentes necessários ao bom desempenho em testes cognitivos, embora com pesos diferentes:



Esse gráfico é representativo da média da população, mas a curva é diferente para pessoas com QI muito acima da média. Lasker, por exemplo, aos 57 anos de idade estava quase no auge de sua força, com apenas 50 pontos de rating (e cerca de 3 pontos de QI) abaixo de seu máximo histórico. Philidor é o exemplo mais notável disso, que chegou a quase 70 anos como o mais forte do mundo no Xadrez, e Kortschnoj é um bom exemplo recente. Portanto o ponto a partir do qual a capacidade intelectual começa a decrescer não é o mesmo para todas as pessoas. Nos níveis intelectuais mais elevados, a manutenção perto do pico pode se prolongar por décadas.

Por isso depois dos 30 anos a forma dessa curva não seria aplicável a Niemann nem aos outros jogadores da elite. Mas na faixa etária que precede 30 anos, a curva é muito semelhante para todas as pessoas, o que a torna um bom modelo para o caso em questão. Isso não significa que todos os prodígios terão mesmo nível em cada idade antes dos 30, mas todos seguirão uma proporção semelhante de acordo com seu máximo individual, e a maioria deve apresentar uma redução mais lenta depois dos 30.


Há mais detalhes a serem considerados, entre os quais algumas partidas ao vivo, algumas partidas on-line, algumas entrevistas etc. Não há como esgotar todas as possibilidades, mas procuramos enumerar alguns pontos importantes:


Entrevista com GM Alejandro Ramírez: https://www.youtube.com/watch?v=xxWs8vy-GKU. Nesse vídeo, Alejandro explora uma excelente oportunidade de testar as habilidades de Niemann. Depois da partida entre Lagrave e Niemann, que terminou empatada, Alejandro questiona o que Niemann pretendia responder se Lagrave tivesse jogado 26.Rf5 em vez de 26.c4. A posição escolhida por Alejandro para essa contestação é muito apropriada, porque há uma longa sequência de lances difíceis que não poderiam ter sido omitidos na análise de Niemann ao ter permitido 26.Rf5. Se Niemann permitiu 26.Rf5, ele deveria ter algo em mente para jogar contra isso, e deveria se lembrar e responder imediatamente quando foi questionado. Entretanto, Niemann se atrapalhou, não acertou praticamente nenhum dos lances numa longa sequência, demonstrando que havia simplesmente omitido uma das continuações mais naturais e mais importantes. Claro que isso poderia acontecer com qualquer um, é normal se equivocar pela tensão do momento, por isso seria interessante que houvesse um experimento sistemático e controlado, no qual Niemann fosse sabatinado por um grupo de GMs. Isso seria ótimo para salvar a reputação de Niemann, se ele estiver sendo honesto, ou para desmascará-lo, se estiver trapaceando.

Conforme comentou o amigo Felipe Rodrigues, há vários vídeos de lives nas quais Niemann joga com transmissão em tempo real, nas quais consegue resultados expressivos, chegando a 3000 em blitz e bullet. Isso seria muito difícil de conseguir por meio de trapaças, inclusive Niemann executa muitos pre-moves, o que não seria possível com o auxílio de engines.

Há vídeos nos quais Niemann admite publicamente ter se beneficiado com o uso de engines em jogos online, quando ele tinha 12 anos e quando tinha 16 anos. Mas de acordo com a Chess.com (https://twitter.com/chesscom/status/1568010971616100352), o número de vezes em que Niemann utilizou engines é maior e cobre um período mais extenso do que ele admitiu. Além disso, o estudo que apresentamos acima sobre a variação do rating em função da idade, mostra vários indícios muito fortes em eventos presenciais (OTB).


Em relação à divergência entre a declaração de Niemann sobre ter deixado de usar engines e a tese defendida pelo Chess.com de que Niemann teria usado engines mais vezes do que ele admite, nosso estudo sobre a evolução do rating em função da idade ajuda a lançar luz sobre essa questão. O gráfico abaixo mostra a evolução do rating de Niemann, dessa vez com alguns pontos específicos marcados com uma elipse vermelha, e com duas linhas horizontais:



Em 2014 o rating de Niemann estava perto de 2000 (ponto A) e caiu abaixo de 1880 (B), então subiu em 3 meses para 2280 (C), mas logo caiu para 2050 (D). Então houve mais uma dessas subidas anormais em poucos meses, dessa vez chegando a quase 2350 (E). A partir de então, ficou oscilando, até que em meados de 2018 houve outra subida (F), em poucos meses, e novamente ficou oscilando (G-H). Finalmente, a partir de 2021, podemos observar uma subida gradual (H) que se parece muito com um crescimento natural e até poderia ser interpretado como tal, se não houvesse todos os outros precedentes. Mas considerando os fatos tal como foram, a interpretação provável é a seguinte:

1. Em 2014 Niemann estava perto de chegar a 2000, é um número mágico que as pessoas querem chegar e ultrapassar. Ele chegou, mas logo depois caiu abaixo de 1900, e aparentemente ele não suportou isso e não soube lidar com essa queda. Foi quando decidiu começar a trapacear. Não temos como saber se ele chegou a 2000 sem o uso de engine, mas, em princípio, vamos supor que ele só começou a usar engines em 2015.

2. De 1880 subiu para 2280 em 3 meses, mas obviamente quando deixou de trapacear, não conseguiu se manter nesse nível e voltou para baixo, caiu a 2050. Não havia como se manter em ~2300 a não ser que continuasse trapaceando continuamente, ou melhorasse concretamente seu jogo. Melhorar o jogo é um processo demorado e custoso.

3. Subiu de 2050 para 2350 em 3 meses, e ele já havia “aprendido” que se deixasse de usar engines, como fez em duas ocasiões anteriores, seu rating cairia centenas de pontos. Então decidiu manter o esquema: jogava um torneio sem engine e outro com engine, assim evitava aquelas grandes quedas e grandes subidas que poderiam levantar suspeitas.

4. Depois que Niemann manteve o rating estável por algum tempo, decidiu subir mais um degrau, em meados de 2018, e dessa vez foi para cerca de 2450. Com isso também aprimorou seu método, e em vez de subir aos degraus, passou a subir uma rampa suave, que desperta menos suspeitas, e assim fez a partir de 2021.

Portanto, a análise do histórico de Niemann em eventos presenciais corrobora a tese do site Chess.com, mostrando que não apenas em eventos online, também há fortes indícios do uso de engines em eventos OTB, sobretudo nas ocasiões que ele confessou, aos 12 e 16 anos. Inclusive a confissão pode ter sido estratégica, para o caso de amenizar sua situação pela confissão antecipada, quando as anomalias em seu rating FIDE fossem descobertas nesses momentos específicos. Entretanto, sua confissão é bastante clara: ele diz que só utilizou engines em eventos online, mas não em eventos ao vivo, mas o rating FIDE é baseado exclusivamente em eventos ao vivo, e os sintomas de manipulação de resultados estão visíveis justamente no rating FIDE, que o coloca Niemann numa situação delicada.

 

CONCLUSÃO


O conjunto de resultados estatísticos mostra que as suspeitas relacionadas a possíveis diferenças entre eventos com DGT e sem DGT não oferece evidência que suporte suspeita de fraude.


Por outro lado, a evolução do rating FIDE de Niemann é diferente da evolução do rating de outros jogadores da elite mundial e de outros jogadores em geral, com particularidades muito incomuns no ritmo de evolução do rating em função da idade, não se comportando como as curvas típicas observadas em outros jogadores nem como variáveis genéricas que acompanhem a evolução natural da capacidade cognitiva.


Niemann passou cerca de 30 meses (2016.1 a 2018.6) com seu rating oscilando perto de 2300, então subiu para 2460 em apenas 3 meses. A partir de então Niemann, alega ter deixado de usar engines, porém em vez de seu rating retornar para 2300, subiu ainda mais.


Nenhum desses fatos é visível quando se tenta investigar o caso exclusivamente com base na análise dos lances das partidas, porque não há sintomas ostensivos do uso de engines em suas partidas. Isso torna a detecção da fraude mais difícil por esse caminho, porque existem versões de Lc0 com 2700 de rating que cometem erros “humanos” que as engines antigas (anos ~1998) como Fritz 5, Hiarcs 6, Shredder 5 e Gandalf 6 não cometem, e menos ainda as engines mais novas. Essas engines (como Lc0) jogam com um estilo indistinguível do de humanos, inclusive cometendo erros típicos de humanos e fazendo escolhas “lógicas” que algumas engines superfortes não fazem. Isso torna possível usar engines sem que isso seja “visível” numa análise baseada exclusivamente nos lances da partida. Também não se pode descartar a alternativa de que uma pessoa poderia utilizar engines em apenas alguns lances, mas não em todos, e isso também tornaria mais difícil a detecção.


Por esses motivos, a análise de Regan conduz a uma conclusão infelizmente errada. Digo “infelizmente” porque é triste que no Xadrez aconteça esse tipo de trapaça. Quando Felipe Neto foi acusado de usar engines, minha avaliação do caso foi completamente diferente, porque o Xadrez para ele é uma brincadeira, como um jogo de truco. “Roubar” no truco pode ser uma brincadeira entre amigos, mas trapacear numa competição esportiva séria, na qual estejam em jogo títulos oficiais, dinheiro, reconhecimento etc., isso é muito mais sério.

Eu gostaria de acreditar que Niemann é mais um grande talento do Xadrez, inclusive eu o defendi em meus comentários preliminares, logo depois da primeira partida, devido à ausência de provas contra ele. Mas devo reconhecer que minha interpretação inicial era ingênua e incorreta. Apresentei argumentos em defesa de Niemann, baseados no fato de que ele faz muitos lances diferentes dos indicados pelas engines, e isso realmente mostra que ele não utiliza engines em todos os lances, talvez nem sequer em 50% dos lances. Mas a análise estatística apresentada acima é muito forte e praticamente conclusiva. O fato de ele não utilizar engines em todos os lances torna mais difícil a detecção de indícios de fraude, porque seus jogos são muito semelhantes aos de um jogador humano com 2700, com erros que as engines não cometem e com lances lógicos que humanos teriam executado, mas as engines teriam evitado devido ao cálculo concreto de variantes. Analisando exclusivamente a qualidade dos lances de suas partidas, não há indícios de fraude. Por outro lado, quando examinamos sua curva de evolução de força de jogo, surgem inconsistências com a hipótese de inocência, levando a uma conclusão triste, mas que talvez seja a que mais se harmoniza com os fatos concretos medidos empiricamente.

Lembro-me de um relato feito pelo amigo Marcos Seman em 1998, de uma partida que ele jogou contra o amigo Álvaro Pena. Eles estavam jogando um torneio e a partida deles era a última, não havia mais ninguém na sala do evento. O Seman estava em posição inferior, e em determinado momento ele executou seu lance, acionou o relógio e levantou-se para ir ao banheiro. Quando ele retornou, percebeu que os relógios estavam parados, com o sr. Pena olhando para o tabuleiro. Isso deixou Seman furioso. Ele bateu com força no relógio para acionar novamente, pois seu adversário estava analisando sem gastar seu tempo. Então o sr. Pena parou novamente os relógios e explicou que ele havia abandonado. Então o Seman ficou muito sem jeito e perguntou porque ele abandonou, se ele havia feito alguma coisa que o havia ofendido, que não foi a intenção. Então o sr. Pena explicou que enquanto o Seman foi ao banheiro, ele tocou numa Torre, com a intenção de movê-la, mas em seguida ele viu que perderia uma peça e a partida. Então decidiu abandonar. Ninguém estava presente para ver que ele tocou na peça, mas ele sabia que havia tocado e era obrigado a jogar com ela, e isso para ele era suficiente para honrar seu compromisso com a verdade.

Em outra ocasião, num evento bem mais antigo e mais famoso, o torneio de Londres de 1922, estavam disputando 16 grandes jogadores, e 4 deles com chances de ficar em primeiro lugar: Capablanca, Alekhine, Vidmar e Rubinstein. Faltando 3 rodadas para terminar o evento, Capablanca e Vidmar foram emparceirados. Naquela época, os jogos que não eram concluídos no tempo regulamentar (2:30h para 40 lances) eram adiados e prosseguiam no dia seguinte. O jogador anotava seu “lance secreto”, sem que ninguém visse, depositava esse lance num envelope, que era lacrado e assinado por ambos, e ficava sob custódia do árbitro. Isso evitava que o oponente levasse vantagem analisando durante horas a posição, pois não havia como saber qual lance havia sido executado. No dia seguinte, o envelope era aberto, o lance secreto era executado e a partida prosseguia do ponto em que havia parado. Isso aconteceu na partida da 13ª rodada, entre Capablanca e Vidmar, que foi interrompida. Logo em seguida, numa conversa informal, Vidmar comunicou a Capablanca que tinha a intenção de abandonar o jogo. No dia seguinte, Capablanca não compareceu ao evento. O árbitro deu início à rodada, os tempos começaram a correr, e Capablanca não chegava. Depois de quase 1 hora de espera, o tempo do relógio de Capablanca estava quase se esgotando e ele perderia, então Vidmar parou os relógios e declarou ao árbitro que abandonava, entregando o ponto a Capablanca, que foi campeão do torneio.


É uma pena que as histórias atuais sobre Xadrez sejam tão diferentes.

 

APÊNDICE


Sobre testes de contraste entre médias


A finalidade do teste t de Student é comparar duas amostras de dados que se distribuem normalmente e estimar a probabilidade de que as diferenças observadas sejam casuais. Por exemplo: se a altura média dos homens é diferente da altura média das mulheres, ou se a temperatura média do ar em janeiro é diferente da de fevereiro. Sabemos que algumas mulheres são mais altas que alguns homens e vice-versa, mas a questão é se existe uma diferença na altura média de todas as mulheres em comparação à altura média de todos os homens, ou se o conjunto de cada distribuição apresenta mesmos parâmetros. Para verificar isso, o teste t de Student se aplica muito bem, porque as populações são muito numerosas e a forma das distribuições dessas populações se assemelha muito à forma de uma distribuição normal dentro do intervalo de -2 a +2 desvios padrão. Assim podemos constatar que, embora algumas mulheres sejam mais altas que alguns homens, a altura média dos homens é maior. Do mesmo modo, podemos verificar que embora alguns brasileiros sejam mais altos que alguns argentinos e vice-versa, quando se considera a média dos dois grupos, não há diferença estatisticamente significativa, conforme os dois gráficos abaixo.



Mas no exemplo que estamos analisando, dos ratings performance de Xadrez, a situação é mais complexa, porque as amostras são pequenas e não temos informações acuradas sobre a forma dessas distribuições, o que torna mais difícil verificar se a diferença entre os resultados obtidos entre os jogos com e sem tabuleiros DGT é estatisticamente significativa. Por isso pode ser necessário utilizar outras ferramentas.


O teste de Kolmogorov-Smirnov, se comparado ao teste de t de Student, tem a vantagem de ser mais sensível à morfologia das distribuições e menos dependente da hipótese de normalidade, por outro lado ele trata da distância máxima entre os pontos de maior separação entre as curvas, em vez de ser uma medida global que leve em consideração todos os pontos, como o Chi-Quadrado e as medidas RMS.


O teste Anderson-Darling tem a vantagem de ser sensível à forma, assim como o Kolmogorov-Smirnov, além de ponderar melhor as presenças de outliers em caudas densas, o que o torna um dos mais apropriados para essa finalidade específica.


Embora o HSD de Tukey só possa ser aplicado a amostras de mesmo tamanho e o Tukey-Kramer seja um teste post-hoc que precisa dos resultados de uma ANOVA, é possível desenvolver testes personalizados essencialmente baseados nos princípios do teste de Tukey, sem necessidade prévia de uma ANOVA ou MANOVA. Para lidar com esse problema, elaborei um novo teste com esse propósito, que consiste em medir a diferença entre cada elemento de um grupo e cada elemento do outro grupo, em vez de considerar apenas as médias de todos os elementos de cada grupo, mas a padronização dos resultados e a interpretação do método ainda não assumiram a forma definitiva, por isso achei melhor remover essa parte. Além disso, por se tratar de uma métrica nova, antes de colocá-la em uso pretendo publicar um trabalho exclusivamente descrevendo como essa nova métrica foi desenvolvida e como deve ser aplicada, quais as vantagens que ela oferece em comparação às ferramentas existentes etc.


[0] Sobre remoção de outliers ao aplicar o teste t de Student


Se removesse os resultados 2893 do grupo DGT, a média nesse grupo diminuiria, estreitando a diferença, portanto deveria reduzir a probabilidade de que as amostras apresentassem diferença estatisticamente significativa. Se removesse o resultado 2077 do outro grupo, a média desse outro grupo deveria aumentar, também fazendo com que a diferença entre os grupos se estreitasse e, consequentemente, a probabilidade de uma diferença estatisticamente significativa deveria diminuir. Mas não é isso que acontece. Antes de remover esses resultados, o teste t de Student indica 99,987% de probabilidade de que a entidade que jogou nos tabuleiros DGT não tem mesma força que a entidade que jogou nos tabuleiros convencionais, e se remover esses dois outliers dos grupos, em vez de essa probabilidade diminuir, ela aumenta para 99,992%. Isso demonstra uma distorção no teste de Student.


Esse detalhe técnico precisa ser comentado com um pouco mais de profundidade, para que fique claro, porque ao mesmo tempo em que a remoção do valor 2893 faz a média do grupo diminuir, estreitando a diferença, também faz a dispersão ente os elementos restantes diminuir, tornando a distância relativa (medida em desvios padrão) mais larga, e a proporção em que esse alargamento acontece é maior do que a proporção em que a média do grupo diminui, porque o desvio padrão é determinado pela soma dos quadrados das diferenças nas variáveis (expoente 2), enquanto a média é determinada pelo valor das variáveis (expoente 1). Por isso a inserção ou a remoção de um outlier geralmente afeta mais a dispersão do que a tendência central.

O problema nesse caso é que a presença do elemento com valor 2893 “esticava” a dispersão na direção em que esse elemento estava, mas não necessariamente produzia um efeito simétrico na direção oposta. Na verdade, não há qualquer razão para supor que produziria um efeito simétrico na direção oposta. Porém a hipótese de normalidade, que é adotada ao aplicar esses testes, implica simetria da distribuição, de modo que o alargamento produzido num dos lados deveria provocar um alargamento igual no lado oposto, mesmo que não exista nenhum outlier naquela posição que explique tal efeito. Obviamente isso é uma falha na teoria, e essa falha não pode ser perdida de vista quando se examina o problema.


Para compreender melhor essa inconsistência, vamos analisar um erro homólogo no qual esse efeito é mais evidente. O índice de Sharpe é utilizado para avaliar a qualidade de um investimento com base na rentabilidade ajustada ao risco. Suponhamos um fundo de investimento venha produzindo uma rentabilidade anual média de 12%, com benchmark de 2% e com volatilidade 20%, então seu índice de Sharpe anual é aproximadamente 0,5. De repente esse fundo acerta uma boa operação e produz um lucro de 200% em 1 mês. Obviamente isso é bom e deveria implicar um aumento no índice de Sharpe, mas como esse evento implica também um aumento na volatilidade, e o impacto sobre a volatilidade histórica é maior do que sobre a rentabilidade histórica, devido aos motivos citados nos dois parágrafos anteriores, por isso a operação lucrativa de 200% acaba resultando numa redução no índice de Sharpe, penalizando a performance do fundo, quando o correto seria bonificá-la.

Para lidar com esse problema, foi criado o índice de Sortino, que mede separadamente a volatilidade positiva e a volatilidade negativa. No índice de Sortino, a volatilidade positiva não penaliza a o índice, o que é mais lógico e mais útil para uma medida correta da performance ajustada ao risco.


Há várias outras falhas no índice de Sharpe (e no índice Sortino), mas não é nosso objetivo discutir esses pontos aqui. O importante é que o erro que ocorreu no t de Student ao ser aplicado aqui é análogo ao erro citado no índice de Sharpe, em que uma distorção num dos lados da distribuição não implica a ocorrência de outra distorção simétrica no lado oposto, sem que haja um elemento naquela posição que justifique essa interpretação.


[1] Sobre inacurácias na fórmula da FIDE para rating performance


As bases conceituais sobre as quais o sistema Elo foi criado são muito bem fundamentadas, partindo do seguinte princípio: para um grande número de partidas, se um jogador A vence um jogador B numa proporção de 3:1 e este jogador B vence um jogador C numa proporção de 5:1, então A deve vencer C numa proporção de 15:1, pois 3x5=15, e o mesmo se aplica a quaisquer outras proporções. A partir daí, desenvolve-se um modelo matemático para relacionar um rating em escala logarítmica à proporção de probabilidade de vitórias, conforme a fórmula apresentada a seguir:




Onde “RP” é o rating performance, “RM” é o rating médio dos adversários, “p” é a porcentagem de pontos obtidos.


Desse modo, se o jogador faz 100% dos pontos, o termo “1-p” será igual a 0, provocando uma divisão por zero. No extremo oposto, se o jogador faz 0 pontos ocorre “log(0)”. Tanto log(0) quanto divisão por 0 são operações inconsistentes com os axiomas a partir dos quais se edifica a Aritmética.

Para contornar esse problema, a FIDE adota uma tabela para cálculo de rating performance com teto de 800 pontos. Esse valor pode ser diferente em diferentes situações. Alguns utilizam 736 (que na verdade corresponde a 99,5%), ou 677 (que corresponde a 99%), ou 400 (que seria o resultado da linearização da função). Na tabela B, por exemplo, um dos problemas é que em cada evento foi usado um valor diferente para somar ao rating médio nos casos em que o jogador fez 100%.


Esse remendo utilizado pela FIDE é útil sob o ponto de vista prático, mas é inadequado sob o ponto de vista matemático e lógico, porque significa que se um jogador com rating 2810 joga contra outro com 2000, a probabilidade de sucesso do jogador de 2810 é maior que 100%. Isso está obviamente errado. Outra interpretação seria de que 800 pontos estabelecesse um limite assintótico, então todas as diferenças maiores que 800 pontos indicariam probabilidade de vitória igual a 100%. Mas isso também gera inconsistências. Basta pensar num match entre duas engines com 3800 e 3000, em que a diferença é 800 pontos, mas a porcentagem de empates é alta e essa interpretação de que uma diferença de 800 pontos de rating corresponde a 100% de probabilidade de vitória produz graves distorções.


Parte do problema acontece porque o significado quantitativo e o conceitual do empate no modelo de Arpad Elo já havia sido percebido como uma distorção em seu livro de 1978 e continua sendo uma questão difícil de se lidar, porque o sistema Elo é basicamente a aplicação do modelo dicotômico (1 ou 0) de Rasch à medida de performance no Xadrez, mas os resultados possíveis no Xadrez são tricotômicos (vitória, derrota, empate). Elo comenta em seu livro que tentou utilizar uma distribuição trinomial, mas sem muito sucesso, por isso acabou optando por atribuir 0,5 ao empate e utilizar um modelo dicotômico com 1 para vitória e 0 para derrota, tratando o empate como a média aritmética entre vitória e derrota, mas essa interpretação tem se mostrado inacurada, o que já era previsto desde os estudos iniciais de Elo sobre esse tema, mas isso não chegou a ser corrigido adequadamente.


Arpad Elo compreendia que o peso do empate não deveria ser exatamente 0,5, mas era uma aproximação razoável, especialmente se considerar os parcos recursos computacionais da época, por isso, mesmo seu sistema sendo incompleto e com algumas distorções, representou um avanço importante em comparação aos métodos anteriores para medida de rating, como o antigo sistema Harkness, dos anos 1950. Além disso, o peso do empate não é igual para todos os ratings e todos os ritmos de jogo, conforme demonstro em meu livro sobre esse tema. Para ratings mais altos ou para ritmos de jogo mais longos, a probabilidade de empate aumenta para uma mesma diferença de rating, o que é bastante lógico e intuitivo, mas a fórmula utilizada pela FIDE é inconsistente com esse fato, assim como as fórmulas de Glicko2, Sonas etc., que aprimoram alguns detalhes no sistema Elo original, mas não chegam a corrigir esse e outros problemas. Há o sistema Ordo, de Miguel Ballicora, que atenua o problema, mas não o corrige.


A fórmula utilizada pela USCF é essencialmente a mesma da FIDE, portanto sujeita às mesmas distorções e limitações. Há pequenos detalhes diferentes, como os critérios para determinar o valor da constante k nas atualizações de ratings, que implicam um rating médio USCF um pouco mais alto. A maneira como a USCF trata a constante k é conceitualmente melhor se comparada à FIDE (produz menos distorções e de maneira mais suave), mas numericamente a diferença é pequena e, em última instância, ambas as fórmulas são afetadas em proporções semelhantes.


Uma das virtudes importantes do sistema Elo, se comparado a outros rankings esportivos, é que o sistema Elo preserva sua consistência para qualquer faixa de rating: uma diferença de Δ pontos indica mesma probabilidade de sucesso em qualquer região da escala, ou seja, um jogador com 2600 vence um jogador de 2500 na mesma proporção que um jogador de 1600 vence um jogador de 1500, e essa proporção é aproximadamente mantida em qualquer outra faixa de rating. Há pequenas anomalias devido ao problema do empate citado acima, e algumas outras distorções menores, mas basicamente é quase isso. Entretanto, para que essa propriedade seja mantida e o sistema seja consistente, são necessários alguns cuidados no processo de atualização dos ratings, nos cálculos de rating performance etc., mas a maneira como a FIDE determina os valores da constante k não se harmoniza com a proposta original de Elo, implicando distorções. Além disso, a fórmula da FIDE para cálculo de rating performance gera outras inconsistências. A solução da USCF também não é ideal, mas apresenta menos distorções. O modelo de Mark Glickman é comparativamente melhor e tem sido adotado pelas plataformas de jogos online com relativo sucesso, embora também apresente pontos que podem ser melhorados. Há outras alternativas mais acuradas e mais completas do que estas, algumas das quais são aplicadas em outras áreas, como no Mercado Financeiro, para ranqueamento de genótipos nos melhores processos de otimização de estratégias de investimentos, por exemplo.


Por esses e outros motivos, uma análise estatística cuidadosa não deve utilizar a fórmula de rating performance recomendada pela FIDE. Se a finalidade fosse calcular o rating “oficial”, seria obrigatório o uso do método da FIDE, independentemente das distorções. Mas se a finalidade é um cálculo estatístico correto, então é necessário abordar a questão por meio de um modelo consistente e bem calibrado.

Nessa conjuntura, há diferentes maneiras de se lidar com a situação na qual um jogador faz 100% dos pontos. Uma delas é simplesmente acatando o método da FIDE, mas ciente das distorções. Há também uma sugestão de Ken Thompson (co-criador do UNIX e pioneiro das tablebases) para lidar com essas singularidades, que infelizmente também apresenta inconsistências. Há alternativas bayesianas para se utilizar um teto diferente conforme o número de partidas disputadas e/ou conforme a dispersão nos resultados. Pode-se também considerar a média ponderada entre o rating atual do jogador e o rating performance, balanceando os pesos conforme o número de partidas do evento e o número total de partidas que o jogador já disputou, entre outras alternativas.


No caso específico desse artigo, a solução que me pareceu mais apropriada foi tratar o conjunto de todas as partidas com DGT como se fizessem parte de um único evento com 90 jogos, e o mesmo para as 83 sem DGT. Assim se pode eliminar as divisões por 0, sem precisar fazer ajustes arbitrários nem remendos.