Image by Amanda Dalbjörn

 Uma escala de proporção para testes cognitivos 

 Baseado na norma de 2003 do Sigma Test 

Em Teoria da Medida existem 4 escalas com diferentes níveis de informação: categóricas, ordinais, intervalares e de proporção. Os escores em testes de QI, da maneira como são medidos atualmente, estão numa escala ordinal. Isso impõe muitas limitações no que diz respeito aos tratamentos estatísticos que se pode dar a esses resultados. Pode-se apenas saber se um QI é maior ou menor que outro, mas não se pode determinar corretamente diferenças, nem proporções, nem executar qualquer operação aritmética entre os escores. A escala Celsius, de temperatura, por exemplo, está aproximadamente em escala de intervalo, possibilitando medir diferenças de temperaturas, mas não possibilita calcular proporções. A escala Kelvin está numa escala de proporção, possibilitando calcular diferenças, proporções e todas as demais operações aritméticas.

 

Durante décadas a criação de um método para medir o QI numa escala de proporção tem sido o “Santo Graal” da Psicometria, pois isso solucionaria uma grande variedade de distorções nos escores dos testes, contribuiria para aprimorar a fidedignidade e a acurácia nos resultados, eliminaria algumas inconsistências e conferiria um status de maior cientificidade ao conceito de “QI”.

Em 22/11/2000 publiquei um artigo descrevendo esse método de normatização (aqui), mas o Sigma Test ainda não contava com número suficiente de pessoas testadas para que o método pudesse ser aplicado. Em 2003 publiquei um artigo no qual solucionei esse problema empiricamente, aplicando-o no processo de normatização do Sigma Test. A versão original pode ser encontrada em:

https://web.archive.org/web/20060504005149/http://www.sigmasociety.com/artigos/norma_setembro_2003.pdf

Estas são as opiniões de alguns membros das comunidades de elevado QI sobre esse artigo:

https://web.archive.org/web/20041205055629/http://www.sigmasociety.com/sigma_teste.asp

Meu artigo está em português e a única fonte na qual foi publicado é o site de Sigma Society, por isso não teve muita repercussão. Consequentemente, os métodos tradicionais de normatização, menos eficientes, continuam sendo os mais utilizados.

Com a reativação de Sigma Society, pensei revisar e atualizar esse artigo, mas depois acabei preferindo escrever um artigo diferente, descrevendo o método numa linguagem um pouco mais apropriada, mas preservando a ideia original.

Esse processo de padronização tem vantagens importantes em comparação aos métodos anteriores, gerando escores mais acurados, inclusive a partir de amostras menores, e possibilita uma grande variedade de análises que não são possíveis pelos métodos existentes até então. Um exemplo: se fosse possível somar a inteligência de todas as pessoas que já nasceram numa pessoa só, qual seria o QI dessa pessoa? Ou: considerando todas as pessoas que trabalham no Google, qual seria o "QI institucional" dessa empresa, isto é, o nível de produção intelectual do Google é equivale ao de uma pessoa com qual QI? Com o método de normatização utilizado no Sigma Test a partir de 2003, pode-se dar uma resposta bem fundamentada a essa pergunta e a muitas outras que envolvam proporções entre QIs, ou envolvam outras operações mais sofisticadas.

Para conhecer o artigo original de 2003, visite o link citado acima. No texto original há alguns erros e alguns posicionamentos que já não refletem minha opinião atual sobre esse assunto, mas, na essência, a ideia central descrita naquele texto conserva sua validade praticamente intacta.

No presente artigo farei algumas pequenas revisões de alguns detalhes do texto original e tentarei apresentar de forma mais clara e didática os conceitos de pIQ e rIQ. Em seguida, comentarei alguns dos principais home tests, o que eles medem de fato, quais as diferenças entre seus tetos reais e seus tetos nominais e, principalmente, qual é o verdadeiro nível de raridade para cada faixa de QI acima de 130, sobretudo nos níveis mais altos.

 

Se você acredita que uma pessoa com escore 196 num teste de QI padronizado com média 100 e desvio padrão 16 está realmente no nível de raridade 1 em 1 bilhão, provavelmente terá sua opinião revisada após a leitura desse artigo. Se não acredita nisso, mas não saberia avaliar qual seria o nível correto de raridade para esse patamar de QI, nesse artigo você encontra respostas adequadas. Certamente os resultados apresentados aqui não são conclusivos nem exatos, mas proporcionam uma visão mais realista e mais bem fundamentada nos fatos, com maior probabilidade de estar perto da “verdade”, ou pelo menos da “verdade” sob a perspectiva da realidade senciente.

 

Em primeiro lugar, conceituaremos “QI de raridade“, “QI etário” e “QI de potencial”. Este último é um conceito “novo” apresentei pela primeira vez em 2003 e é imprescindível para examinar essa questão de maneira adequada. Os outros dois conceitos são mais antigos, mas frequentemente são interpretados de maneira inadequada, por isso discutirei brevemente essa questão antes de abordar o problema propriamente dito, revisando esses conceitos e introduzindo uma nomenclatura mais apropriada sob o ponto de vista etimológico.

 

 

Conceitos de QI de potencial (pIQ), QI de rarity (rIQ), QI etário (aIQ):

 

Age-IQ (aIQ):

 

O conceito original de QI foi introduzido por Alfred Binet, Theodore Simon, William Stern e Lewis Terman, e representava a divisão da idade mental pela idade cronológica, multiplicando o resultado por um fator 100. Binet compreendia que o termo “idade mental” não era apropriado e preferia o termo “nível mental”. Entretanto, após a morte de Binet, o termo “idade mental” acabou sendo consagrado pelo uso.

 

Há vários problemas com esse conceito. Por exemplo: o QI de uma criança com 10 anos de idade cronológica e 15 anos de idade mental é 150, assim como o QI de uma criança com 5 anos de idade cronológica e 7,5 anos de idade mental também é 150. Entretanto, quando se confere o QI das crianças de 10 anos que haviam sido examinadas e obtido 150 de QI aos 5 anos, constata-se que elas têm sistematicamente menos que 150 quando chegam aos 10 anos. Isso acontece porque o desenvolvimento da inteligência em função da idade não é linear.

 

A curva “real” de desenvolvimento da inteligência (medida em números de acertos em testes e subtestes de QI) em função da idade é semelhante a essas curvas:

1.png

Portanto, muito diferente de uma reta, não atinge o limite exatamente aos 16 anos, nem se conserva estável até o fim da vida depois dos 16 anos, nem é igual para os diferentes tipos de competências intelectuais. A inteligência cristalizada, por exemplo, pode continuar crescendo até os 55 anos.

 

Curvas similares de evolução da inteligência em função da idade são observadas em diversos outros estudos, inclusive sem o uso de testes de QI, como no caso do rating de Xadrez em função da idade:

2.png

 

Para mais detalhes, veja o link para o vídeo no final desse artigo, no qual analiso com mais detalhes esses dois gráficos.

 

Usaremos o termo “age-IQ” ou “aIQ” para representar esse conceito de QI (divisão da idade mental pela idade cronológica).

 

Alguns autores utilizam o termo “ratio-IQ”, que não considero apropriado por não especificar razão entre quais variáveis se está considerando.

 

 

Rarity-IQ (rIQ):

 

Nos anos 1930, David Wechsler contribuiu para solucionar esse problema padronizando os escores para cada faixa etária com base na raridade. Com isso, uma criança de 5 anos que obtivesse escore acima do de 99,87% das outras crianças de sua idade teria QI 145 ou z-score +3σ e uma criança de 10 anos que obtivesse escore acima do de 99,87% das outras crianças de sua idade também teria QI 145 ou z-score +3σ. Com isso, dispensa-se a necessidade de conhecer como varia a inteligência em função da idade, possibilitando inclusive medir e modelar essa variação, entre outras vantagens. Por isso o método utilizado por Wechsler para normatização de testes de QI continua sendo o mais utilizado até hoje, embora haja métodos melhores desde 1950 e principalmente desde 2003.

 

Em princípio, a abordagem do problema de como medir a inteligência numa escala mais bem padronizada, da maneira como foi feito por Wechsler, parece melhor do que a maneira como isso foi feito por Binet, e de fato é melhor, sob alguns aspectos, mas ainda apresenta distorções.

 

Um dos problemas é que o desvio padrão “verdadeiro” com que se distribuem os níveis de habilidade aos 5 anos não é igual ao desvio padrão “verdadeiro” com que se distribuem os níveis de habilidade aos 10 anos, nem aos 16 anos nem em idade adulta. A dispersão dos níveis intelectuais varia com a idade. Outro problema é que se o número de pessoas examinadas é cerca de 1000, isso assegura uma medida correta do nível de raridade até 3 desvios padrão acima ou abaixo da média, mas não se pode tentar extrapolar estimativas de raridade muito fora desse intervalo, com base exclusivamente nesses dados. Outro problema é que os escores forçados a se ajustar a uma escala baseada em raridade não preservam algumas propriedades desejáveis, como a intervalaridade, e isso tem várias implicações negativas. Vamos analisar apenas uma delas:

 

Suponha que um método similar fosse utilizado para medir a altura das pessoas. Num grupo de 1000 pessoas, verifica-se que a distribuição das alturas é bem representada por uma distribuição normal com média 1,70 m e desvio padrão 0,07 m. Então adota-se o mesmo método proposto por David Wechsler para medir a altura, ou seja, verifica-se o nível de raridade com que são observadas pessoas acima ou abaixo de determinada altura ou o percentil, converte-se essa raridade ou esse percentil num número correspondente de desvios padrão acima ou abaixo da média e depois basta calcular a altura somando essa quantidade de desvios padrão à altura média da população. Seguindo esse procedimento, determina-se que a pessoa mais alta registrada na história teve 6,7 desvios padrão acima da média, isto é 2,17 m. Isso é um erro grosseiro, porque a pessoa mais alta registrada na história teve 2,72 m de altura, ou 14,57 desvios padrão acima da média. A probabilidade de alguém ter 2,72 m seria menor que 1 em 4.7 × 1047 se a distribuição das alturas fosse normal. Portanto é evidente que esse método produz resultados incorretos.

 

Além de incorretos, os resultados são também inconsistentes, o que é ainda pior. Se os valores fossem apenas incorretos, mas pelo menos todos os erros estivessem bem posicionados numa escala intervalar ou numa escala de proporção, então seria possível fazer algumas comparações sem grandes distorções. Entretanto isso não é possível (é possível, mas as comparações são grosseiramente distorcidas). Para compreender melhor esse problema, considere a seguinte situação: se forçasse as medidas de altura a se ajustarem a uma distribuição normal, o valor de 1 cm no intervalo de altura em 2,16 m e 2,17 m seria muito diferente de 1 cm no intervalo de 1,70 m a 1,71 m. Isso comprometeria a uniformidade de intervalos da escala, bem como distorceria as medidas de proporção usando essa escala. Citei o exemplo dos intervalos perto de 2,16 m e 1,70 m, mas a distorção está presente na escala inteira. O valor de 1 cm não seria o mesmo em diferentes partes da escala. Isso tem gravíssimas e profundas implicações, conforme veremos mais adiante.

 

Usaremos o termo “rarity-IQ” ou “rIQ” para representar esse conceito de QI (QI equivalente à raridade teórica para determinado número de desvios padrão distantes da média).

 

Alguns autores utilizam o termo “deviation-IQ” para representar esse conceito, que não considero apropriado porque essa escala não mede o QI de desvio, mas sim o QI teórico correspondente a determinado nível de raridade, ou mede a raridade teórica correspondente a determinado escore estimado por extrapolação, com base na hipótese de que a distribuição dos escores é aderente a uma distribuição gaussiana em todo o espectro de escores. Numerosos experimentos mostram que a distribuição real dos escores só é aderente a uma gaussiana no intervalo entre -2,5σ e +2,5σ. Fora desse intervalo, as caudas são mais densas que o esperado, por isso não se pode afirmar que uma pessoa que obteve escore 160 (σ=15) esteja no percentil 99,997%, a menos que o teste tenha sido padronizado com base numa amostra com pelo menos 30.000 pessoas não-seletas (preferencialmente pelo menos 100.000 pessoas não-seletas). Além disso, o nível de dificuldade das questões no WAIS e em praticamente qualquer outro teste de QI tradicional não é apropriado para medir QIs acima de +2σ ou +2,5σ. Outros testes que utilizem métodos similares para padronização, como LAIT, Mega, Titan, Ultra e posteriores, podem ter questões com nível de dificuldade apropriado para medir corretamente até cerca de 165 ou um pouco acima, mas continuam incorrendo no problema de não estabelecer uma correspondência correta entre QI e o nível verdadeiro de raridade, a menos que o número de pessoas examinadas fosse compatível com o nível de raridade que o teste pretende medir. Publiquei um artigo sobre isso em 2002: “What is the true cut-off for high IQ societies?” Relendo esse texto, notei que os argumentos que usei naquela época estão obsoletos e já não refletem exatamente minha opinião, embora, na essência, minha opinião seja quase a mesma. Por isso pretendo escrever um artigo melhor sobre isso, mas por enquanto é recomendável a leitura daquele.

 

 

Potential-IQ (pIQ):

 

A maneira ideal de medir o QI seria numa escala em que os intervalos dos escores fossem iguais em qualquer região da escala. Uma diferença de 1 ponto de QI no intervalo 100 a 101 deveria representar o mesmo que a diferença de 1 ponto no intervalo 180 e 181 ou entre 36 e 37, ou em qualquer outra região da escala. Além disso, seria desejável que os QIs fossem representados diretamente numa escala de proporção ou fossem diretamente conversíveis numa escala de proporção. Uma altura de 1,80 m, por exemplo, representa o dobro de uma altura de 0,90 m. Mas um QI 180 não representa o dobro de um QI 90. A intensidade acústica de 50 dB é 100 vezes maior que a intensidade de 30 dB, assim como a intensidade acústica de 90 dB é 100 vezes maior que a de 70 dB ou 1000 vezes maior que a de 60 dB ou 316 vezes a intensidade acústica de 65 dB. A medida de intensidade acústica não está diretamente numa escala de proporção, mas é diretamente conversível numa escala de proporção mediante o antilog dos valores. O rating de Xadrez também não está numa escala de proporção, mas é diretamente conversível numa escala de proporção. Essa é uma propriedade importante e desejável em qualquer processo de medida.

 

No caso do QI, dois problemas precisam ser resolvidos: como colocar os escores numa escala de proporção que seja consistente e qual o significado dessa “proporção”, isto é, a proporção medida seria “proporção entre o quê”?

 

A solução de colocar os escores de QI numa escala proporção pode ser feita de pelo menos duas maneiras:

 

  1. Converter os QIs em rating de Xadrez e usar a fórmula de Elo para calcular a proporção entre as probabilidades de vitória para esses ratings. Por exemplo: suponhamos que QI 190 seja equivalente a rating 2800 e QI 140 seja equivalente a rating 2000. Como um jogador com 2800 tem cerca de 99% de probabilidade de vencer um jogador com rating 2000, significa que a proporção é 99:1. Outro exemplo: digamos que QI 100 seja equivalente a rating 1100 e QI 130 seja equivalente a rating 1500. Aplicando a fórmula de Elo verifica-se que um jogador com 1500 vence 90% das vezes um jogador com rating 1100, portanto a proporção é 9:1. Mas há alguns problemas: o primeiro é que não é tão simples converter QI em rating de Xadrez de maneira bem fundamentada. Bill McGaugh tentou fazer essa conversão por volta de 1998, e eu também tentei em 2002. Chegamos a resultados semelhantes, mas ambos bastante distorcidos e incertos. Em 2021 dei uma solução adequada a esse problema, mas ainda não a publiquei. Será incluída num de meus próximos livros (o volume II de meu livro sobre os melhores jogadores de Xadrez de todos os tempos). Outro problema é como interpretar essa proporção. No caso do Xadrez, representa a proporção entre número de pontos. Se um jogador com 1500 de rating jogar 1000 partidas contra um jogador com 1100, espera-se que o jogador de 1500 faça cerca de 900 pontos, enquanto o jogador de 1100 faça 100 pontos. Mas no caso de pessoas com QI 130 e 100, qual seria o significado dessa proporção de 9:1? Além disso, o rating FIDE não está numa escala adequada porque o parâmetro k não tem valor constante, além de outras distorções. O QI também não é representado numa escala apropriada e apresenta várias distorções. Portanto essa solução permitiria fazer os cálculos, mas os resultados seriam grosseiramente distorcidos. Há outras dificuldades além dessas, mas não é nosso objetivo tratar desses tópicos aqui, inclusive para não comprometer a fluência do texto.

  2. A outra maneira de calcular proporções é a apresentada nesse artigo. Uma das vantagens é que antes de fazer os cálculos, ela coloca os QIs numa escala cujos antilogs estão numa escala de proporção. Outra vantagem é que ela oferece um significado para a “proporção de quê”, com bons fundamentos empíricos para isso. Outra vantagem é que ela não depende de uma forte correlação entre rating de Xadrez e QI nem de uma boa fórmula de conversão de uma variável na outra. Outra vantagem é que não dependendo de converter em rating, há menor propagação de erros menor incerteza no resultado. Por fim, é interessante comentar que as proporções calculadas por esse método são semelhantes aos calculados pelo outro método descrito acima, baseado no rating. Chegar a resultados semelhantes por dois métodos muito diferentes sugere fortemente que os resultados são razoavelmente próximos dos corretos.

 

Antes de prosseguir, convém enfatizar que não é possível determinar o QI de maneira tão direta quanto se determina a altura ou a massa, usando uma escala de proporção simples como uma régua ou uma balança. Por isso o escore bruto medido não está numa escala de proporção, nem o escore normalizado pelo método de Wechsler, nem qualquer outro escore pelos métodos utilizados até então. O método que proponho nesse artigo elimina essas distorções (ou pelo menos as reduz muito), produzindo escores pIQ cujo antilog está em escala de proporção de potencial.

 

Conceito de “proporção de potencial”: se uma pessoa tem QI 100 e outra tem QI 130, é evidente que não se pode dizer que a pessoa com QI 130 é 1,3 vezes mais inteligente ou 30% mais inteligente. Se uma pessoa com pIQ 100 acerta 7 questões entre um total de 30 num teste de inteligência, enquanto outra pessoa com pQI 130 acerta 18 num total de 30 no mesmo teste, isso também não diz muita coisa sobre o potencial comparativo dessas duas pessoas. Com base nesses dados, seria muito errado dizer que uma pessoa com pIQ 130 é 18/7 vezes mais inteligente do que uma pessoa com pIQ 100, pelo fato de ter acertado 18/7 vezes mais questões. Se considerasse os tempos que cada uma levou para resolver mesmo número de questões seria uma abordagem menos ruim, mas ainda assim inadequada.

 

A maneira correta de lidar com esse problema é a seguinte: se 10 pessoas com pIQ 100, trabalhando independentemente no mesmo conjunto de problemas, conseguem resolver 18/30, enquanto uma pessoa sozinha com pIQ 130 também consegue marcar 18/30, podemos dizer que o potencial de uma pessoa com pIQ 130 é igual ao de 10 pessoas de pIQ 100, ou é 10 vezes maior do que o de uma pessoa com pIQ 100, ou que uma pessoa com pIQ 130 produz intelectualmente tanto quanto 10 pessoas com pIQ 100 somadas. Analogamente, se uma pessoa com pIQ 160 resolver 23/30, podemos esperar que 10 pessoas com pIQ 130 somadas também possam resolver 23/30 e 100 pessoas com pIQ 100 também possam resolver 23/30. Esse é um detalhe muito importante, porque a diferença de 160 para 130 é igual à diferença de 130 para 100, por isso a proporção de potencial também precisa ser a mesma para que a escala seja consistente e para que o valor de 1 ponto de QI seja igual em qualquer região da escala. Para uma discussão mais detalhada desse tema, veja meu livro “Xadrez, os 2022 melhores jogadores de todos os tempos, dois novos sistemas de rating”, no qual explico com detalhes porque essa propriedade precisa estar presente para que um instrumento psicométrico seja consistente. Veja também meu vídeo citado ao final de artigo, no qual explico as diferenças entre os diferentes tipos de escalas (categórica, ordinal, intervalar e de proporção).

 

Essa hipótese é bem fundamentada e pode ser extensivamente confirmada de diferentes maneiras. Por exemplo, com base em mais de 70.000 jogadores de Xadrez, rankeados pela FIDE (2003), num total de 2.300.000 jogos disputados desde 1971. Também pode ser verificada entre os escores do Sigma Test. As respostas certas de 10 pessoas com escores 125 a 135, sem contar as repetidas, é praticamente igual ao número de respostas certas de uma pessoa com escore 160. Isso se aplica a quaisquer outras diferenças de QI, mantendo uma proporção de aproximadamente 10:1 a cada 30 pontos de diferença no escore.

 

Contudo, conforme veremos mais adiante, os escores baseados em rarity-IQ falham nestas predições no intervalo acima de 135, e se 10 pessoas com rIQ 100 produzem tanto quanto 1 pessoa com rarity-IQ 130, a mesma proporção não se mantém quando comparamos 10 pessoas de 130 com uma de 160. Antes é necessário corrigir a escala, convertendo o rIQ em pIQ.

 

Portanto, para que os escores de QI fiquem numa escala cujo antilog seja uma escala de proporção, deve-se medir o pIQ, não o rIQ. Isso não é problema, porque a grande maioria dos testes já medem o pIQ, porém interpretam incorretamente como se estivessem medindo o rIQ. O pIQ é o “escore natural”, por assim dizer, que se calcula nas extrapolações de resultados ao aplicar um teste a poucas centenas ou poucos milhares de pessoas e depois estimar os QIs para níveis de raridade muito maiores do que o tamanho da amostra. Portanto o pIQ vem sendo ostensivamente usado há mais de 100 anos, porém tem sido incorretamente interpretado como rIQ, já que não se conhecia o conceito de pIQ.

 

A distribuição do pIQ não é normal. Tem uma causa densa à direita. Por isso o verdadeiro nível de raridade é diferente, e essa diferença vai se tornando maior para QIs mais altos.

 

O termo “pIQ” que estamos introduzindo é uma grandeza logarítmica que representa a capacidade intelectual. A diferença ΔpIQ entre os pIQs se relaciona com a proporção entre os níveis intelectuais P1 e P2:

formula_pIQ.png

 

Representar os QIs na forma de pIQ oferece vantagens importantes em comparação ao uso de rarity-IQ, não apenas por possibilitar extrair informações que não seriam acessíveis por outros métodos e por permitir cálculos mais acurados dos verdadeiros níveis de raridade, como também por facilitar normatizações mais acuradas inclusive com amostras menos numerosas, entre outras vantagens.

 

Para preservar similaridade com o QI tradicional (rIQ), os valores de pIQ são calibrados prioritariamente perto de 90 a 110. Fora desse intervalo, os valores de pIQ vão se distanciando dos valores de rIQ, pois os valores de rIQ ficam cada vez mais distorcidos, enquanto os escores de pIQ preservam a intervalaridade.

 

Uma das vantagens importantes do pIQ é que o teto do teste pode ser estimado com base na soma dos potenciais das pessoas necessárias para resolver todos os itens. Por exemplo: um teste com 50 questões no qual ninguém obteve mais que 42 certos, mas houve apenas 2 questões que nenhuma das pessoas examinadas conseguiu acertar, pode ter a norma calculada corretamente até raw score 48, mesmo que ninguém tenha chegado perto desse escore. Além disso, assegura que a métrica utilizada nos escores seja mais uniforme, semelhante ao que acontece na medida da altura, da massa e de outras grandezas em escala de proporção.

 

A distribuição dos escores de pIQ tem algumas propriedades diferentes da distribuição dos rIQ, com cauda densa à direita e limite assintótico em 0, conforme o gráfico abaixo:

4.png

 

A tabela a seguir mostra os pIQ correspondentes aos rIQ no intervalo de 1 a 200 de rIQ:

5.png

 

Conforme se pode notar, no intervalo de 90 a 130 os valores de pIQ e rIQ são muito semelhantes, com diferenças menores que 1,5 pontos. Mas acima de 158 as diferenças começam a ultrapassar 10 pontos e vão crescendo aceleradamente.

 

Os valores nominais medidos pelos home tests não são exatamente pIQ, mas são muito semelhantes ao pIQ, entretanto interpretados como se fossem rIQ e são tratados estatisticamente como se fossem rIQ. Os percentis e os níveis de raridade são calculados como se fossem rIQ, resultando em grandes distorções entre as raridades reais e as raridades teóricas estimadas. Por isso, um grupo com menos de 1000 pessoas examinadas aponta 13 escores no percentil 99,9999999% (1 em 1 bilhão) e acima, com alguns resultados chegando ao nível de raridade de 1 em 10 bilhões ou mais.

 

Claro que um grupo de 1000 pessoas seletas é muito diferente de um grupo de pessoas aleatórias, e isso não pode ser desconsiderado ao analisar essa questão. Também é preciso considerar que nos níveis mais altos de QI há maior probabilidade de a pessoa se interessar em fazer os testes, porque a recompensa constitui uma motivação mais atraente. Por isso num grupo de apenas 1000 pessoas ego-selecionadas se espera que haja uma maior concentração de pessoas QI muito acima da média, numa proporção bem maior do que seria observada entre uma população não-seleta. Por outro lado, para um número substancial de pessoas com QI perto do teto mundial, o interesse em dedicar tempo à resolução desses testes de QI é muito pequeno, praticamente deixando de fora algumas das pessoas mais inteligentes do mundo, como Perelman, Witten, Wiles, Smale etc. Além disso, pessoas com alguns dos escores mais altos, como Tao, só foram avaliadas na infância. Se os home tests fossem aplicados de forma abrangente, em todos os laureados com medalhas Fields, prêmios Abel, Nobel de Física, prêmios Turing e outros prêmios similares, quantas pessoas no mundo ficariam no percentil 99,9999999%? O número certamente seria muito maior do que o previsto.

 

A maioria dos ganhadores do Nobel só chegou a ser avaliada na infância por meio de testes com teto abaixo de 150 ou 160, dificultando a determinação correta de seus QIs, além do problema de que os testes de clínica supervalorizam a rapidez para resolver problemas elementares e não incluem questões realmente difíceis. O estudo longitudinal de Terman de 1926, que não selecionou os dois ganhadores de Nobel que estavam entre os candidatos e não incluiu nenhum ganhador do Nobel entre 1528 selecionados, por exemplo, mostra que os testes tradicionais com teto verdadeiro perto de 130 falham gravemente na avaliação de pessoas com QI muito acima de 150.

 

Se a o modelo usado para converter rIQ em pIQ estiver com os valores dos parâmetros razoavelmente próximos dos valores corretos, o QI 196 corresponde ao nível real de raridade perto de 1/700.000 e o QI 176 corresponde a 1 em 25.000. Isso não significa que esses escores nos home tests tenham esses níveis de raridade, porque os escores nos home tests não estão exatamente em pQI. Geralmente estão num nível intermediário entre pIQ e rIQ, um pouco mais perto dos pIQ. No caso do Sigma Test, os escores são calculados em pIQ e rIQ, mas como os escores rIQ são determinados a partir de correlações e calibrações com outros testes, estão sujeitos às mesmas distorções presentes nos outros home tests. Mas como para QIs abaixo de 140 e principalmente abaixo de 130 os rIQ dos home tests são razoavelmente acurados, estes podem servir para determinar alguns pontos de referência na escala, converter os escores em pIQ e, a partir daí, determinar os demais valores da escala em pIQ.

 

Por isso o ideal seria que todos os testes que pretendem medir QIs acima de 130 e principalmente acima de 140 passassem a utilizar o método de padronização que é descrito em meu artigo de 2003, calculando explicitamente o pIQ, depois convertendo em rIQ e calculando corretamente os níveis de raridade correspondentes.

 

Em 2001 e 2003 eu já havia sugerido isso antes de existir algum membro em Giga Society. Agora, com 13 membros, o erro começa a ficar mais evidente. Se fosse oferecido um prêmio de $ 2.000.000 a quem alcançasse o escore 207 necessário para entrar em Grail, em vez de cobrar taxas de $ 10 a $ 50, é possível que as pessoas que trabalham nos problemas do instituto Clay dedicassem seriamente um tempo substancial a esses testes e o erro nas normas provavelmente ficaria mais claro, porque começariam a aparecer pessoas com nível teórico de raridade no nível de 1 em 1 trilhão ou até mais raras.

 

Os escores de QI medidos pela maioria dos home tests estão razoavelmente próximos dos “corretos” (em pIQ) nas proximidades do teto e em boa parte da norma, mas os níveis de raridade correspondentes estão grosseiramente superestimados.

 

O gráfico abaixo mostra os níveis de dificuldade (rIQ) dos itens do Sigma Test (vermelho), do Titan Test (amarelo) e do Mega test (azul):

6.png

 

Tanto o Mega quanto o Titan possuem um número muito grande de itens com quase mesmo nível de dificuldade (entre 140 e 150), que não contribuem para discriminar níveis de habilidade acima e abaixo desse intervalo. Das 48 questões, o Titan possui apenas 4 com nível de dificuldade acima de 150 de QI. O Mega possui 13 com dificuldade acima de 150, mas apenas 1 com dificuldade acima de 160. As questões são interessantes, mas o nível de dificuldade não é apropriado para discriminar acima de 170 e com muito otimismo chegam a discriminar perto de 165.

O fato de as questões mais difíceis do Sigma Test terem nível de dificuldade maior que as mais difíceis do Mega e Titan não implica necessariamente que seja mais difícil obter escore perfeito no Sigma Test. Um item com dificuldade rIQ 150 significa que há 50% de probabilidade de ser resolvido por uma pessoa com QI 150. Se 200 pessoas com pIQ 150 tentarem resolver esse item, 100 delas conseguirão resolver e 100 não conseguirão.

 

Portanto, quando se considera 2 questões com nível de dificuldade 150, se elas não estivessem correlacionadas, haveria 25% de probabilidade de que uma pessoa com QI 150 conseguisse resolver ambas. Se fossem 3 questões, e não estivessem correlacionadas, haveria 12,5% de probabilidade de uma pessoa com QI 150 resolver todas as 3, e assim por diante. Quanto maior o número de questões, menor a probabilidade de acertar todas elas, mesmo que todas elas tivessem mesmo nível de dificuldade.

 

Quando essas questões estão fortemente correlacionadas, a situação muda e a probabilidade de resolver uma ou todas acaba sendo quase igual, dependendo de quão forte seja a correlação entre elas. As questões 21, 22 e 23 do Sigma Test, por exemplo, funcionam quase como se fossem uma só, porque quase todas as pessoas que acertam a 21 também acertam a 22 e a 23. A 23 é mais difícil que a 22 e a 22 é mais difícil que a 21, mas a ideia geral que conduz à solução de uma delas é quase igual à que leva à resolução das outras. Portanto são questões muito redundantes, que não contribuem muito mais para o nível de discriminação do teste do que se apenas 1 delas estivesse presente. Esse comentário também ajuda a compreender melhor o que eu havia dito anteriormente sobre um alfa de Cronbach muito alto ser ruim, pois indica alta redundância entre as questões.

 

Também é importante esclarecer que resolver 10 questões com nível de dificuldade 150 não é comparável a resolver 1 questão com nível de dificuldade 180. As probabilidades podem ser iguais nos dois casos, mas os significados não são os mesmos. Por analogia, pode-se pensar na dificuldade para obter escore 160 num teste cronometrado, cujas questões sejam muito mais fáceis que as de um home test, e comparar com a dificuldade para obter 160 num home test. A probabilidade de obter QI=160 pode ser a mesma nos dois casos, entretanto o que está sendo medido no teste cronometrado não é a mesma variável que está sendo medida no home test. São competências diferentes. Por isso resolver 10 questões com nível 150 de home test não é um indicativo tão confiável de nível intelectual de 180 quanto resolver 1 questão de nível 180, ainda que a probabilidade de alcançar esse nível de acertos seja semelhante.

 

No site do Miyaguchi (http://miyaguchi.4sigma.org/) estavam disponíveis para download os dados brutos de várias pessoas examinadas com o Mega Test e o Titan Test. Com base nesses dados foi possível realizar uma estimativa de norma para esses dois testes utilizando o método descrito no artigo sobre a norma de 2003 do Sigma Test. Entretanto as planilhas disponibilizadas no site do Miyaguchi não fornecem os resultados de todos os testees, geando alguns vieses no resultado.

 

Os dados brutos de outros testes não estão disponíveis on-line, por isso o estudo realizado em 2003 só considerou esses 2 instrumentos psicométricos do Ronald Hoeflin e o próprio Sigma Test. No caso do LS60, se não houver erros no gabarito, o fato de ninguém ter obtido escore perto do teto pode indicar um teto mais elevado que os dos demais testes. Entretanto, seria necessário assegurar que todas as respostas no gabarito são de fato as melhores para cada item, de modo que os “erros” sejam de fato erros. Mesmo nesse caso, ainda haveria a dúvida se o nível de dificuldade das questões é apropriado e se as questões medem de fato o que se propõem a medir. Para tanto, seria interessante investigar a variação no alfa de Cronbach em função da dificuldade dos itens. Se o alfa de Cronbach estiver diminuindo nas proximidades do teto do teste, isso pode indicar os itens mais difíceis não estão discriminando corretamente. Uma análise de itens tradicional também pode auxiliar nessa investigação. Mas haveria outros detalhes a serem investigados.

 

A correlação do Mega Test com testes tradicionais de QI (pre-Omni) apresentou correlação fraca (0,33) e inteiramente determinada por 1 único escore: o da Marilyn. Se remover o escore da Marilyn da lista, a correlação fica perto de 0 e ligeiramente negativa!

7.png

 

Sem o escore 230 (provavelmente da Marilyn):

8.png

 

A outra amostra de correlações apresentada no site também apresenta correlação 0,33:

9.png

 

É estranho que uma pessoa com 93 de QI tenha acertado 29 respostas, enquanto uma pessoa com 151 de QI tenha acertado 3, uma pessoa com QI 73 teria acertado 18, e outras anomalias. Portanto há erros evidentes nessas informações. Os resultados apresentados no site sugerem que algumas pessoas podem ter recebido ajuda na resolução dos problemas ou podem ter relatado um valor incorreto do próprio QI. O self-reports aparentemente não são confiáveis.

 

Sem filtrar esses erros, os resultados sugerem que o teto do teste fica perto de 155 a 160, não 190+.

 

Removendo os escores abaixo de 100, a correlação sobe um pouco para 0,42, mas o teto ainda parece ficar perto de 155 a 160.

10.png

 

A norma para o Mega Test  e o Titan Test baseada no método descrito no artigo sobre a norma de 2003 do Sigma Test, que publiquei naquela época, sugere que o teto real desses testes fica entre 165 e 170. Bob Seitz comentou que havia chegando a um resultado semelhante. A antiga norma de Grady Towers sugere um teto perto de 200 e pode ser acessada aqui: http://miyaguchi.4sigma.org/hoeflin/megadata/gradynorm.html. A norma que calculei pode estar enviesada porque utilizei apenas os dados disponíveis no site do Miyaguchi. É possível que o teto correto fique um pouco acima de rIQ 170, mas dificilmente chegaria a rIQ 180. Quanto ao pIQ, deve chegar a cerca de 190 ou 200.

 

O método descrito na norma de 2003 do Sigma Test é muito semelhante ao modelo de Rasch de TRI, que Towers afirma ter sido utilizado no cálculo dessa norma citada no link acima, cujos valores numéricos são semelhantes aos que obtive para o teto desses testes medido em pIQ.

 

Os dados podem ser acessados nessas páginas:

http://miyaguchi.4sigma.org/hoeflin/megadata/megacorr1.html 

http://miyaguchi.4sigma.org/hoeflin/megadata/megacorr2.html 

Tanto o Mega Test quanto o Titan Test me parecem ser bons instrumentos psicométricos. Mais do que isso, são separadores de águas, por terem sido, logo depois do LAIT, os primeiros a medir corretamente QIs acima de 135, utilizando questões com nível de dificuldade compatível com o nível intelectual supostamente medido. Entretanto, os cálculos de percentis a partir dos escores estão incorretos, e esse erro tem siso repetido e propagado por toda parte.

 

Portanto, não basta que um teste seja inerentemente bom, no sentido de ter boas questões e ter sido bem normatizado. Além disso é importante que não se faça algumas confusões, como tem sido feitas, entre pIQ e rIQ, para os níveis de raridade não sejam calculados com valores absurdos, gerando contradições evidentes e comprometendo a credibilidade de algumas comunidades de elevado QI, por reivindicarem estar num percentil que claramente não estão.

 

O que considero “bom teste de desempenho mental” precisa reunir essas características:

 

  • Questões com vários níveis de dificuldade, compatíveis com o intervalo de QI que pretende medir.

  • Questões que exigem diferentes tipos de pensamento. Um alfa de Cronbach excessivamente alto (maior que 0,85, por exemplo) não é uma vantagem. Ao contrário, isso pode indicar que as questões são demasiado redundantes e não estão cobrindo uma variedade suficiente de aptidões, mas sim medindo um conjunto muito estreito e especializado de habilidades.

  • O teto de dificuldade seja compatível ao teto de QI que se deseja medir. Esse é um dos problemas mais frequentes. Testes com teto de dificuldade apropriado para QIs perto de 165 ou 170 possuem tetos nominais de 190 ou mais, mas seus tetos reais ficam limitados a cerca de 170.

  • Não sejam sobrecarregados culturalmente.

  • Se a finalidade do teste for medir corretamente QIs acima de 130, não deve tentar provocar erros pela escassez de tempo. Os erros devem ser cometidos pela real dificuldade para se resolver as questões.

 

Essa lista não é completa, mas inclui alguns dos quesitos mais importantes.

 

Um teste com dezenas de questões muito fáceis, como o WAIS, Stanford-Binet, Cattell ou RAPM, por exemplo, pode ser apropriado apenas para pIQs até 135-140. Acima deste nível, esses testes medem apenas quais das pessoas com pIQ acima de 140 são mais velozes para solucionar problemas simples, mas não servem para diferenciar entre pessoas com pIQ 140 e 150 e muito menos para diferenciar entre pIQs muito acima de 150. Esses testes podem dizer que as pessoas que marcam 25/30 surgem com nível de raridade 1 em 1000, e as pessoas que marcam 20/30 surgem com nível de raridade 1 em 200, mas isso não significa que quem marca 20/30 tem QI 140 e quem marca 25/30 tem QI 150, porque acima do nível 140 o teste está avaliando quais pessoas com 140+ são mais rápidas. Embora a rapidez correlate positivamente com a inteligência, não é uma correlação forte. Então a pessoa que marcou 25/30 pode realmente ser alguém com QI 150, mas também pode ser alguém com QI 140 cuja rapidez é maior que 80% das outras pessoas com QI 140, e nesse caso ela ficará nos 20% superiores, ou seja, 1 em 1000, enquanto aquela que marcou 20/30 pode ter QI 140 ou pode ter 150, 160, 170 etc., mas sua velocidade estar na média do grupo das pessoas de 140 ou um pouco abaixo da média desse grupo.

 

Essas distorções não acontecem apenas no nível 140+, mas em praticamente qualquer nível de QI. O motivo pelo qual estamos comentando especificamente o problema no nível 140+ é que a partir daí as distorções se tornam muito maiores, porque chega ao ponto em que o pensamento profundo começa a ser um elemento mais importante na determinação da inteligência do que a velocidade de raciocínio. Um exemplo famoso no qual há grave distorção desse tipo é o QI de Feynman, que obteve 123 no Raven e 135 no Eysenck, embora seu rIQ correto provavelmente esteja perto de 185 a 195, que corresponde a um pIQ perto de 215 a 235.

 

Por isso, um teste cuidadosamente normatizado, com base em milhões de testees, capaz de discriminar num nível de 1 em 40.000.000 (rIQ 187), como é o caso do Cattell III, não teria validade fora do intervalo de QI 60-140, a menos que as questões fossem suficientemente difíceis para medir corretamente acima 140, suficientemente fáceis para medir abaixo de 60, e o número de acertos casuais (chutando todas as questões) fosse muito diferente do número de acertos correspondente a 60.

 

Um teste bem normatizado, como o Mega Test ou Titan Test, pode discriminar corretamente em níveis bem acima de 140, talvez chegando a pIQ 180 ou pIQ 190, porém ao calcular os percentis teóricos correspondentes, os resultados estão muito distantes dos corretos.

 

Veja também o artigo original no qual apresentei esse método de padronização, em 2003, com aplicação do mesmo método para calcular as normas do Sigma Test, Mega Test e Titan Test:

https://web.archive.org/web/20050520044356/http://www.sigmasociety.com/artigos/historia.pdf

 

 

Algumas revisões ao texto de 2003:

 

No artigo de 2003 está escrito:

 

A incerteza estimada no teto do Sigma Test, conforme o artigo de 2003, é cerca de 0,4 ponto de pIQ (243,6 ±0,4). Um comentário muito interessante do nosso amigo Albert Frank merece ser incluído aqui e esclarecido. Ele diz aproximadamente isto:

  

“O nível de dificuldade da questão 35 do Sigma Test é 66, mas se amanhã uma pessoa fizer o teste e acertar esta questão, o nível cairá para 44. Portanto o teto do teste não pode ter uma incerteza de apenas 0,4.”

 

O comentário é totalmente pertinente, mas se a pergunta 35 do ST tem peso 66 e amanhã uma pessoa a acertasse e o peso caísse para 44, isto afetaria o escore mais alto em 4 pontos (de 206 passaria a 202), e as outras 5 pessoas que tiveram fração de ponto por resposta parcialmente certa, teriam variação de 0,2 em seus QIs. Os demais QIs não sofreriam nenhuma variação maior do que 0,05. Isso pode causar a ilusão de que os escores mais altos têm incerteza de 4 pontos e o teto teria incerteza ainda maior, mas não é o que acontece, porque seria preciso levar em conta a probabilidade de que o próximo testee acertará esta pergunta. Se a probabilidade fosse 1 em 2, então realmente haveria uma incerteza de cerca de 2 pontos no escore mais alto, mas todos os dados de que dispomos sugerem que a probabilidade é cerca de 1 em 67, então a incerteza é muito menor do que 4 pontos, provavelmente cerca de 0,06. Essa incerteza é baseada numa única pergunta. A incerteza combinada das 36 perguntas deve ser aproximadamente 0,06*35^½, ou seja: 0,36. Mas a maneira como essa incerteza é estimada pode ser inapropriada. Contudo, a incerteza provavelmente é pequena em praticamente toda a norma de 100 até 200 (erro menor que 1 ponto) e pode chegar a 5 pontos no teto.

 

Em primeiro lugar, é importante esclarecer a diferença entre “precisão”, “acurácia” e “repetibilidade”. A acurácia do teste com certeza não chega nem perto de 0,4 pontos. O erro deve ser maior que 5 pontos, talvez maior que 10 pontos. A precisão talvez também seja maior que 5 pontos. A repetibilidade – se a mesma pessoa refizesse o teste e se empenhasse ao máximo na primeira tentativa, e não soubesse quais respostas acertou quando fizesse a segunda tentativa – talvez o escore tenha erro perto de 0,4, mas mesmo assim acho difícil. O erro deve ser maior que 0,4, talvez não muito maior. Portanto há subestimativa do erro em meu artigo de 2003, e a crítica feita por Albert Frank é correta.

 

A diferença entre o QI real da pessoa e o escore gerado pelo teste deve ser maior que 5 pontos nas proximidades do teto, talvez maior que 10 pontos. Além disso, o erro deve ser fortemente assimétrico (o erro para menos é muito maior que o erro para mais). Por exemplo: um resultado 210 deve indicar algo entre 190 e 215, com dispersão para cima muito menor que dispersão para baixo.

 

Há mais alguns erros e outros detalhes no artigo de 2003 que talvez eu revise no futuro.

 

Alguns links recomendados:

 

Opiniões sobre a norma de 2003 do Sigma Test e o novo método de normatização proposto:

http://www.sigmasociety.com/sigma_comentario-novo.asp

 

Sobre escalas de proporção, de intervalo, ordinais e categóricas:

https://youtu.be/u9dXkSmfldo

 

Entrevista na qual esclareço algumas dúvidas gerais sobre QI e Psicometria:

https://youtu.be/AhCYUMoo1t0

Normas de 2003 e 2004 do Sigma Test, com a versão original desse artigo:

https://web.archive.org/web/20060504005149/http://www.sigmasociety.com/artigos/norma_setembro_2003.pdf

https://web.archive.org/web/20060430090319/http://www.sigmasociety.com/artigos/norma_set_2004.pdf

 

Outros artigos e vídeos:

https://www.saturnov.org/outrostemas

https://www.saturnov.org/autor