top of page
cerebro.png

Sigma Test Light

O Sigma Test Light  é um instrumento psicométrico de avaliação intelectual com muitos diferenciais importantes em comparação a outros testes cognitivos. Segue a mesma linha do Sigma Test, Sigma Test VI e Sigma Test Extended, que são internacionalmente reconhecidos como alguns dos melhores testes de inteligência que existem, e desde 2001 já foram aceitos para admissão em algumas das principais sociedades de alto QI em 5 continentes.

O Sigma Test Extended foi projetado para ser o teste de inteligência mais difícil que existe e com melhor validade de constructo nos níveis mais altos, possibilitando avaliar corretamente pessoas com QIs acima de 220, por meio de questões com nível de dificuldade adequado e que exigem habilidades cognitivas compatíveis. É muito diferente de testes como Stanford—Binet (SB), que alegadamente medem até 225, quando na verdade as questões mais difíceis do SB estão num nível de 130, isto é, algumas pessoas com 130 de QI teriam cerca de 50% de probabilidade de acertar as questões mais difíceis do SB, além de os processos cognitivos envolvidos na resolução serem excessivamente primários para avaliar em níveis acima de 125. Para mais informações sobre o Sigma Test Extended, visite o link no final desse texto.

O Sigma Test Light é uma versão mais acessível do Sigma Test, destinado ao público com QI entre 90 e 180, podendo se estender um pouco além dessa faixa, chegando a cobrir o intervalo de 75 a 190.

A faixa ótima de precisão e acurácia fica no intervalo de 100 a 170, destinando-se a pessoas classificadas como possuindo inteligência acima da média, que obtiveram escores a partir de 110 em testes de QI convencionais e desejam uma avaliação mais representativa de sua real capacidade intelectual.

Embora o significado de “acima da média” seja arbitrário e vago, é um padrão amplamente aceito. Em livros acadêmicos sobre Psicometria pode-se encontrar classificações por faixa de QI segundo as opiniões de diversos autores, inclusive as mais tradicionais como de Terman, Wechsler, Levine e Woodcock, até outras menos conhecidas. Essas classificações são subjetivas e sem valor científico, em que os níveis de corte são “chutados” pelos autores. No caso de Lewis Terman, por exemplo, decidiu “chutar” que as classificações deveriam ser assim:
 

image.png

Pinter decidiu que deveriam ser assim:

image.png

Levine decidiu que deveriam ser assim:

image.png

Outros autores deram outros palpites sobre como achavam que deveriam ser as classificações.

 

Essa maneira de promover estratificações e classificações, com base em palpites pessoais, é pseudocientífica, mas é amplamente usada e aceita na psicologia, o que representa um erro grave, do ponto de vista conceitual.

  

A maneira adequada seria que procurassem identificar características comuns presentes nas pessoas situadas em cada faixa de QI e discriminatórias em pessoas situadas em faixas diferentes e, a partir daí, estabelecer pontos de corte adequados para delimitar esses perfis. Isso deveria ser prioritariamente feito com o uso de ferramentas estatísticas como Wavelets, Análise de Clusters, Análise Fatorial ou algo equivalente.

Quando as classificações são realizadas de maneira apropriada, as divisões não ficam posicionadas de 10 em 10 pontos ou de 20 em 20 pontos, mas sim em intervalos variáveis e com números que raramente são redondos. O Sigma Test, por exemplo, adota classificações seguindo essa linha, utilizando Análise Fatorial com ligações Ward e métrica de Bhattacharyya para as distâncias entre fatores, resultando em estratificações muito mais bem fundamentadas e com valor científico.

Embora as classificações listadas nas tabelas acima não sejam acuradas nem conceitualmente válidas, são amplamente aceitas e utilizadas, por isso quando nos referimos à faixa de QI “acima da média” estamos mantendo esse padrão, por enquanto. Mas no laudo apresentamos a classificação correta, e adicionamos também, a título de curiosidade, as outras classificações incorretas adotadas desde 1916.

Além de adotar um sistema incorreto de classificação, os testes de QI tradicionais apresentam muitas outras falhas. Não caberia aqui enumerar e comentar todas elas (isso é feito no “Livro de ouro da inteligência”), aqui citaremos apenas alguns dos problemas mais graves, entre os quais se destacam as avalições com erros astronômicos, que podem chegar a mais de 100 pontos.

Existem muitos casos de pessoas que receberam avaliações gritantemente incorretas em testes tradicionais, tanto para cima quanto para baixo, e isso pode ter vários efeitos negativos. A maioria desses erros nunca chega a ser descoberta, porque a pessoa simplesmente “engole” e a acredita na avaliação, confiando na autoridade do psicólogo. Mas há alguns poucos casos que acabam sendo identificados e denunciados, porque o erro é tão escandaloso que não há como fazer vistas grossas. Citarei alguns exemplos:

Existe um concurso nos EUA que consiste em resolver problemas difíceis de Matemática e Lógica, semelhante às Olimpíadas da Matemática. As questões desse concurso não podem ser resolvidas simplesmente aplicando fórmulas que os alunos são treinados. É necessário compreender aspectos sutis e complexos e inventar métodos originais para resolvê-los. O nome desse concurso é “Putnam”.

O campeão do prêmio Putnam e ganhador do Nobel de Física Richard Feynman, teve escore 123 num teste de QI. Para se ter uma ideia do que isso representa, basta dizer que a população dos EUA na época de Feynman era cerca de 200.000.000, e ser campeão no Putnam o situava pelo menos no nível de 1 em 1.000.000 e provavelmente acima disso. Entretanto um QI de 123 corresponde ao nível de raridade de 1 em 13, ou seja, numa sala de aulas com 100 alunos, cerca de 7 ou 8 possuem QI acima de 123. Como se o prêmio Putnam não bastasse, Feynman ganhou também o Nobel de Física, foi um dos participantes mais jovens no projeto Manhattan e fez várias contribuições importantes à Física e à Ciência em geral, inclusive merecia mais do que um prêmio Nobel. Seu nível intelectual estava seguramente entre 1 em 30.000.000 e 1 em 300.000.000, mas seu escore no teste de QI dizia que estava no nível de 1 em 13. O QI correto de Feynman fica na faixa de 210 a 230.

Outro caso de avaliação bizarra em teste de QI envolve o campeão mundial de Xadrez Bobby Fischer, que também teve escore 123. Algumas fontes citam "incorretamente" o valor de 187, outras citam 184 ou 181, mas os documentos oficiais da escola onde Fischer estudou no Brooklin mostram o escore 123. Ironicamente, embora esse valor 187 tenha sido “inventado” por algum jornalista, está mais próximo do valor verdadeiro do que o QI “oficial” medido por um psicólogo.

O campeão mundial de Xadrez Garry Kasparov também teve 123 no Raven e 135 no Eysenck, embora o QI verdadeiro de Kasparov fique entre 160 e 180. Algumas fontes também atribuem 192 a Kasparov, mas esse é o resultado da conversão do rating FIDE máximo que ele alcançou (2851) em QI, usando a fórmula de Bill McGaugh, que apresenta vários problemas conceituais e quantitativos, mas ainda gera um escore mais próximo do correto do que os resultados que ele obteve em testes de QI tradicionais.

O caso mais absurdo é provavelmente o de Henry Poincaré, um dos maiores matemáticos de todos os tempos, um dos maiores cientistas e um dos maiores intelectuais da História, que obteve 35 de QI, entretanto seu QI correto fica entre 220 e 240.

No extremo oposto, há pessoas que alcançam escores 200, 300 e até 400, mas cujo QI verdadeiro fica entre 150 e 170. Adragon de Mello é um exemplo, que obteve escore 400 na infância, mas ao chegar em idade adulta, não cumpriu nenhuma das profecias sobre sua esperada genialidade, revelando-se uma pessoa muito inteligente, mas num nível de 160, bem longe dos astronômicos 400.

Houve várias outras crianças em situação similar, como Ainan Cawley, Michael Kearney, Edith Stern, Marnen Laibow-Koser, Sho Yano, Michael Grost, Nadia Camukova e muitos outros, que se mostraram rápidos e precoces na execução de tarefas simples e fáceis, apropriadas para medir corretamente até 130 de QI, mas devido a erros na normatização dos testes ou de extrapolação feita pelos examinadores, foram avaliados em mais de 200, alguns chegando a mais de 300, quando na verdade os QIs corretos dessas pessoas ficam perto de 150, que é de fato alto, mas 150 corresponde a um nível de raridade 1 em 1.000, enquanto 200 está num nível teórico de 1 em 5.000.000.000 (quando se ajusta corretamente os QIs para uma escala de proporção e se considera a distribuição verdadeira, que não é gaussiana, então o escore 200 corresponde a 1 em 5.000.000).

Tanto esses escores distorcidos para cima quanto os distorcidos para baixo podem causar vários problemas. Einstein, quando criança, foi avaliado como retardado, embora ele fosse um dos maiores gênios da história. Thomas Edison também foi sub-avaliado, assim como o já citado Poincaré e muitos outros.

Em casos como os de Feynman, Einstein, Poincaré e outros grandes cientistas, a história se encarregou de revisar os erros grotescos de diagnósticos, mas quantos são os casos de pessoas brilhantes que poderiam ter mudado a história, que nunca chegaram sequer a se tornarem conhecidas porque alguma avaliação incorreta as empurrou para baixo?

Também ocorrem muitos problemas causados por distorções para cima. Justin Chapman foi uma criança prodígio que ganhou grande destaque nas mídias no final dos anos 1990, por ter quase 300 de QI aos 4 anos de idade. Mais precisamente, o escore atribuído a ele pelos psicólogos e pela mídia foi 298, mas o correto era cerca de 140 a 150. Isso levou à criação de uma série de problemas de cobrança excessiva, exposição, bullying, ofensas etc., a tal ponto que com 6 anos de idade ele chegou a tentar suicídio. Imagine uma criança de 6 anos querendo se matar porque não suporta o inferno que se tornou sua vida devido aos desdobramentos de uma avaliação psicológica incorreta.

Outro caso bem mais famoso é o de William James Sidis, que teve seu QI avaliado entre 250 a 300, e quase todos os tabloides sobre o assunto costumam citar Sidis como a pessoa mais inteligente que já viveu, quando na verdade seu QI verdadeiro foi cerca de 170 a 190. Sidis também enfrentou cobranças excessivas e diversos outros problemas, até que não suportou mais a pressão, quando concluiu seu doutorado aos 17 anos com distinção Cum Laude, mas seus pais esperavam que obtivesse uma Summa Cum Laude, e em vez de parabenizá-lo, eles o repreenderam duramente. Foi a gota d’água e, a partir de então, Sidis decidiu abandonar a carreira acadêmica para viver perambulando pelo mundo em atividades sub-profissionais e colecionando placas de automóveis.

É importante destacar que o problema não está no QI elevado, mas na distorção do resultado. Gauss, por exemplo, foi avaliado corretamente e cumpriu as expectativas de se consagrar como um dos maiores gênios da História. O mesmo sucedeu com Pascal, John von Neumann, Évariste Galois e outros. Não havia testes de QI na época em que a maioria deles viveu, mas foram diagnosticados como gênios desde a infância, e confirmaram essa genialidade em idade adulta, com importantes descobertas que ampliaram os horizontes do conhecimento. Isso porque não foram diagnosticados com base em testes de QI que utilizam questões primárias, mas sim com base em suas notáveis realizações, que já se revelaram impressionantes desde os primeiros anos de vida, realizações que também envolvem a resolução de problemas de lógica, matemática e ciência, mas com um nível de dificuldade e complexidade muito maior do que o teto dos testes de QI, problemas semelhantes aos que são utilizados nos testes Sigma.

Esses erros de avaliação acontecem porque os testes de QI tradicionais são planejados para avaliar o nível intelectual de pessoas entre -2 e +2 desvios padrão em relação à média, isso inclui cerca de 95,5% da população com QI entre 68 e 132. Quando a pessoa está nos 2,3% acima de 132 ou nos 2,3% abaixo de 68, os resultados no teste não refletem tão bem sua real capacidade, e quanto mais distante o QI real da pessoa estiver dessa faixa, maior é o erro potencial entre o escore medido e o QI verdadeiro.

Os testes tradicionais, usados em clínicas, não incluem questões com nível apropriado de dificuldade nem atendem aos quesitos necessários para que tenham validade de construto fora desse intervalo. Esse tema é analisado de forma didática em minha entrevista para o In-Sight Journal, bem como em alguns de meus vídeos e artigos.

Essa crítica se aplica aos testes mais respeitados, como WAIS, Stanford-Binet, Raven, DAT, Cattell etc. Quando se trata de outros testes, cuja padronização não é tão cuidadosa e a validação de constructo não é tão rigorosa, as falhas são muito mais graves e mais numerosas, inclusive contendo questões ambíguas, gabarito incorreto, distorções nas normas, inexistência de resposta aceitável em algumas questões etc. Na verdade, inclusive testes consagrados como o WAIS também apresentam vários desses problemas, mas os outros apresentam problemas ainda mais graves e mais frequentes. Veja minha análise sobre os erros do WAIS no “Livro de ouro da inteligência”.

Apesar dessas falhas, o WAIS ainda é um instrumento bastante razoável para medir níveis intelectuais entre 70 e 130. Embora o WAIS produza escores nominais até 160 ou 155, dependendo do ano da norma, as pontuações acima de 130 carecem de validade. Muitos psicólogos, no entanto, não possuem uma clara compreensão dessa limitação e acabam emitindo laudos com escores irreais. Muitas das crianças citadas acima foram vítimas desse tipo de diagnóstico incorreto. Esses psicólogos não fazem isso por maldade, mas por desconhecimento.

Lewis Terman, por exemplo, em seu estudo com 1528 crianças superdotadas, enfrentou vários problemas de previsão e interpretação, devido às falhas nos testes de QI.

Terman examinou dezenas de milhares de crianças e selecionou as 1528 que obtiveram escore acima de 135, com algumas chegando a mais de 200, e acompanhou a evolução dessas crianças ao longo da vida por muitas décadas, para conferir se elas se tornariam gênios em idade adulta.

O resultado confirmou algumas expectativas, e realmente as crianças com QI acima de 135 tiveram uma produção intelectual bem acima da medida da população em geral, porém nenhuma delas, nem aquelas com QI acima de 180 e acima de 200, se revelaram gênios nem conquistaram qualquer prêmio intelectual importante. Além disso, para a vergonha de Terman, entre as crianças que ele não selecionou por não terem QI suficiente, isto é, com QI abaixo de 135 nos seus testes, houve 2 ganhadores do Nobel: William Shockley, que teve escore 125 e ganhou o Nobel de Física em 1956, e Luis Alvarez, que teve escore 124 e ganhou o Nobel de Física em 1968.

As pessoas que não conhecem Psicometria atribuem esse resultado a falhas nos testes de QI, quando na verdade é uma limitação dos testes usados por Terman e uma limitação na capacidade de julgamento de Terman e de outros psicólogos, que não percebem quando o escore é absurdo, incompatível com os fatos observados, e agem mecanicamente, colocando o rótulo indicado no teste, sem avaliar criticamente se aquele escore é plausível. A perda de validade de constructo para escores acima de 130 é outro problema grave.

Se uma pessoa coloca um frango inteiro de tamanho normal numa balança, e o peso indicado é 144g, a pessoa precisa ter um pouco de bom-senso para saber que um frango inteiro não pode pesar 144 g e alguma coisa está errada. Se ela não conseguir identificar e corrigir o erro de pesagem, é melhor estimar o peso com bom senso do que colocar uma etiqueta no frango dizendo que ele pesa 144 g.

Também é importante destacar que no caso do estudo realizado por Terman, não havia um “problema” nos testes de QI utilizados, mas apenas uma limitação. Não havia um problema porque os testes de fato mediam corretamente dentro de um certo intervalo, entre 70 e 120 ou algo assim, e os testes selecionaram pessoas muito mais inteligentes do que a média, que tiveram muito mais sucesso acadêmico, profissional, financeiro e social. Portanto, em geral, os testes acertaram ao separar o grupo acima de 135 e abaixo de 135. Mas falharam justamente nos 2 casos mais notáveis, de pessoas com QI muito acima de 135, que foram imensamente subavaliadas, e o examinador não foi capaz de perceber isso. Os testes de QI funcionam bem para 95% da população, mas o problema é que justamente nos 2% com QI mais elevado, que o teste falha, é onde estão os gênios que podem mudar o mundo e que precisariam ser corretamente diagnosticados.

 

Isso deixa muito claro que sim, os testes de QI funcionam muito bem, porém só funcionam até certo ponto, para QIs abaixo de 130 e algumas vezes abaixo de 120. Entretanto, existem outros testes, mais difíceis e com validade de constructo mais adequada, para avaliar corretamente nos níveis mais altos.

 

Em empresas como IBM, Microsoft, Google, Facebook, eles precisam de pessoas com QI muito acima de 130 e até mesmo acima de 150, por isso eles criaram seus próprios testes para medir corretamente nesses níveis. Os testes usados por essas empresas chegam a medir corretamente de 130 até cerca de 160, mas também começam a falhar nos níveis acima de 165.

O Sigma Test Extended cumpre com folga a função de medir corretamente o QI no nível acima de 150, chegando a mais de 220. Também se aplica a QIs abaixo de 150, cobrindo o intervalo de 110 a 220, tendo a faixa ótima de precisão entre 130 e 190. O Sigma Test foi usado para selecionar a equipe que trabalhou no desenvolvimento da plataforma Cantor (em homenagem a Georg Cantor), constituída por 6 medalhistas olímpicos internacionais de Matemática, Física e Ciência da Computação, e tem sido aceito como critério para admissão em algumas das sociedades de alto QI mais exclusivas do mundo.

Essa “faixa ótima de precisão” é determinada pelo número de questões cuja dificuldade se enquadra no respectivo nível. Quanto mais questões apropriadas para determinado nível, maior é a precisão dos escores naquele nível. No caso do SAT, por exemplo, tem um teto de dificuldade em torno de 135 a 140, mas produz escores conversíveis em QI até 164 pela norma antiga e cerca de 160 pela norma mais recente. Entretanto, mesmo que o teto de dificuldade fosse compatível com nível de 160 e mesmo que a validade de constructo também alcançasse esse nível, ainda assim precisaria cumprir outro quesito importante que é conter um número suficiente de questões no respectivo nível. Se houvesse apenas 1 ou 2 questões que cumprissem esse quesito, a incerteza nas proximidades do teto seria baixa. Ele mediria de fato até 160, mas o erro nessa medida poderia ser grande.

Nos testes de QI tradicionais, geralmente há menos de 10% de questões para discriminar nos níveis acima de 125 e 0 questões com nível de dificuldade apropriado para medir corretamente acima de 130, entretanto esses testes geram escores que podem chegar a 150, 160 e até mesmo acima de 190, porém esses escores não refletem a real capacidade intelectual, mas sim a velocidade para resolver questões primárias. São números sem qualquer valor conceitual, embora tenham algum significado estatístico, que indica a raridade de pessoas capazes de resolver questões elementares com certo nível de rapidez, e isso não é o mesmo que ter a inteligência no nível equivalente de raridade.

O Raven Standard Progressive Matrices tem 60 questões. Se a pessoa acerta as 60, seu QI é 133. Se acerta 59, seu QI é 129. Se acerta 58, seu QI é 125. Ou seja, há apenas 2 questões num teste com 60 para discriminar nos níveis acima de 125. Isso torna a incerteza nos escores acima de 125 muito grande, porque é como se fosse um teste baseado em apenas 2 questões úteis para discriminar perto do teto (na verdade não é tão simples essa análise. Para mais detalhes, veja nossos livros e artigos). Como se não bastassem essas falhas, ainda por cima são questões de múltipla escolha, introduzindo mais uma incerteza na medida, devido ao fator sorte.

Apesar de todas essas imperfeições, o Raven ainda é um bom instrumento para avalição de níveis intelectuais entre 70 e 110, podendo chegar a 115 ou pouco acima, mas não deveria ser utilizado para medir QIs acima de 120. Entretanto, na prática, ele continua sendo usado para QIs de até o teto, 133, ou 137 em algumas normas antigas. Lembrando que o principal problema no Raven não é o teto, mas o pequeno número de questões destinadas a discriminar nos níveis próximos ao teto.

No caso do Sigma Test Light, cerca de metade das questões são adequadas para medir acima de 120, o que torna os escores fidedignos e acurados nesse nível, chegando até cerca de 170 com boa validade de constructo e boa adequação no nível de dificuldade.

Nos níveis acima de 170, o Sigma Test Light continua gerando escores válidos, mas as incertezas são um pouco maiores, porque o número de questões com dificuldade adequada para esses níveis vai diminuindo, e quanto menos questões, maior é a incerteza na medida (é recomendável ler meus livros e artigos nos quais trato de Teoria da Medida, para compreender melhor esse efeito).

O Sigma Test Light possui também uma característica singular que é a propriedade de uma mesma questão cobrir diferentes níveis de dificuldade. Por exemplo: a questão sobre escoamento de água, pode ser respondida em diferentes níveis. Se a pessoa fizer um cálculo simplificado, recebe uma pontuação proporcional, que depende de quão perto ela chegou da resposta “correta”. Se a pessoa planeja um método mais sofisticado e mais eficaz para fazer o cálculo, e chega mais perto do valor correto, ela recebe mais pontos. Desse modo, a mesma questão é capaz de discriminar em diferentes níveis de habilidade, de acordo com a qualidade da resposta. Isso permite que uma mesma questão seja ótima para uma larga faixa de escores, que implica uma personalização do nível de dificuldade para cada pessoa. Isso aumenta substancialmente a acurácia e a precisão nos escores, com mais de 10 questões apropriadas para medir acima de 180 e mais de 20 apropriadas para medir acima de 170.

Essa propriedade das questões confere ao Sigma Test Light duas vantagens muito importantes: a primeira é que o intervalo de aplicabilidade é mais largo e a segunda é que cada questão se adapta ao nível de habilidade da pessoa. Se uma pessoa com 110 de QI resolve o teste, ela encontrará cerca de 80% das questões adequadas para medir corretamente em sua faixa de QI. Se outra pessoa com 170 de QI faz o teste, ela também encontrará 80% das questões com dificuldade adequada para medir em sua faixa de QI, porque as pessoas com 110 darão um tipo de resposta que receberá pontuação compatível com 110, enquanto as pessoas com 170 darão respostas para as mesmas questões, mas que serão compatíveis com cerca de 170. Desse modo, é como se o teste possuísse maior número de questões em todas as faixas de QI, sendo mais preciso e mais acurado num largo espectro de níveis de habilidade.

De forma resumida, essas são algumas das propriedades do Sigma Test Light. Para mais informações sobre esse tema, leia nossos livros e artigos, assista aos nossos vídeos, estudo Teoria da Medida e Estatística.

Conheça também o Sigma Test Extended, com um texto introdutório detalhado no qual encontrará mais informações sobre Psicometria, análise crítica sobre limitações e potencialidades dos testes de QI, informações conceituais, estatísticas e muito mais. Leia também nossos artigos, nossos livros e nossas entrevistas em texto e vídeo, onde encontrará as informações mais bem fundamentadas sobre Psicometria e sobre uma ampla gama de outros temas ligados à Ciência, Filosofia, Investimentos, Astronomia, Filosofia da Ciência e muitos outros temas.

Clique no botão abaixo para adquirir o questionário e dar prosseguimento ao teste.

bottom of page