5 de mai. de 2025

Por que meu QI no STF foi 135 e no STL foi 156?

Por Hindemburg Melão Jr.

São vários fatores combinados. O primeiro é porque o teto psicométrico do STF é menor que 156, portanto se a pessoa tem QI semelhante a 156, não seria possível obter o escore correto. E mesmo que a pessoa tenha QI muito acima do teto, não significa que ela atingiria necessariamente o teto, devido aos limites da validade de constructo.

A validade de constructo do STF chega a cerca de 140 e o teto de dificuldade chega a cerca de 145 ou pouco acima. Isso significa que a partir de 135-140 os escores no STF estão representando a rapidez para resolver questões com certo nível de habilidade, geralmente perto de 135, mas resolver rapidamente questões com nível 135 não é a mesma coisa que conseguir resolver questões com nível 150.

Marcar 145 ou 150 no STF significa ser muito rápido para resolver questões com validade de constructo em torno de 135. Por isso é que para pessoas com escores acima de 125 ou até mesmo acima de 115 é recomendável fazer o STL e acima de 160 é recomendável fazer o STE.

Isso não significa que o STF não esteja medindo acima de 135. Ele mede, mas a partir de 120 e, principalmente, a partir de 125, a validade de constructo vai sendo perdida, isto é, aquilo que o teste mede vai gradualmente deixando de ser uma boa representação da inteligência acima daquele nível.

Aqui é importante esclarecer que cada teste tem basicamente 3 tetos:

1. Teto psicométrico ou teto estatístico ou teto nominal.

2. Teto de dificuldade.

3. Teto de validade de constructo ou conceitual.

Também é importante esclarecer os significados de “validade de constructo” e “dificuldade. O termo “constructo” é utilizado para representar a variável que se pretende medir, portanto a “validade de constructo” indica se o teste está medindo aquilo que propõe medir.

O termo “dificuldade”, embora seja amplamente utilizado de forma subjetiva, tem um significado bem definido.

a. Em TRI, o significado de "dificuldade" de um item é o número de desvios padrão acima ou abaixo da média que precisa estar um grupo de pessoas para terem 50% de acertos nesse item.

b. No modelo que propus em 2003 para normatização do Sigma Test, a "dificuldade" de um item é a proporção entre o número de pessoas que erraram e o número de pessoas que acertaram esse item.

O teto psicométrico ou nominal é aquele determinado pelos estudos estatísticos, realizados no processo de normatização, e está relacionado ao nível de raridade de pessoas que atingem aquele resultado (rIQ) ou ao QI de potencial (pIQ).

O teto de dificuldade, como o nome diz, indica quão difíceis são as questões mais difíceis do teste. Mais especificamente, o teto de dificuldade indica quanto precisa ser o QI médio de um grupo de pessoas para que 50% dessas pessoas acertem a questão mais difícil do teste. Em termos técnicos, indica o parâmetro “b” do item mais difícil no modelo de Lord ou de Birnbaum em Teoria de Resposta ao Item.

O teto de validade de constructo indica o QI máximo que aquele tipo de questão é apropriado para medir o nível intelectual.

É importante notar que há uma diferença fundamental entre validade de constructo e validade de nível de dificuldade. Por exemplo: equilibrar uma vassoura no nariz é difícil, mas não é uma tarefa adequada para avaliar a inteligência. Uma pessoa muito habilidosa para equilibrar vassouras no nariz não é necessariamente mais inteligente do que não consegue. O mesmo se aplica a outras habilidades que não são apropriadas para medir o QI em determinado nível. Por exemplo: montar um quebra-cabeças de 16 peças em 5 segundos é muito difícil, não porque a tarefa seja intrinsecamente difícil ou seja uma boa representação da inteligência em níveis elevados, mas sim porque o tempo é muito curto para executar essa tarefa. Menos de 0,1% das pessoas conseguem realizar esse tipo de tarefa em menos de 5 segundos, ou seja, menos de 1 em cada 1.000 pessoas. Mas não faz sentido interpretar que alguém que resolve uma tarefa tão básica em 5 segundos tenha inteligência no nível de raridade de 1 em 1.000, ou sequer 1 em 100. Pois essa tarefa não é uma boa representação para inteligência no nível de 1 em 1.000, embora a raridade de pessoas capazes de fazer isso sejam até mais raras do que 1 em 1.000, porque é difícil de ser executada, devido à escassez de tempo, mas não reflete adequadamente a inteligência nos níveis mais altos. Reflete bem até um certo nível, por isso é uma boa questão para uma certa faixa de QI, mas deixa de ser boa para outras faixas, que são mais bem avaliadas por questões mais complexas, mais sofisticadas, mais profundas, mais criativas.

Praticamente todos os melhores testes psicológicos usados em clínicas ficam limitados a cerca de 130-135 de QI, alguns nem chegam a esse ponto. O STF mede um pouco acima desse nível, chegando a cerca de 135-140, mas não há como avaliar corretamente em níveis muito mais altos no prazo de 40 minutos, porque nos níveis mais altos as questões precisam exigir habilidades intelectuais diferenciadas.

Outro motivo dessa diferença é que todos os testes têm um certo nível de incerteza nos escores. No caso do STF a incerteza no escore é cerca de 4 pontos de QI. Isso significa que a cada 6 pessoas examinadas, é normal que uma apresente erro acima de 4 pontos. A cada 45 pessoas examinadas, é esperado que uma apresenta erro acima de 8 pontos. A cada 740 pessoas examinadas, é esperado que uma apresente erro de 12 pontos. E assim por diante. Isso quando o QI da pessoa está dentro da faixa avaliada pelo teste, isto é, dentro da validade de constructo e de nível de dificuldade. Também é preciso considerar que o STL também possui sua própria incerteza, portanto há incerteza dos dois lados, o que alarga um pouco mais a diferença para cada nível de raridade.

Outro fator é a própria pessoa não tem mesma performance todos dias. A pessoa pode estar cansada, com sono, ansiosa, nervosa, ou pode nem perceber que não está muito bem num dia, e no outro dia pode estar muito melhor. Tem dia que a pessoa joga muito bem videogame, outro dia joga mal. O mesmo se aplica a qualquer outra atividade.

Se a pessoa fizer o próprio STF duas vezes seguidas num intervalo de 1 ano, ou tempo suficiente para se esquecer das respostas, ela provavelmente não terá exatamente mesmo resultado. Inclusive um dos estudos realizados para investigar as propriedades psicométricas dos testes cognitivos é a homogeneidade de teste-reteste. Isso é feito assim: o mesmo teste é aplicado no mesmo grupo de pessoas com intervalo de alguns meses, e verifica-se a diferença média. Outros estudos mais eficazes para investigar a homogeneidade são o coeficiente alpha de Cronbach, Kuder-Richardson, Rulon e outros baseados em metades.

O fato de o STF ser de múltipla escolha também aumenta um pouco a variabilidade nos resultados, mas nesse caso não teria relação com o escore mais baixo no STF. O que poderia ser parcialmente justificado por ser de múltipla escolha seria se o escore no STF tivesse sido maior do que no STL.

Os estudos realizados com milhares de pessoas avaliadas pelo Mega Test, sem limite de tempo, em comparação com testes cronometrados, mostraram diferenças muito maiores do que essa, chegando a mais de 50 pontos.

Outro fator é que embora ambos sejam testes de QI, não estão igualmente saturados de g e não medem mesmos conjuntos de habilidades, por isso alguém cujas habilidades se encaixem melhor na exigências do STL do que nas do STF tende a obter melhor escore no STL e vice-versa.

Enfim, são muitos fatores combinados, e isso se aplica não apenas a testes de QI, mas em praticamente todas as medidas. Se uma pessoa se pesa de manhã quando acorda e se pesa novamente à noite, o peso pode não ser o mesmo. Se ela se pesa de manhã na segunda-feira e novamente de manhã na sexta-feira, também pode ter resultados diferentes. A diferença é que geralmente a variação no peso a curto prazo é menor, mas há diversas outras medidas fisiológicas cuja diferença também pode ser grande, especialmente medidas performáticas. Por exemplo: se medir quanto tempo uma pessoa consegue ficar sem respirar embaixo em duas datas diferentes, o resultado pode variar em mais de 20%. Ou se medir a que distância uma pessoa consegue arremessar uma pedra em duas datas diferentes, os resultados também serão diferentes numa proporção que pode ultrapassar 20%.

Para compreender melhor esse tipo de diferença é recomendável estudar sobre Teoria da Medida em Psicometria. O livro “Xadrez, 2022 melhores jogadores da História e dois novos sistemas de rating” trata desse tema, e alguns vídeos de nosso canal também tratam. Há livros específicos de Teoria da Medida, mas esse mesmo termo pode ser referir a um ramo da Matemática (Análise Real) ou um ramo da Estatística. Nesse caso é sob a perspectiva da Estatística.

Leia os ebooks online

Testes de Inteligência