A versão em inglês está em
https://in-sightpublishing.com/2024/08/01/high-range-2/
Scott Douglas Jacobsen: Ok, dokie, vamos colocar esse show na estrada. Como a maioria das pessoas nessas áreas de construção de testes de alto alcance, você é autodidata. Um ponto forte nisso é a criatividade em testar a construção. Quando esse interesse na construção de testes realmente surgiu para você?
Hindemburg Melão Jr.:
Em primeiro lugar, agradeço pelo amável convite para tratar desse importante assunto. É um tema que requer atenção há muitos anos, mas tem sido negligenciado e até mesmo corrompido nos anos recentes. Comentarei mais sobre isso em resposta a um tema relacionado.
Em 1991, fiz rascunhos de um teste que chamei “Testes Alfa”. Algumas questões eram interessantes, mas eu ainda não tinha noção sobre como fazer uma normatização adequada. Em 1997, eu comecei a acessar a Internet e em 1999 eu conheci o site do Miyaguchi, onde estavam disponíveis vários high range IQ tests. No mesmo ano fundei Sigma Society e reaproveitei algumas das antigas questões dos Testes Alfa, juntamente com outras novas questões, que deram origem ao Sigma Test.
Inicialmente o ST foi colocado online em português, os softwares de tradução ainda eram muito primitivos e eu não sou fluente em inglês. Tentei fazer uma tradução usando PowerTranslator 7 da Globalink, mas ficou muito ruim. Felizmente, várias pessoas se interessaram pelo ST e ofereceram ajuda para traduzir a outros idiomas, começando com Petri Widsten, que falava fluentemente 9 idiomas. Ele traduziu para inglês, finês, francês, italiano, e antes que ele começasse outras traduções, sugiram mais pessoas oferecendo revisar detalhes nas traduções italiana e francesa, e fazer novas traduções. Ao todo, foi traduzido para um total de 14 idiomas. Além de traduzir, o Petri ofereceu o ST para publicação na revista Mensalainen, da Mensa Finlândia, e na revista IQ Magazine da International High IQ Society, depois Albert Frank publicou o ST em ComMensal da Bélgica e em Gift of Fire da Prometheus. Albert também escreveu um artigo sobre o ST que foi publicado em Papyrus, da Glia.
Jacobsen: Quais foram as conclusões sobre os testes, na época, e a necessidade de desenvolver o seu?
Melão Jr.: se você não se importar, eu prefiro falar sobre minhas impressões sobre os testes atuais (que incluem os mais antigos). Creio que minha opinião atual seja mais útil.
Para iniciar essa resposta, eu gostaria de analisar dois comentários recentes (algumas horas atrás e alguns minutos atrás) postado por Tianxi Yu, em que ele toca em pontos importantes, que ilustram alguns dos motivos pelos quais desenvolvi novos testes, novos métodos de padronização e uma nova escala.
Eu comecei a responder à mensagem de Tianxi, mas logo eu ultrapassei o limite de caracteres do Facebook. Além disso, à medida que fui desenvolvendo a resposta, percebi que seria bastante adequada para adicionar como resposta para essa pergunta. Considerando que os comentários estão em postagens públicas, creio que o amigo Tianxi não terá objeção de que seja usada aqui, mesmo porque as opiniões dele sobre esse assunto são muito semelhantes às minhas, com poucos pontos de divergência. De qualquer modo, se ele quiser que remova o print, por mim tudo bem.
Postagem 1:
Talvez o que Tianxi quis dizer não seja exatamente o que ele disse. Algumas generalizações como “always uses” não seriam representações da realidade no contexto que ele usou. Eu quase interpretaria como o contrário, e na minha rede de contatos quase nunca alguém usa Ph.D. como “prova” (ou corroboração, ou indício) de inteligência. Usam por vários outros motivos, inclusive porque é uma conquista depois de anos de esforço num processo de aquisição de conhecimento e treinamento da aplicação do método científico e de determinados procedimentos. Usam por prestígio social e intelectual aos olhos da maioria, usam por motivos comerciais, profissionais, sociais etc.
Enfim, eu acredito que a crítica que Tianxi gostaria de fazer, com base no contexto do que ele escreveu, é que em geral as pessoas sentem mais orgulho de um título de Ph.D. do que de um QI correspondente (a partir de 125, dependendo da área e da instituição) ou até de um QI mais elevado, embora o nível de raridade do título possa ser menor do que o nível de raridade do QI. Seria como a pessoa se orgulhar de algumas medalhas de bronze numa certa modalidade do que das medalhas de ouro numa outra modalidade, e isso tem um efeito depreciativo sobre a segunda modalidade. Na visão de Tianxi, as pessoas deveriam sentir orgulho da genialidade, e externalizar esse sentimento, e eu concordo com ele em parte.
Entretanto, as pessoas nas sociedades de alto QI não parecem engajadas em valorizar os atributos que elas possuem em destaque e promover o reconhecimento desses atributos aos olhos da sociedade. Com isso, perdem espaço para pessoas que fazem “publicidade” de títulos acadêmicos que representam menos, do ponto de vista intelectual, mas são vistos com mais admiração e respeito pela sociedade.
Aqui caberia uma longa análise, e não seria possível analisar todas as ramificações. Eu selecionaria o ramo que leva para o lado da crítica que Andrew Wiles fez às IMOs. Wiles não dá muito valor às IMO, porque são problemas muito simples, que podem ser resolvidos em 1 a 2 horas, enquanto os grandes problemas do mundo real são muito mais difíceis e mais complexos, que geralmente levam décadas ou até mais do que algumas gerações para serem resolvidos, como o que o próprio Wiles resolveu.
Aí surgem vários pontos a serem considerados. O primeiro é que o QI é predominantemente genético, a pessoa não precisou se esforçar para conquistar, então não creio que haveria muito motivo de orgulho. O que poderia ser motivo de orgulho é o uso do QI na resolução de problemas importantes. Nesse sentido, um Ph.D. típico com 125-135 pode contribuir mais para o bem comum e para a expansão do conhecimento do que um gênio com 190.
Isso gera um descrédito e uma marginalização das sociedades de alto QI, que não são admiradas ou sequer respeitadas pelos grandes intelectuais, nem pela população em geral. A maioria dos grandes intelectuais nem sequer se interessa em se filiar a esses grupos. A maioria das pessoas mais inteligentes está fora das sociedades de alto QI. Isso não representa um grande problema. Mas de outro lado, as pessoas das sociedades de alto QI possuem um grande potencial de “resolvedores de problemas”, e há muitos problemas difíceis a serem resolvidos no mundo, mas não há uma conexão eficaz entre esses pontos, resultando num desperdício imenso de potencial.
Eu não quero comentar sobre Kim porque eu estou irritado com atitudes recentes dele, e eu não quero correr o risco de ser injusto com críticas excessivamente severas por motivos emocionais, mas ao mesmo tempo eu não posso deixar de fazer uma observação objetiva e impessoal sobre o número citado sobre o QI 276 de Kim, isso é claramente uma piada. A maioria dos high range IQ tests mede razoavelmente bem a inteligência até cerca de 170, alguns chegam a 180, mas não muito além disso. Eles podem colocar rótulos de 250 na norma do teste, mas o escore não reflete o QI correto para níveis acima de 180. Eu já fiz tentativas de elevar esse teto com a criação do ST e o STE, mas eu estou ciente de que não consegui alcançar soluções completas, embora talvez eu tenha conseguido empurrar o limite um pouco para cima e melhorar a acurácia nos escores mais altos.
Há pessoas verdadeiramente brilhantes nas sociedades de alto QI, mas que não produziram muita coisa por diferentes motivos. Há outras pessoas brilhantes e que efetivamente usaram seu potencial em algumas contribuições relevantes, como Petri Widsten, Marco Ripà, João Antonio Locks Justi, Andrew Beckwith. Entre aquelas que não produziram, eu vejo algumas alegações que me parecem plausíveis e justas, e outras que são desculpas esfarrapadas.
Eu vejo meu próprio caso como um exemplo de situação de dificuldades e muitos obstáculos, meus pais eram muito pobres, eu vivo num país atrasado e onde as pessoas têm preconceito contra inteligência, contra ciência, contra lógica. Eu comecei a graduação e interrompi em 2 meses, portanto não tenho nem sequer meio semestre de faculdade. Apesar de tudo isso, aprimorei os trabalhos de 6 ganhadores de Nobel de Economia e 1 de Física e fiz dezenas de contribuições originais em diferentes campos do conhecimento. Comparando objetivamente minhas contribuições à Economia – especialmente à Econometria – com as dos ganhadores do Prêmio Sveriges de Ciências Econômicas em Memória de Alfred Nobel, minha obra é mais relevante que a de 90% dos laureados. Entretanto, meus artigos estão em português e são lidos por poucas pessoas. Recentemente, dois amigos chamaram a atenção sobre isso e é possível que em 2025 eu receba duas ou mais indicações ao “Nobel” de Economia, isso depende, em parte, de meus artigos estarem traduzidos para o inglês e publicados em revistas indexadas.
Claro que se eu tivesse sido educado num ambiente mais estimulante, poderia ter produzido muito mais e melhor, mas mesmo num ambiente hostil e empobrecido, isso não me impediu de desenvolver inovações relevantes.
Antes de prosseguir na argumentação, eu gostaria de citar mais um exemplo: Newton também enfrentou dificuldades na infância e adolescência, de acordo com alguns autores, Newton limpava o chão e transportava os pinicos dos quartos dos colegas para fora, entre outros serviços similares, em troca da oportunidade de estudar, mas isso não o impediu de alcançar resultados extraordinários. Além disso, ele era espancado pelo padrasto e sofria bullying na escola, a mãe o abandonou na infância para viver com um fazendeiro, entre outros problemas. Mas ele foi talvez a pessoa que mais ampliou os horizontes do conhecimento em relação ao que se compreendia antes dele e depois dele.
Então há um pouco de choradeira infundada de certas pessoas, que poderiam e deveriam produzir muito mais. Há outros que não podem ser culpabilizados, porque eles são especialistas em questões de testes de QI, eles não produzem Ciência porque o talento específico deles não abrange o tipo de aptidão que os problemas do mundo real exigem. Então não seria justo cobrar isso deles. O talento específico para resolver questões no nível de dificuldade e complexidade dos testes de QI é como o talento para Xadrez, ou Música, ou Matemática.
Numa entrevista, Fischer disse que “ele não era o gênio do Xadrez. Ele era um gênio que jogava Xadrez, mas poderia ser um gênio em qualquer outra atividade intelectual que ele escolhesse”. Isso está parcialmente certo. Ele de fato era um gênio com múltiplos talentos, porém não igualmente extraordinários. Para o Xadrez ele estava num nível de talvez 1 em 100 bilhões. Para outras áreas, como Matemática, Física ou Literatura, talvez no nível de 1 em 1 milhão. Portanto ele provavelmente alcançaria bons resultados em qualquer atividade, mas não num nível tão elevado quanto ele alcançou no Xadrez.
Os melhores jogadores de Xadrez não são necessariamente equipados com faculdades cognitivas para criação científica num nível similar ao que possuem para jogar Xadrez. No caso da Matemática, embora ela envolva processos cognitivos mais semelhantes aos da produção científica, ainda há diferenças importantes que dificultam que a maioria dos grandes matemáticos puros alcancem desempenho excepcional em Física ou nos Investimentos.
O matemático típico é excessivamente preocupado com todos os pormenores, com o extremo rigor e exatidão, enquanto o físico se contenta com induções finitas plausíveis e evidências razoáveis. Isso permite que o grande físico avance rapidamente nas análises de problemas muito complexos, enquanto o grande matemático permanece tentando demonstrar algo numa das etapas inicias do problema e não avança além daquele ponto, porque para ele é muito importante provar cada passo.
O físico fica satisfeito com 99,9% de acurácia (ou até um pouco menos)ou com uma amostra de 100.000 eventos, enquanto o matemático não aceita apenas 99,999999999999999999999999999999999999999% de acurácia nem aceita apenas googolplexianth eventos de corroboração, ou até mesmo infinitos eventos de corroboração (se esses infinitos não representarem todos os casos). Ernst Kummer provou o Último Teorema de Fermat para infinitos casos, mas que não representavam todos os casos.
Físicos podem construir soluções mais complexas, porém com maior risco de conter erros. Na prática, mesmo que haja alguns “erros”, se as aproximações forem boas o suficiente, as coisas acabam funcionando. O modelo cosmológico de Ptolomeu, por exemplo, funcionava, fazia previsões razoavelmente precisas, embora estivesse fundamentalmente errado.
O que é útil e suficiente para a Física ou Astronomia pode não ser para a Matemática. E se o físico ou engenheiro tentasse alcançar o mesmo nível de rigor dos matemáticos para cada detalhe, gastaria um tempo muito maior em cada etapa e não conseguiria, no curto intervalo de uma vida, produzir muito do que existe hoje. Portanto seria um erro ingênuo acreditar que um grande matemático seria necessariamente um grande físico se tivesse escolhido estudar Física. Certamente um grande matemático tem maior probabilidade de ser um grande físico do que uma pessoa sorteada ao acaso, ou mesmo do que uma pessoa que com grande habilidade para outra área que exija talentos mais diferentes dos exigidos para física do que a Matemática. Em outras palavras, há uma forte correlação entre competência para Física e para Matemática, mas essa correlação se torna mais fraca nos níveis mais elevados, onde as especificidades se tornam mais relevantes.
Portanto a interpretação de Fischer estava parcialmente certa, ele foi de fato um gênio com múltiplos talentos, mas não igualmente elevados. Nessa conjuntura, a habilidade específica para resolver questões de testes de QI não é muito útil para predizer ou diagnosticar elevada capacidade de produção intelectual no mundo real, seja na Ciência ou na Matemática. Até mesmo os problemas das IMO, que são mais parecidos com criação matemática do que os problemas de testes de QI, também não são bons preditores, conforme alertou Andrew Wiles.
Por isso um de meus principais objetivos com o ST e STE foi justamente preencher essa lacuna, criando um teste que tenta avaliar a capacidade para resolver grandes problemas do mundo real. Eu fiquei satisfeito com o resultado, e o ST e sucessores (ST-VI, STE, STL) têm atraído a atenção de alguns proeminentes intelectuais, e tem recebido muitos elogios.
Entre as pessoas que fizeram o ST, STE, STL até agora, Petri Widsten teve 212 e foi autor de algumas inovações e patentes, teve a melhor tese de doutorado da Finlândia no biênio 2002-2003 pela qual recebeu também uma distinção Summa Cum Laude, foi primeiro colocado em alguns concursos internacionais de Lógica e Puzzles, inclusive esse concurso: http://www.worldiqchallenge.com/rankings.html. Marco Ripá teve 202, é autor de algumas inovações em Matemática e ainda é muito jovem, provavelmente ainda fará outras contribuições ainda mais importantes do que fez até o momento. Algumas pessoas estão fazendo o STE e STL, mas ainda não terminaram, mas é provável que tenham escores elevados. Lukas Pöttrich teve escores acima de 200 em outros testes e aos 8 anos de idade ele teve escore maior que o do Terence Tao no SAT-Math quando Tao tinha 8 anos; Lukas obteve 800, enquanto Tao teve 760, até onde sei, isso é um recorde mundial. Diego Andrés de Barros Lima Barbosa (Bronze na Mundial de Matemática Universitária, 1 Prata e 2 Bronzes na Iberoamericana de Matemática Universitária), Federica Zanni (Bronze na IMO) recentemente se cadastrou no site da Sigma Society e passou longo tempo na página do STE, Kawan Duarte Guimarães Vieira, Davi Filipe de Melo Pereira, João Italo Marques de Lima, José Osmar de Souza Júnior, Mateus Melo e outros jovens talentos da Matemática, Física, Química, Ciência da Computação etc. estão fazendo o STL ou STE.
É muito gratificante que o ST, STE, STL tenham boa aceitação também fora das sociedades de alto QI, sendo reconhecido com um instrumento psicométrico diferenciado pelo conteúdo e pela metodologia de padronização. Eu me sinto feliz e orgulhoso com isso, porque me leva a supor que parece haver uma boa concordância sobre esse tipo de questão ser adequada para avaliar corretamente a capacidade de produção intelectual em problemas reais, e pessoas com boa experiência na resolução de problemas muito difíceis concordam com isso. As IMO, apesar das limitações apontadas por Wiles, continuam sendo o melhor instrumento para prognóstico de grandes talentos para Matemática, e talvez o STE seja o melhor para prognosticar talentos para a Ciência, além de ser o melhor instrumento para avaliação intelectual nos níveis mais elevados.
Eu acho interessantes os testes de sequências de figuras porque (teoricamente) não exigem conhecimento, por outro lado avaliam uma habilidade relativamente estreita e primitiva. O Xadrez está pesadamente saturado de conhecimento, mas para pessoas que acabaram de aprender a mover as peças, o tipo de habilidade aferido no Xadrez é mais adequado para medir a inteligência do que a habilidade para resolver séries de figuras, porque no Xadrez há muito maior complexidade e sofisticação, além de não ter uma resposta única na maioria dos casos, mas sim uma larga variedade de respostas com diferentes níveis de “qualidade”, guardando maior similaridade com problemas do mundo real. Mesmo o Xadrez sendo mais eficaz, ainda é inadequado para avaliar corretamente o nível intelectual, sobretudo nos níveis mais altos.
As pessoas apresentam conjuntos amplos de habilidades gerais num nível básico fortemente correlacionadas, mas à medida que se considera níveis progressivamente mais elevados, as habilidades vão se ramificando e capilarizando em caminhos diferentes e as correlações começam a se tornar mais fracas. Na faixa de 70 a 140 de QI, notas em Matemática, Física, Química, Redação, escores de QI, geralmente correlatam fortemente entre si, entre 0,6 a 0,85. Mas se considerar a faixa de 140 a 190, a correlação entre essas mesmas habilidades fica muito mais fraca, perto de 0,2 a 0,3. Um efeito similar ocorre com testes de QI que usam questões apropriadas para medir corretamente no intervalo de 70 a 130, ou no intervalo de 90 a 150, mas deixam de ser apropriadas acima de 160 e pior ainda acima de 170, 180 etc.
Outra das críticas de Tianxi que precisa ser examinado com atenção é sobre pessoas com 190 de QI não postarem conteúdos que ele considera compatíveis com esse nível intelectual. Uma análise exaustiva tomaria meses, mas vou tentar focar em dois pontos: se a pessoa quer postar fotos de gatos, ou colecionar placas de automóvel (como Sidis), ou estudar alquimia (como Newton) e astrologia (como Kepler), isso não reduz o QI dela, nem anula os méritos dela. A pessoa deve ter liberdade para escolher suas atividades de lazer e trabalho. Mas compreendo também que se a pessoa faz exclusivamente essas coisas, pode ser um desperdício de potencial.
Como comentei acima, a habilidade para obter elevados escores em testes de QI não implica que a pessoa tenha também habilidade para resolver grandes problemas científicos ou matemáticos. Nesse caso, não é justo cobrar dela resultados em Ciência ou em qualquer outra área. Até mesmo se a pessoa possui capacidade para produzir na Ciência, não acho certo cobrar algo dela, mas seria desejável que ela própria tivesse consciência da importância que o potencial dela representa para o bem comum, e adotasse uma postura compatível.
Algumas pessoas com escores QI 200+ em testes de QI não reúnem atributos necessários para produção científica, tecnológica o matemática, inclusive elevada criatividade, capacidade de manter foco durante anos na resolução de um problema muito difícil, capacidade de enxergar detalhes importantes que passam despercebidos à maioria, capacidade de formular estratégias inovadoras e mais eficazes para a solução de problemas específico que ninguém havia pensado antes etc. YoungHoon Kim é um exemplo, com escores acima de 200 em alguns testes, mas não conheço nenhuma evidência de que ele tenha resolvido algum problema realmente difícil do mundo real.
No caso de Henry Poincaré, quando ele trabalhou no problema dos 3 corpos, ele pensou numa abordagem completamente diferente da que outros grandes matemáticos vinham adotando. Havia uma redundância muito grande entre o que toda a comunidade matemática fazia, como se 1000 matemáticos fizeram quase a mesma coisa. Então Poincaré mudou radicalmente a maneira de analisar e, com isso, fez avanços importantes. O mesmo quando se considera o trabalho de Poincaré sobre o formato da Terra, tratando o problema numa perspectiva inusitada e com resultados surpreendentes, que ampliaram dramaticamente nossa compreensão sobre o assunto e ainda levaram à criação de um novo ramo da Matemática. O mesmo para Newton, Cantor e outros.
Os high range IQ tests geralmente não incluem questões que avaliam adequadamente esse tipo de habilidade. Apenas confiam na aposta de que o tipo de habilidade que funciona para 90—160 também deve funcionar em níveis mais acima de 170, mas a experiência prática tem mostrado que não é assim. O planejamento das questões dos testes precisaria ser muito diferente, para exigir atributos adequados para medir corretamente nos níveis mais altos.
Quando Leonardo Da Vinci tentou resolver o problema de “voar”, ele fez muito diferente do que todos vinham fazendo antes dele, em vez de imitar os pássaros com asas, ele tentou compreender qual era a essência das leis físicas que explicavam o voo dos pássaros, e compreendeu que não precisava de asas; poderia fazer isso com uma hélice.
Os resultados alcançados por Leonardo mostram que alguns avanços importantes não precisam de décadas de trabalho, mas de um insight de poucos segundos, embora a implementação possa levar meses, anos, décadas ou séculos. Por isso os problemas das IMO, quando a solução depende desse tipo de insight, acaba sendo mais eficaz em predizer grandes matemáticos.
No caso da aeronave de Leonardo, a ideia estava certa, mas não havia tecnologia adequada, não havia motores com potência suficiente, não havia materiais suficientemente leves e resistentes. Há pequenas falhas na ideia dele, como a ausência de uma segunda hélice para compensar a transmissão do momento angular, mas isso ele rapidamente descobriria se tivesse motor e materiais leves que permitissem testar o protótipo, e nos primeiros experimentos ele detectaria os erros, corrigiria e acabaria voando. Ele não deduziria o princípio de Bernoulli, nem a dinâmica newtoniana, mas ele compreenderia intuitivamente os fenômenos relevantes e faria a coisa funcionar, mesmo sem conhecer os conceitos físicos nem o formalismo matemático subjacente.
Einstein é um caso muito interessante. Numa conversa anterior com o amigo Iakovos Koukas, ele disse que achava que Einstein não conseguiria 160+ num high range IQ test moderno. Eu concordo, com a ressalva de que o QI correto de Einstein é muito acima de 200, talvez cerca de 245 numa escala intervalar de antilogs de potencial com média 100 e desvio padrão 16 (obviamente a distribuição não é gaussiana). Isso corrobora que os testes de QI não estão medindo corretamente acima de certo ponto. Os testes medem alguma coisa acima de 170, mas essa coisa não é uma representação fiel e acurada da inteligência.
Eu já escrevi muito sobre isso e não vou repetir aqui, mas resumidamente, os testes de QI de clínica utilizam questões adequadas até 130. Alguns testes geram escores 155, 183, 197 e até mais de 200, mas o significado desses escores só pode ser interpretado como uma representação adequada da inteligência até cerca de 130 nos testes de clínica e até 160—170 na maioria dos high range IQ tests. Há dois motivos principais para isso: a dificuldade das questões é inadequada para níveis mais altos e não há validade de construto nos níveis mais altos.
No artigo que analiso erros no WAIS – inclusive erros psicométricos, lógicos, semânticos e epistemológicos –, alguns dos problemas mais graves que aponto são a inadequação das tarefas para medir corretamente até 155 ou 160. Quase todos os sub-testes de execução são muito básicos, alguns deles poderiam ser resolvidos por um chimpanzé bem treinado. Isso é útil para avaliar se uma entidade (pessoa, animal, IA ou ET) consegue resolver rapidamente tarefas com dificuldade acessível a QI 80 ou menos, mas resolver muito rapidamente essas tarefas não indica um QI 100 ou 120 ou 148.
Os instrumentos psicométricos utilizados habitualmente são bons (acurados, fidedignos, eficazes) para medir a capacidade intelectual até certo nível. Testes de clínica medem até cerca de 135, independentemente de os tetos nominais chegarem até 225, como SB-IV. Alguns high range IQ tests chegam medir corretamente até cerca de 160 ou 170, independentemente de os escores nominais chegarem a 250.
Algumas pessoas nas sociedades e alto QI tem uma percepção clara desse fato. Outras acreditam (ou querem acreditar) que um QI 196 num teste com sequências de figuras ou números é adequado para apontar uma das 8 pessoas mais inteligentes vivas.
Aparentemente há uma confusão entre significados de algumas palavras, especialmente os significados de QI e escore em teste de QI. Aqui cabe um esclarecimento importante sobre os significados de “QI”, “inteligência” e “escore em testes de QI”:
Inteligência é uma capacidade intrínseca da pessoa, que evolui ao longo da vida, geralmente aumentando rapidamente até cerca de 15—18 anos, depois prossegue aumentando mais lentamente até 25—30 anos, permanece quase estável por alguns anos e depois começa a declinar lentamente. Em meu artigo no qual descrevo os significados das palavras usadas no laudo do STL, explico com mais detalhes isso e apresento algumas curvas que representam a variação do nível intelectual em função da idade.
QI (quociente de inteligência) é o resultado da idade mental dividida pela cronológica multiplicado por 100. Se o significado for modificado, precisa mudar também a abreviação, substituindo a palavra “quociente”.
Wechsler propôs um significado diferente, mas continua usando o termo “quociente”. Aqui caberia uma extensa, complexa e profunda discussão, mas vou sumarizar os pontos principais:
1. Por um lado, como o termo “QI” se tornou amplamente conhecido, seria ruim mudar isso. Então vamos preservar o termo “QI”, mesmo que não seja o quociente de uma divisão. Porém não se pode perder de vista outros fatos importantes: a ideia inicial de Binet e Simon se verificou razoavelmente correta. Se corrigir a curva de evolução do nível intelectual em função da idade, em vez de usar um crescimento linear até 16 anos e estabilidade daí em diante, a ideia de Binet pode ser resgatada com relativo sucesso. Há mais alguns problemas que precisam ser resolvidos, mas ajustar uma curva apropriada já constitui um avanço importante. Outro ponto que precisa de atenção é que, numa visão “panorâmica” ao longo das décadas, uma curva suave oferece boa representação, mas numa visão “microscópica” em curtos períodos, há oscilações sazonais nessa curva, com sazonalidades ao longo do dia, da semana, do ano. Então embora haja um crescimento dos 0 aos 29 anos, quando a pessoa acorda de manhã, depois de 7 horas de sono, aos 11 anos de idade, ela pode estar mais inteligente do que ela estará aos 12 ou 13 depois permanecer acordada 20h seguidas, ou com dor de cabeça, ou sob efeito de álcool. Portanto há muitas pequenas oscilações ao longo do dia, da semana, do ano, que algumas vezes podem ser maiores do que a variação no QI médio de um ano para outro. Essas flutuações de curto prazo representam um problema nas medições em testes supervisionados.
2. Uma criança de 10 anos com idade mental de um adulto típico teria cerca de 160 de QI, mas como interpretar o significado do QI dessa criança quando ela for um adulto de 20 anos? Não faria sentido considerar que seria equivalente a um adulto de 32 anos, nem haveria valores etários na curva corrigida para um ajuste nesse caso. Nesse contexto, o termo “QI” precisa de uma reformulação, conforme eu explico no “Livro de ouro da inteligência”.
3. Outro ponto importante a ser considerado é que uma pessoa que alcançou o nível intelectual de um adulto quando tinha 5 anos de idade é alguém que aos 5 anos resolvia problemas típicos de adultos medianos. Isso não significa que essa criança, quando se tornar adulta, poderá resolver problemas muito mais difíceis e mais complexos do que um adulto médio. Geralmente sim, mas não necessariamente e não na mesma proporção. Crianças como Gauss, Pascal, Galois, von Neumann apresentam, desde a tenra infância, características diferenciadas que não estão presentes em adultos médios, e os atributos diferenciados dessas crianças não são considerados nos testes de QI. Crianças como Ainan Cawley, Adragon de Mello, Michael Kearney, apresentaram habilidades de adultos médios muito precocemente, porém não reuniam as habilidades diferenciadas de Gauss ou Galois. O caso de Sidis está num nível intermediário, ele teve muito precocemente habilidades de adultos médios e também teve habilidades diferenciadas que não estão presentes num adulto médio, embora num patamar não tão notável quanto o de von Neumann e outros.
4. O desvio padrão calculado com base no QI medido dessa maneira é cerca de 24 para crianças (depende da idade) e 16 para adultos. O desvio padrão apresenta variações significativas de um teste para outro, ou uma amostra para outra, mas em geral é assim. Isso fornece um valor físico para o desvio padrão, em lugar do valor quase arbitrário sugerido por Wechsler. O que Wechsler fez seria como medir as alturas das pessoas, constatar que há um desvio padrão 7,23 cm, arredondar para 7 cm e mudar toda a escala para se comportar a isso. Não é um procedimento recomendável e rem várias implicações indesejáveis. Só faria sentido se não houvesse um significado físico para o desvio padrão e os valores pudessem ser livremente manipulados, mas não é assim.
Escore em teste de QI é o resultado da tentativa de medir o QI.
Portanto há um QI intrínseco da pessoa e há um escore que é uma tentativa de medir o QI intrínseco. As pessoas muitas vezes interpretam o escore como se fosse o próprio QI, o que é um erro grave. Já vi inclusive pessoas dizerem que “QI é a variável medida pelos testes de QI”. Não é. O QI é um atributo inerente à pessoa, parcialmente genético, parcialmente influenciado pelo meio. O que o teste de QI mede é um conjunto de habilidades para executar determinadas tarefas que se supõem que sejam representações razoáveis do nível intelectual, portanto úteis para estimar o QI intrínseco. Essas estimativas serão tanto melhores (mais acuradas, mais fidedignas) se tanto mais adequadas forem as questões ao nível de habilidade que o teste pretende medir.
Considerando os testes tradicionais, os escores nesses testes costumam estar fortemente correlacionados com o QI verdadeiro (intrínseco) dentro de determinada faixa, desde que o teste atenda a determinadas condições, especialmente validade de constructo para a respectiva faixa de QI. Frequentemente os testes atendem às condições numa faixa mais estreita do que aquela na qual o teste pretende medir, resultando em escores distorcidos numa das extremidades ou em ambas.
Isso leva a um descrédito nesses escores, porque não estão predizendo corretamente o nível intelectual. Quando Terman selecionou suas 1528 crianças com QI acima de 135, em 1926, e acompanhou a evolução dessas crianças durante décadas, ficou claro que elas eram de fato muito mais produtivas que a média da população em cultura, sucesso financeiro, profissional e acadêmico. Isso porque os testes que Terman utilizou discriminam corretamente acima de 130 e abaixo de 130. Porém falham acima de 130. Dois ganhadores de Nobel foram examinados por Terman e ambos foram reprovados porque ficaram abaixo de 130 nos testes aplicados. Além disso, há o famoso caso de Feynman, que teve escore 123, embora tenha sido vencedor no Putnam, ganhador do Nobel de Física e autor de numerosas contribuições à Ciência.
Diante a esse cenário, para que haja maior credibilidade nos resultados produzidos por testes de QI em diferentes níveis, é necessária uma ampla reformulação nas métricas, nos métodos e nos processos.
Tianxi fala de “orgulho de gênio”, mas o que exatamente seria isso? Orgulho de encontrar o próximo número ou a próxima figura numa sequência? Pode ser uma sequência difícil, e certamente há algum mérito nisso, mas seria melhor focar na resolução de algum dos grandes problemas do mundo real. Não precisam ser GRANDES, mas alguns problemas que ampliem os horizontes do conhecimento e gerem benefícios à humanidade. Isso me parece um motivo mais justo e mais sensato para ter orgulho, além de ser um indicativo mais correto de elevada inteligência. Não estou misturando critérios morais com intelectuais no processo de avalição. Criar novas e “melhores” (mais eficazes) armas, como faziam Arquimedes e Leonardo, também são indícios de elevada inteligência, porém aplicada para o mal de algumas pessoas. Essa é uma parte da tese que defendo. Outra parte da mesma tese é que seria desejável usar a inteligência para o Bem, mas não é com base no tamanho do bem gerado que se mede a inteligência.
Acho interessante o ponto de vista de Tianxi, talvez com pequenos detalhes diferentes. O perfil de pessoa que ele descreve na crítica que faz, talvez seja mais parecido com o que se encontra em alguns capítulos da Mensa. No caso da Mensa Brasil isso é comum, há realmente muitas pessoas que se encaixam no que Tianxi descreveu, mas eu não vejo muitas pessoas assim em outras sociedades de alto QI. Então talvez a crítica devesse ser direcionada mais precisamente a um grupo específico. De qualquer modo, o que considero importante nisso são basicamente 3 itens:
1. Corrigir os percentis teóricos bizarros, que estão obviamente errados nos casos muito acima de 130, especialmente acima de 160.
2. Melhorar os métodos de normatização.
3. Melhorar os conteúdos das questões.
Os itens 1 e 2 eu resolvi em 2003, o item 3 eu melhorei uma parte em 2000, e continuei a melhor até 2006, depois retomei em 2022.
Postagem 2:
Essa segunda postagem menciona alguns amigos e eu prefiro não discutir esse ponto. Mas, em linhas gerais, tenho observado problemas semelhantes. Em nossa primeira entrevista no In-Sight Journal, eu já discuti alguns desses pontos, por isso não vou repetir aqui. Eu gostaria apenas de aprofundar alguns comentários anteriores.
O ST e o STE solucionam alguns dos problemas que estavam em aberto, entre os quais poderia enumerar os seguintes:
1. Estabelecimento de uma escala de proporção. Essa necessidade foi identificada por Thurstone, nos anos 1940, e tem sido o Santo Graal da Psicometria. Até 2003, as escalas eram aproximadamente intervalares para escores abaixo de 130 e ordinais quando se inclui escores acima de 130, com distorções na escala. Com minha norma de 2003 do ST introduzi a primeira escala cujos antilogs dos escores estão numa escala de proporção de potencial, preservando intervalos uniformes em todo o espectro e com um significado conceitualmente válido.
2. Melhora na validade de constructo, especialmente nos níveis mais altos. Infelizmente não consegui resolver completamente isso, mas promovi avanços relevantes.
3. Adequação de dificuldade das questões, procurando cobrir todos os níveis que o teste propõe medir. Com o STE o teto real de dificuldade dos high range IQ tests subiu alguns pontos. Embora ainda possa haver, nas proximidades do teto, distorções entre os escores nominais e os reais, são distorções menores do que em outros testes.
4. Ponderar adequadamente os pontos em função da dificuldade de cada questão. Isso tem vários efeitos importantes, especialmente minimizar penalizações por descuidos, quando a pessoa acerta uma questão muito difícil e erra algumas muito fáceis.
5. Atribuição de frações de ponto em cada item, com ponderação justa, para refinar o escore.
6. Revisão nos níveis de raridade e percentis associados a cada escore, especialmente nos níveis mais altos. Eu já havia escrito um artigo sobre isso em 2001 e revisado em 2002, mas era teórico. Em 2003 reuni dados para dar uma abordagem empírica, mostrando quantitativamente qual era o tamanho das distorções e as corrigi. Também calculei novas normas para o Mega e Titan, usando dados brutos disponibilizados no site do Miyaguchi sobre esses testes. As normas do Sigma Test também foram calculadas com base nessa nova metodologia, que é explicada com mais detalhes em meu artigo https://www.sigmasociety.net/escalasqi
7. Determinação da “proporção de potencial”, bem como introdução desse conceito, que é necessário como parte do processo de normatização, e traz também algumas novas informações úteis para diferentes finalidades. Isso também é analisado com mais detalhes no artigo citado acima.
Na versão mais recente do STE, houve mais alguns pequenos aprimoramentos, inclusive uma tentativa de determinar as curvas de variação do nível intelectual em função da idade para diferentes faixas de QI. Não foram usados dados do próprio STE para isso, mas sim dados da evolução no rating de Xadrez em função da idade combinados a resultados de outros testes.
No final de 2023, comecei a escrever o “Livro de ouro da inteligência”, simultaneamente com outros livros (“Guia dos apodícticos” e “Projeto T”). No “Livro de ouro da inteligência” apresento algumas contribuições para a Psicometria, inclusive uma revisão do WAIS, uma revisão no estudo de Richard Lynn sobre o QI médio em vários países, uma revisão exaustiva no significado de “inteligência”, desmistificando alguns modelos como os de Guilford e Gardner, revisando e aprimorando alguns conceitos como os de “inteligência fluida” e “cristalizada”, e propondo que o significado de inteligência varia com o QI, entre outros tópicos.
Jacobsen: Então, você é o criador do Teste Sigma estendido. Você pretende que este seja o teste cognitivo mais difícil e confiável. Qual foi a origem e inspiração para a criação deste teste – os fatos e os sentimentos?
Melão Jr.: Acho que em algumas respostas anteriores eu acabei respondendo também essa. :)
Talvez caiba aqui comentar um pouco mais sobre a validade de constructo, que é extremamente importante. Vários subtestes do WAIS medem traços latentes que não estão muito relacionados à inteligência, embora estejam correlacionados por motivos indiretos. Isso requer uma explicação mais pormenorizada, e usarei um exemplo para tornar mais didática: o subteste “informação” não tem quase nenhuma relação com inteligência, são perguntas rasas com respostas simplórias, não exigem análise. Apesar disso, observa-se correlação moderada ou até mesmo forte entre inteligência e nível cultural, porque geralmente pessoas inteligentes também adquirem mais cultura. Mas essa correlação se torna mais fraca nos níveis mais altos e prejudica a medida.
Seria possível formular perguntas que exigissem conhecimentos mais complexos, que envolvessem análise. Por exemplo: “por que Einstein, em vez de Poincaré ou Lorenz, levou os créditos pela Teoria da Relatividade?” Esse é o tipo de conhecimento que conduziria a uma discussão complexa e densa, em vez de apenas repetir automaticamente uma informação memorizada, e nesse caso teria melhor relação com inteligência, por outro, lado nesse exemplo haveria alguns problemas, porque o examinador precisaria ser excepcionalmente inteligente e dominar os tópicos relacionados a cada pergunta. Outro problema é que essa seria uma questão muito especializada, e se a pessoa examinada não tivesse muito conhecimento sobre o tema, não teria como dar uma resposta adequada, mesmo que fosse excepcionalmente inteligente, e nesse aspecto seria ruim.
Porém se o teste incluísse questões como as do subteste de “Informação” do WAIS, seria desejável que fossem questões que exigissem análises profundas e complexas, em vez de simples repetição e, ao mesmo tempo, procurasse minimizar a necessidade de conhecimentos específicos para fazer a análise. Ainda assim, haveria o “problema” de exigir excepcional inteligência do examinador. Por isso, idealmente, as questões deveriam evitar conhecimento especializado, mas exigir pensamento como parte da resposta, em vez do simples resgate mnemônico.
Apesar desse problema no subteste “Informação”, os escores nesse subteste apresentam correlação moderadamente forte com o restante do teste e com outros testes. Isso acontece porque no intervalo de 80 a 120, geralmente pessoas mais inteligentes são também mais cultas, mas acima de 120, o nível cultural vai progressivamente deixando de ser uma boa representação para o nível intelectual.
Podemos fazer uma analogia com a altura, embora a correlação entre inteligência e altura seja mais fraca, o efeito é mais fácil de ser compreendido. Pessoas inteligentes também são geralmente mais altas, porém não seria apropriado incluir um subteste baseado na altura da pessoa e incluir a altura como parte do cálculo do escore total, porque embora haja correlação positiva da altura com o restante do teste, a correlação enfraquece nos níveis mais altos e se torna praticamente nula acima de certo nível, gerando mais ruído espúrio do que contribuindo para melhorar a acurácia na medida.
Se um dos subtestes fosse simplesmente medir a altura, uma pessoa com 2,20 m e 135 de QI no restante do teste não seria mais inteligente do que alguém com 1,50 m e 138 no restante do teste. O mesmo problema ocorre quando se utiliza um subteste de “Informação”, que prejudica a medição nos níveis mais altos.
Claro que há algumas diferenças fundamentais e essa analogia não é totalmente justa, porque a cultura pode fornecer algumas ferramentas que auxiliam na resolução de problemas, enquanto a altura não (ou pelo menos não no mesmo nível). Mas o ponto é que o peso efetivo da cultura, de quanto a cultura contribui para o nível intelectual total, é muito menor do que o peso que o subteste “Informação” desempenha no escore total, resultando em distorções para QIs acima de certo nível, em vez de contribuir para tornar o escore mais acurado. Em outras palavras, os escores altos no WAIS seriam mais acurados se fosse suprimido o subteste de “Informação”, que atrapalha mais do que ajuda.
Num exemplo prático: uma pessoa com 150 de QI no WAIS que tenha acertado todas as questões de Informação e errado 2 de Aritmética não é tão inteligente quanto outra que tenha acertado todas de Aritmética em errado 2 de Informação, ou até mesmo que tivesse errado todas de informação. Há um problema semelhante no subteste de “Vocabulário”, além de problemas diferentes em outros subtestes.
Jacobsen: Que habilidades e considerações, em uma visão geral, parecem importantes tanto para a construção de questões de teste quanto para a criação de um esquema eficaz para elas?
Melão Jr.: São várias habilidades diferentes e a carência em algumas dessas habilidades pode ser compensada pela excelência em outras. Por exemplo: um vasto conhecimento de questões variadas pode compensar menor criatividade para criar questões inéditas e vice-versa. Então não haveria um conjunto “fechado” de quesitos.
Em relação à padronização, existem boas ferramentas estatísticas, mas os modelos cognitivos ainda são ruins. As opiniões de Guilford não agregam nada útil e as opiniões de Gardner trazem mais problemas do que soluções. Chamam a essas opiniões “teorias”, sem que haja verificação empírica ou tentativa de falseamento. No caso de Gardner, houve alguns estudos recentes deixaram claro que as “inteligências múltiplas” que ele propõe são uma fantasia. Isso era previsível e relativamente óbvio. Se Gardner tivesse razão, quase todas as outras ciências estariam em apuros usando Análise Fatorial, que é uma ferramenta importante na Física, na Astronomia, na Economia, na Sociologia etc.
As pessoas que promoveram avanços relevantes na Psicometria foram Galton, Cattell (James McKeen Cattell, não Raymond Cattell, cujas contribuições foram menores e não relacionadas a esse tema específico), Pearson, Spearman e Thurstone, além dos que contribuíram para modelos de IRT como Birnbaum e Lord. Poderia incluir Georg Rasch nessa lista e talvez alguns outros. Os trabalhos de Binet também foram importantes numa perspectiva diferente. Wechsler fez um sucesso desproporcional, ele somou meio centavo e até piorou algumas coisas, além de suspeitas que cometo em meu artigo sobre o WAIS.
As contribuições de Pearson, Spearman e Thurstone extrapolam o campo da Psicomoetria e ganham espaço em muitas outras áreas. Quase todas as principais teorias científicas atuais utilizam correlação linear de Pearon, Lemaître e Hubble descobriram a recessão entre as galáxias utilizando correlação, Henrietta Leavitt descobriu a relação entre período e luminosidade das cefeídas usando correlação, entre muitas outras descobertas. As contribuições de Thurstone foram ainda mais notáveis e pode-se dizer que surgiam “antes do tempo”, só começando a ser mais amplamente utilizadas muito tempo depois, inclusive em IA nos anos recentes e décadas recentes.
Analisando os grandes nomes da Psicometria, os traços comuns entre eles, podemos intuir algumas características úteis para ter uma boa compreensão da área. No processo de normatização, uma boa compreensão de Estatística é importante. Para elaborar questões é mais difícil determinar quais são os quesitos, conforme comentei no primeiro parágrafo dessa resposta. Mas geralmente criatividade e um pensamento lógico rigoroso evita determinados problemas, como citei no caso do STH do Cooijmans, em nossa entrevista de 2022.
Jacobsen: Você dá algumas definições e exemplos de significados de palavras usadas no Teste Sigma. Assim, qualquer leitor interessado pode obter definições lá. Tecnicamente, há quanto tempo o Teste Sigma está em desenvolvimento para chegar ao Teste Sigma Estendido?
Melão Jr.: As primeiras questões que ainda estão presentes em algum teste Sigma foram criadas em 1991, mas não houve um trabalho contínuo ao longo desse tempo. Em 1991 dedique algumas horas durante poucos dias. Em 1999 dediquei certa de 1 semana às novas questões para o ST, com algumas questões baseadas em problemas conhecidos e outras inéditas. O processo de normatização foi mais demorado, e fui aprimorando à medida que fui recebendo mais respostas, pois com o aumento no número de testes, o uso de certas ferramentas e métodos que não eram possíveis com amostras menores foram sendo implementadas, bem como a criação de algumas ferramentas novas e alguns métodos novos. Em 2007 encerrei as aplicações do ST.
Quando o STE foi criado, incluí quase todas as questões do ST e algumas do ST-VI, bem como algumas do Moon Test. Esse processo demorou algumas semanas. O STL foi uma criação conjunta com a Tamara, ela elaborou várias questões.
Algumas diferenças entre o STL e os anteriores é que muitas questões são em vídeo e fotos, mostrando uma situação real sob diferentes ângulos. A pessoa pode encontrar soluções em diferentes níveis e por diferentes métodos, assim como os métodos de Roemer, Bradley, Fizeau, Foucault, Froome e outros permitem medir a velocidade da luz com estratégias muito diferentes, e níveis de acurácia muito diferentes, as respostas podem ser alcançadas de diferentes maneiras. As questões em vídeo também dificultam o uso de IA, embora seja questão de tempo até que surjam novas IAs.
Então as primeiras questões foram formuladas em 1991, porém o tempo total dedicado à construção do teste foi algo entre 200h e 300h. O tempo na padronização é difícil de estimar, porque houve muitas atualizações, mas talvez cerca de 1.000 a 3.000 horas. Se computar o tempo relacionado ao estudo e à criação de ferramentas estatísticas, métodos etc., talvez 10.000 a 30.000 horas, mas não seria correto interpretar esse tempo como aplicado nisso, porque muitas das ferramentas estatísticas desenvolvidas foram para outras finalidades, especialmente Econometria, gerenciamento de risco e ranqueamento de genótipos.
Jacobsen: Você separa os níveis do Teste Sigma Estendido em Nível I (100) Médio, Nível II (110) Acima da média, Nível III (120) Inteligência Superior, Nível IV (132) Dotado, Talentoso, Altas Habilidades, Nível V (144), Nível VI (156), Nível VII (168), Nível VIII (184), Nível IX (202), Nível X – EXTRA (221). Se correlacionarmos esses 10 níveis a conquistas ou reconhecimentos de mérito no mundo real, que empregos, realizações, conquistas educacionais, etc., deveríamos, de modo geral, esperar em cada nível do Teste Sigma Estendido?
Melão Jr.: Para escores abaixo de 130, talvez seja útil reproduzir alguns estudos sobre QIs típicos em diferentes profissões. Pesquisando no Google, pode-se encontrar muitas outras listas, tabelas e gráficos como essa:
É importante destacar que em cada profissão há faixas bastante largas que se intersectam. Também devemos lembrar que Langan, Rosner, Grady Towers já trabalharam em atividades muito incompatíveis com o nível intelectual deles, assim como eu e meu pai. Portanto fatores como network e aspectos culturais em certos países podem ser mais relevantes do que o QI para posicionar uma pessoa profissionalmente ou mesmo academicamente.
Também é importante lembrar que aptidões específicas fracamente correlacionadas com QI podem desempenhar papel central no sucesso e em conquistas diversas. Nakamura, por exemplo, talvez não tenha QI acima de 120 ou 130, mas ele possui um talento muito desenvolvido para Xadrez e alcançou um rating que normalmente pessoas com 180 ou 200 de QI podem não alcançar mesmo que treinem muito para isso. O mesmo vale para as diversas profissões, que podem exigir algumas habilidades específicas, como cirurgião, em que a coordenação motora fina não poderia ser substituída por qualquer escore de QI.
Feitas essas ressalvas, podemos tentar fazer algumas estimativas de conquistas típicas para cada faixa de QI.
Nesse estudo reviso os QIs típicos em diferentes universidades nos EUA: https://www.sigmasociety.net/artigo/qi-universidade-escolas
Com QI acima de 160, dependendo da área de atuação e da natureza das pesquisas realizadas, já se torna plausível a possibilidade de ganhar um Nobel. Embora haja casos de Nobel com QI abaixo de 140 e até abaixo de 130, o que se observa é que a grande maioria possui QI acima de 160 não ganha Nobel, portanto ter 160 de QI não pode ser interpretado como preditor de alta probabilidade de Nobel, mas pode ser interpretado como “atendimento de um quesito mínimo” para isso. Não é fácil responder a isso, porque exames como SAT e GRE não são apropriados para avaliar acima de 130, e a maioria dos prêmios Nobel nunca fez um teste de QI com dificuldade e validade de constructo apropriada no nível deles. Os estudos que indicam cerca de 155 para o QI médio dos prêmios Nobel em Ciência reflete apenas a inadequação dos testes de QI para medir nos níveis mais altos. Seria ingênuo pensar que ganhadores de Nobel estão no nível de raridade intelectual de 1 em 3.000. A interpretação mais razoável é que foram examinados com testes inadequados.
Uma estimativa mais realista seria cerca de 170—180 para a média dos ganhadores do Nobel em Ciência, e talvez 160 seja um ponto “inclusivo” de cut-off.
Em geral, a maioria dos presidentes de diferentes países possuem QI entre 120 e 155, raramente acima de 160 ou abaixo de 120. Já circulou pela Internet a informação de que George Bush Sr. teria 91 ou 102 de QI, mas ele obteve score 1206 no SAT pre-1974, que corresponderia a cerca de 132, o que é mais plausível para um presidente com os atributos mínimos para suas funções. Netanyahu é citado como tendo 180, eu nunca cheguei a pesquisar a fundo sobre a exatidão dessa informação e adequação desse escore (a informação pode ser legítima, mas o escore pode ser baseado em testes inadequados). Acho razoável que Netanyahu possa ter de fato algo entre 160 e 180, sendo, porém, um caso raro.
Portanto 130 já pode ser suficiente para ser presidente na maioria dos países, o que representa um sério problema. Os problemas com os quais um presidente precisa lidar são extremamente difíceis e complexos, a ponto que nem mesmo 190 ou 200 seriam suficientes para resolver adequadamente a maioria das questões. O grande erro é que os chefes de estado sejam apontados com base em eleições. Deveria haver um conjunto melhor de critérios, com base na capacidade efetiva de lidar com problemas do país. Quando David Ben-Gurion convidou Einstein para ser presidente de Israel, me pareceu um convite extremamente inteligente e apropriado, embora a metodologia (convite) seja muito perigosa, pode funcionar se a pessoa (ou comitê) que faz o convite é idônea e competente.
Para trabalhar nas Big Techs, geralmente 150 a 160 é suficiente. Os campeões em IMO e similares geralmente têm cerca de 170 a 190, eventualmente podem ter muito mais, porém raramente têm muito menos que 170. Cerca de 170 em conjunto com muito treinamento e talento específico para Matemática ou Física podem representar boas chances de medalhas em IMO e outras olimpíadas intelectuais. A correlação de QI com Xadrez é mais fraca do que com Matemática, e essa correlação diminui nos níveis mais altos, então não daria para fazer muitos prognósticos sobre conquistas no Xadrez com base no QI.
Pessoas como Musk, Gates, Zuckerberg, Bezos geralmente possuem QI entre 150 e 160, porém pouquíssimas pessoas com QI entre 150 e 160 chegam ao nível de sucesso financeiro que eles chegaram porque isso depende muito mais de outros fatores, inclusive sorte, network, disciplina, dedicação etc. No livro de Leonard Mlodinow “The Drunkard’s Walk”, o autor analisa vários casos nos quais em grandes amostras populacionais o fator sorte pode desempenhar um papel de grande peso na determinação do sucesso em nível altíssimo, e ele atribui a Gates e a outros uma grande sorte. A meu ver, nesses casos a sorte também responde pela maior parte do resultado obtido, mas o talento também foi fundamental. Se Gates tivesse apenas sorte, obviamente não teria desenvolvido os produtos nem administrado com sucesso as diversas situações. Fatores relacionados à personalidade também acabam sendo muito importantes. O QI é apenas uma das variáveis para determinar o sucesso econômico, e o peso do QI depende de vários outros fatores. Em alguns casos o QI pode ser decisivo, em outros pode ser quase irrelevante.
Os casos de Musk e Jobs são um pouco diferentes. Musk talvez tenha menos de 160 de QI, mas parece ser muito criativo, num nível equivalente a cerca de 180. Jobs teve escore 1440 no GRE, que corresponde a cerca de 148, mas muito provavelmente o GRE não refletiu corretamente o QI dele, nem a criatividade, que seriam bem mais elevados, talvez num nível de criatividade um pouco abaixo do de Musk.
Para prêmios como Medalha Fields, prêmio Abel, prêmio Einstein, o QI “necessário” é semelhante ao “necessário” para o Nobel, mas acompanhado por um conjunto de aptidões específicas para Matemática. Isso não significa que o QI médio dos ganhadores desses prêmios semelhante à média dos ganhadores do Nobel em Ciência. Como a raridade é maior e os quesitos são semelhantes, estimo que a média de QI seja um pouco maior entre ganhadores desses prêmios em Matemática.
Jacobsen: O que esse dimensionamento propõe como desenvolvimento ou melhoria de testes como o WAIS?
Melão Jr.: O artigo que escrevi sobre o WAIS aponta alguns problemas, mas sob o ponto de vista estritamente técnico, não creio que seja apropriado “consertar” o WAIS. Pelo número de correções, seria mais interessante começar algo a partir do zero. Porém do ponto de vista comercial, como o WAIS já tem boa aceitação, por esse motivo poderia estar justificada (comercialmente) uma revisão ampla.
Jacobsen: Ao tentar desenvolver questões capazes de explorar um reservatório mais profundo de habilidades, o que é importante para questões verbais, numéricas, espaciais e outros tipos de questões?
Melão Jr.: Em alguns casos, pode ser interessante criar exclusivamente sequências de números ou de figuras ou ambos. Em outros casos, testes com analogias e/ou associações. Em outros casos, pode ser preferível um teste diversificado e uma pesada dose de aleatoriedade nessa diversificação. No texto introdutório do STE eu discuto alguns aspectos negativos de um teste constituído exclusivamente por sequências de figuras, ou exclusivamente com associações, ou exclusivamente com analogias, que resulta numa “consistência interna” muito elevada, e o significado disso pode ser um estreitamento nas habilidades aferidas, redundância, e outros efeitos indesejados.
O termo “consistência interna” não deveria ser o termo utilizado. O Alpha de Cronbach mede a homogeneidade, que não deveria ser interpretada como “consistência interna”. Um Alpha de Cronbach muito elevado indica que o teste mede uma variedade muito estreita e redundante de traços latentes, e isso pode não ser muito útil se o objetivo principal for medir o fator g, que seria uma característica de aplicação ampla.
Por outro lado, tem sido verificado que testes constituídos exclusivamente por sequências de figuras, como Raven, Cattell ou alguns subtestes do WAIS e DAT, apresentam correlação suficientemente forte com o escore em testes mais abrangentes, de modo a permitir que os escores nesses testes (de figuras) sejam estimativas acuradas de g pelo menos na faixa de 75 a 125 de QI e, talvez, num espectro um pouco mais largo.
Em níveis acima de 140 e, principalmente, acima de 150, o uso dessas questões vai se tornando cada vez mais inapropriado. A complexidade e a dificuldade que se pode alcançar num teste baseado em sequência de figuras é limitado, além disso são resolvidos por tentativas exaustivas mais do que por ideias brilhantes e profundas. Então o que está sendo medido é algo mais parecido com persistência, paciência, determinação do que inteligência. Algumas questões do Power Test podem ser resolvidas por caminhos muito trabalhosos, demorados e nada criativos nem engenhosos. O STE também apresenta esse problema em algumas questões, infelizmente eu não consegui eliminar completamente isso, mas no STE isso acaba sendo uma contaminação da questão, não a essência da questão, ou seja, a dificuldade principal da questão reside em ter alguma ideia criativa, mas parte da solução requer também um processo trabalhoso e demorado, então eu considero “tolerável”, mas se o problema puder ser resolvido exclusivamente por um processo trabalho e demorado, sem a ideia criativa, perde-se a finalidade. Em alguns casos, é muito difícil evitar que a solução seja trabalhosa e demora, mas deve-se tentar, sempre que possível, exigir criatividade e pensamento profundo nas questões mais difíceis.
Jacobsen: Quais são os obstáculos que os candidatos tendem a fazer em termos de processos de pensamento e suposições sobre compromissos de tempo nesses testes? Assim, eles obtêm pontuações artificialmente baixas em testes de alto alcance.
Melão Jr.: Esse é um problema interessante e difícil de resolver. Talvez não haja uma solução completa, porque para atender às pessoas que não dispõem de muito tempo, seria necessário pressionar no tempo e prejudicar aquelas interessadas em se empenhar em questões muito difíceis e demoradas. Andrew Wiles fez algumas críticas às IMO justamente porque o tempo disponível é muito curto (3h) para que se possa propor desafios com nível adequado de dificuldade e complexidade, comprometendo a finalidade de tentar identificar futuros grandes matemáticos. Por outro lado, haveria muitas dificuldades operacionais se a prova da IMO fosse muito mais demorada, inclusive haveria o problema de ausência de supervisão, ou necessidade de hospedar as pessoas de vários países por longo tempo na sede da competição, e monitorá-las continuamente poderia gerar problemas relacionados à privacidade, já que as pessoas precisariam ser supervisionadas depois que conhecessem o enunciado, então se a pessoa levasse 10 dias para resolver uma questão, precisaria ser monitorada para não receber ajuda ou utilizar meios proibidos. Alternativamente, poder-se-ia dispensar a supervisão se as questões fossem problemas não resolvidos do mundo real.
Seria uma ideia interessante promover olimpíadas de matemática e científicas com duração de alguns meses, usando problemas muito mais difíceis, inclusive problemas não resolvidos do mundo real, reunindo patrocinadores etc. Mas aparentemente os organizadores desses eventos estão satisfeitos como a coisa está.
Meu foco tem sido nas medidas corretas nos níveis mais altos, por isso eu não tenho me preocupado tanto com o problema que você descreveu nessa pergunta, mas isso representa de fato uma fonte de distorção nos escores. Por outro lado, creio que a maioria dos testes tradicionais usados em clínica já atendem razoavelmente bem a esse quesito, medindo com boa precisão e acurácia no intervalo de 70 a 130. Creio que a faixa de QI na qual os erros ainda são grandes, e precisam de maior atenção, seja nos níveis mais elevados, e nesses casos o tempo não parece ser um fator tão desmotivador, porque são geralmente pessoas muito mais competitivas e para elas é importante alcançar o máximo que puderem, reduzindo o risco de que haja distorções associadas ao tempo exigido na resolução.
Eu li também o texto que você me enviou com a entrevista de AntJuan Finch e me parece que ele já está fazendo um excelente trabalho nesse sentido, bem como Chris Cole, aumentando a confiabilidade em testes online não-supervisionados, e encorajando maior número de pessoas a fazer os testes em pouco tempo e sem custo. Com isso creio que surge uma alternativa aos testes de clínica com nível comparável (ou superior) de acurácia e fidedignidade, acessível a maior número de pessoas.
Jacobsen: Sem estragar o esporte mental dos HRTs, qual foi o processo desde a concepção até o desenvolvimento e a publicação das questões do STE dos níveis I a IV?
Melão Jr.: Eu vou tentar dar uma resposta agrupando essa pergunta e as duas seguintes, elegendo alguns itens que considero mais interessantes para serem analisados individualmente e fazendo alguns comentários gerais sobre todos os itens.
Algumas questões são triviais e não haveria como fugir muito disso, devido à dificuldade relativamente baixa, mas mesmo entre as questões para níveis I a IV eu tentei exigir que a pessoa compreendesse alguns fatos, em vez de apenas aplicar uma fórmula. Eu não poderia me estender muito na explicação, sem fornecer alguma “pista” importante, mas eu posso dizer que alguns Ph.Ds. em Física, Engenharia e Matemática deixaram escapar detalhes fundamentais em algumas questões que parecem triviais.
A informação de que as questões estão aproximadamente ordenadas por dificuldade é útil para saber que algumas questões que parecem fáceis, na verdade não são, e existem detalhes “ocultos” a serem descobertos. Não é “pegadinha”, não é esse o objetivo. Esses detalhes ocultos são “naturais” e importantes, que as pessoas deveriam considerar, mas muitas vezes não percebem. Em alguns aspectos, são semelhantes ao problema do Monty Hall, que parece simples e óbvio à primeira vista, mas quando você começa a se aprofundar, percebe que existem sutilezas e complexidades.
A questão 22 é um exemplo interessante que a grande maioria errou, inclusive astrônomos e matemáticos. Eu cheguei a pensar em mudar a posição dessa pergunta para um nível mais alto, porque se considerar o número de acertos sobre total de respondentes, ela tem menor taxa de acertos do que questões que estão em níveis mais altos. Porém eu decidi manter onde está porque ela não é de fato “mais difícil”, o problema é que as pessoas subestimam a dificuldade. Há pessoas de Giga Society que erraram, mas eu acredito que se tivessem “respeitado” mais a dificuldade e acreditado que ela está num nível compatível com a dificuldade dela, teriam analisado com mais cuidado e teriam acertado. Esse comentário é de certa forma uma “pista” útil, mas não vejo problema em fornecer essa pista porque a posição dessa questão no nível V também é uma pista, entretanto as pessoas não acreditam que ela tenha nível V e isso induz ao erro, então não vejo mal em reforçar que “ela é realmente de nível V e talvez um pouco acima”.
A questão 35 levantou um debate longo com Peter David Bentley, D. Phil. (=Ph.D.) e Post Doctoral em Física pela Universidade de Oxford. Entraram no debate Petri Widsten e Albert Frank. Quando a pessoa tem escore acima 180, ela é notificada de alguma questão que ela errou e ela pode debater se ela considera que a resposta dela deveria ser aceita, e aconteceu isso nesse caso. Foi uma análise que durou vários dias. (essa questão fazia parte do ST, Peter não fez o STE)
A questão 50 tem um detalhe que talvez eu deveria deixar mais explícito, porque algumas pessoas consultaram a distância da Lua à Terra em softwares de efemérides, e isso realmente não viola o enunciado geral do teste que permite usar qualquer recurso disponível. Então talvez eu devesse deixar mais claro que para essa questão específica a pessoa precisa usar os dados disponíveis na foto e no texto do enunciado, inclusive por isso as fotos em maior resolução estão disponíveis para download. Quando a pessoa resolve usando software de efemérides, eu peço que envie novamente usando as fotos.
A questão 45 também tem recebido respostas em que a pessoa subestima a dificuldade e eu peço que envie novamente.
Geralmente as pessoas percebem que há sutilezas ocultas que tornam o problema mais difícil do que parece num primeiro olhar, mas em alguns itens a maioria não percebe.
Na questão 48, eu queria ter uma ideia sobre se as pessoas nas sociedades de alto QI tinham consciência de que os percentis nos grupos acima de 130 estão errados e o erro cresce nos níveis mais altos, bem como eu gostaria de saber se eles têm uma ideia aproximada da magnitude do erro. Aparentemente a grande maioria está ciente de que nos níveis mais altos há erros grandes.
As questões que considero mais interessantes são a 51, 49, 23. Entre as questões fáceis, a 19 é uma das que acho mais interessantes. Quando digo “interessantes” é por serem mais diferentes de outros problemas-padrão e exigirem métodos de resolução também diferentes de caminhos tradicionais. A 19 não é bem assim, por ser simples, mas ela tem algumas peculiaridades interessantes para o nível de dificuldade que ela está.
Jacobsen: Qual foi o processo desde a concepção até o desenvolvimento e a publicação das questões do STE dos níveis V ao VIII?
Melão Jr.:
Jacobsen: Qual foi o processo desde a concepção até o desenvolvimento até a publicação das questões do STE para os níveis IX e X?
Melão Jr.:
Jacobsen: Pragmaticamente falando, para estatísticas realmente boas, qual é o número ideal de participantes do teste? Você não pode dizer “8.000.000.000”.
O método que descrevo na norma de 2003 do Sigma Test tem uma lista de vantagens importantes em comparação a outros métodos. Uma dessas vantagens é possibilitar normas mais acuradas com base em amostras menos numerosas. Isso acontece por um motivo simples: na distribuição normal teórica, a raridade diminui aceleradamente. Conforme o QI medido se torna mais alto, a soma de alguns poucos pontos no QI implica grande aumento no nível de raridade, e as questões dos testes não são naturalmente ajustadas para acompanhar esse ritmo.
Para escores abaixo de 140 e, principalmente, abaixo de 130, os escores de QI geralmente crescem quase linearmente com os escores brutos, e isso acompanha razoavelmente bem a raridade teórica correspondente a cada escore. Mas para escores muito mais altos, o ganho de 2 ou 4 pontos no escore não deveria somar sequer 1 ponto no QI, porque esse 1 ponto no QI implicaria um aumento muito grande na raridade. Na prática, porém, os escores de QI continuam crescendo quase linearmente com os escores brutos mesmo para QIs acima de 140, 150, 180...
O problema real não está nesse crescimento quase linear, mas sim em acreditar que a distribuição real dos escores continua aderente à uma distribuição normal para escores muito acima de 130, porque isso obviamente não acontece. O número de pessoas com QI acima de 200, sd=16 é muito maior do que seria previsto com base na hipótese de que os QIs se distribuem normalmente em todo o espectro. Quando se faz uma padronização dos escores pelo método usado por Wechsler, os escores são forçados a se ajustar a uma distribuição normal, mas isso só acontece dentro do intervalo determinado pelo tamanho da amostra usada na padronização (geralmente 2000 a 3000 pessoas).
Entre 70 e 130 a distribuição “natural” dos escores é muito semelhante a uma normal, e com um “empurrão” se pode forçar os escores de 130 a 150 a ficarem também normalizados, mas numa amostra com 3000 pessoas de uma população não-seleta não se consegue empurrar os escores acima de 155 para perto de uma normal e a distribuição degringola. Mas mesmo que fosse possível usar uma amostra com 8 bilhões de pessoas e empurrar todos os escores paras as posições de raridade teóricas previstas, isso não ajudaria em nada, apenas expandiria a distorção ampliando o intervalo no qual os escores perdem a intervalaridade.
A Ideia de Wechsler de padronizar os escores foi interessante e seria boa para resolver alguns problemas, porém gera outros problemas. Em Teoria da Medida, sempre que possível, é importante que a variável de interesse esteja numa escala de proporção. Se não estiver, é recomendável adotar métodos adequados de transformação para colocar a variável numa escala de proporção. A altura, por exemplo, está naturalmente numa escala de proporção. O QI medido pela relação entre idade mental e cronológica está naturalmente numa escala semelhante a uma escala de proporção. Mas quando Wechsler colocou o dedo nisso, ele distorceu grande parte dos escores para “remenda” o problema da variação do QI com a idade e o desvio padrão mais largo para crianças.
Uma das soluções adequadas para isso é a que proponho na norma de 2003 do ST, com uma versão atualizada em 2022 nesse artigo https://www.sigmasociety.net/escalasqi, com uma reformulação completa no método de padronização, gerando escores numa escala de proporção (antilog de uma escala de proporção), corrigindo os níveis de raridade para valores realistas e permitindo normatizações mais acuradas com amostras menores, além de outras vantagens.
Podemos fazer uma analogia com a altura ou com o Xadrez. Primeiro com a altura: se você tenta estimar a altura de uma pessoa com base no nível de raridade, você precisará de amostras gigantescas para medir acima de 2,10 m e ainda assim terá graves distorções nos resultados. Mas se você usa uma fita métrica, uma trena, um medidor Leica a laser ou qualquer outra ferramenta para medida de comprimento, você uniformiza os intervalos da escala e dispensa a necessidade de grandes amostras.
Exemplo do Xadrez: para medir a força de Carlsen no auge (2882) com razoável acurácia e precisão com base nos resultados dele contra oponentes com rating 1000, seriam necessárias centenas de milhares de partidas entre eles, porque a probabilidade teórica é favorável a Carlsen numa proporção aproximada de 50.000:1, então com 100.000 jogos haveria expectativa de apenas 2 pontos para o jogador de rating 1000. Se o jogador com 1000 marcasse 1 ou 3 pontos, o erro seria grande em relação aos 2 pontos esperados, com grande incerteza na medida. Precisaria de uma amostra suficiente para que o jogador com 1000 conseguisse pelo menos algumas dezenas de pontos, e para isso a amostra exigiria alguns milhões de jogos dele contra Carlsen, tornando inviável.
Entretanto, poderia introduzir jogadores com 1500, 2000 e 2500. O de 2500 jogaria 1000 partidas contra o de 2000 e outras 1000 partidas contra Carlsen. O de 2000 jogaria 1000 contra o de 2500 e 1000 contra o de 1500. O de 1500 jogaria 1000 contra o de 2000 e 1000 contra o de 1000. Desse modo, com poucos milhares de partidas seria possível alcançar uma estimativa mais acurada e mais precisa para o rating de Carlsen, porque as probabilidades esperadas nos intervalos de 500 pontos são cerca de 94,68% de pontos para o mais forte, então haveria algumas dezenas de pontos para o mais fraco em cada match.
Generalizando a mesma ideia, em vez de jogadores com 1000, 1500, 2000, 2500, poderia incluir vários jogadores com diferentes ratings jogando entre si, usando algo como o Sistema Suíço de emparceiramento, para que os jogadores de forças semelhantes priorizassem confrontos entre si, e assim otimizaria a acurácia e a precisão na medida, sem precisar de um número imenso de partidas. Com jogadores com rating variando de 100 em 100 pontos cobrindo o intervalo de 1000 a 2800, e uma rede com algumas centenas de partidas entre eles, já seria possível fazer uma estimativa mais acurada do que se fossem jogadas milhões de partidas colocando o jogador de 1000 jogando diretamente contra Carlsen.
Isso só é possível porque o método para cálculo de rating de Xadrez utiliza o sistema Rasch, adotado por Arpad Elo. Se tentasse avaliar a força dos jogadores com base em raridade ou percentil, não funcionaria e precisaria de um caminho muito diferente e com amostras muito maiores.
Para que isso funcione com testes de QI, é necessário que o método de padronização seja conforme descrevi na norma de 2003, que também utiliza um modelo semelhante ao Rasch. Desse modo, o cálculo é essencialmente o equivalente a tratar cada item do teste como um oponente no Xadrez. Resolver cada item significa “vencer”. A dificuldade dos itens equivale às forças dos oponentes. E para que tudo faça sentido é necessária a abordagem que dou ao problema com o conceito de “potential IQ”.
Com isso, pode-se medir em níveis muito altos com amostras relativamente pequenas. Há também uma descrição mais detalhada no livro “Xadrez, 2022 melhores jogadores de todos os tempos, dois novos sistemas de rating”, no qual discuto vários detalhes complementares, entre os quais o problema do empate, que no sistema Elo do Xadrez é inadequadamente valorado como “0,5”, sem os devidos ajustes para preservar a consistência do método.
O problema no valor do empate é porque o modelo Rasch usado por Elo foi criado para variáveis dicotômicas, mas o Xadrez é tricotômico. Arpad Elo tentou alguns remendos, mas não conseguiu uma boa solução e se rendeu a atribuir simplesmente 0,5 para o empate. Há um estudo de 2015 de Miguel Ballicora que tenta atribuir um valor “justo” para o empate, e representa um avanço em comparação ao sistema Elo, mas ainda incorre em vários outros erros. Em meu livro, analiso detalhadamente esse assunto.
Melão Jr.:
Jacobsen: Quais testes e construtores de teste você considerou bons?
Melão Jr.: Eu tentarei dar uma resposta genérica, que complementa uma parte dos comentários que eu já fiz nos textos de introdução do Sigma Test Extended e do Sigma Test Light (também recomendo a leitura desses, como complemento). Eu vejo 3 problemas principais (poderia dividir os problemas em 4, 5 ou 6 grupos, ou outro número, mas nesse caso creio que 3 permita uma descrição adequada).
1. Validade de constructo inadequada, especialmente nos níveis mais altos.
2. Normas “ingênuas” e infladas para escores acima de 135, com distorção progressivamente maior nos escores mais altos.
3. Dificuldade inadequada.
Poderia também citar outros problemas, como vazamento de soluções, retestes com nomes fakes etc. Mas vou focar nos 3 acima.
São raros os bons testes que não se enquadram em um ou mais desses problemas. Além disso, há testes com problemas ainda mais graves, como normas baseadas em 1 ou 2 pessoas, e até mesmo com base em 0 pessoas. Em alguns casos, é muito difícil começar a padronização com 0 pessoas, mas seria mais prudente estimar uma norma inicial conservadora e eventualmente corrigir para cima (após coletar dados empíricos), entretanto o que se observa mais frequentemente é o contrário.
Então os bons testes são os que não incorrem nesses problemas, que apresentam número suficientemente grande de itens com diferentes níveis de dificuldade de modo a medir corretamente em cada faixa de QI, preservado a validade de constructo em cada nível.
Outro ponto a considerar é que um teste pode ser adequado para determinada faixa de QI, mas não para uma faixa diferente. O WAIS é um bom exemplo. Embora apresente várias falhas, ele gera escores muito próximos dos corretos na faixa de 85a 115, e razoavelmente corretos na faixa de 75 a 125. Ainda gera escores aceitáveis entre 70 e 135. Acima disso, os erros já são preocupantes. O Power Test pode medir bem entre 110 e 150, e ainda gera resultados razoáveis até 160.
Jacobsen: O que você aprendeu ao fazer este teste e suas variantes?
Melão Jr.: a Psicometria utiliza algumas ferramentas que são amplamente usadas em outras áreas, mas também possui ferramentas próprias, que raramente são usadas em outras áreas. Eu acabei aprendo algumas ferramentas estatísticas novas, além de desenvolver outras.
Jacobsen: Obrigado pela oportunidade e pelo seu tempo, Melão.
Melão Jr.: Eu que agradeço pela lembrança e pelas perguntas estimulantes!