Handbook of Modern Item Response Theory

Por Hindemburg Melão Jr.

Vi que o pessoal se mostrou receptivo à análise do primeiro livro. 🙂 Espero que apreciem esse também. Antes de analisar outros livros muito conhecidos de divulgação, como “O andar do bêbado”, “Rápido e devagar” etc., e antes de comentar alguns dos melhores livros didáticos do Morettin e Wechsler (que muitos já conhecem), decidi colocar como segundo livro da lista um dos mais importantes, entre os que são insuficientemente explorados no Brasil: “Handbook of Modern Item Response Theory”. Devo dizer que não acho o livro “bom”, mas o conteúdo que ele traz é muito importante, e entre os poucos livros que abordam esse tema, livros geralmente são ruins, esse é talvez o melhor ou, no mínimo, um dos melhores. Portanto deixo claro que não gosto do estilo, mas valorizo o conteúdo. O que há de tão importante nesse livro? A resposta pode ser resumida em 1 frase: mostra como se deve padronizar bons questionários e classificar escores. Os questionários estão entre as ferramentas mais importantes da Estatística. Cada vez que deparo com um questionário de banco, pesquisa de opinião, avaliação de produto etc., fico chocado com a baixa qualidade do tratamento estatístico (além da inadequação dos enunciados). A maioria utiliza escala Likert, que está entre as menos informativas e menos versáteis. Além disso, a padronização dos escores é muito malfeita. Conforme comentei num artigo que escrevi em 2004, há erros estatísticos muito graves nos grandes exames educacionais, como Fuvest, nos grandes concursos públicos e outros, que poderiam e deveriam ser evitados. Um dos erros frequentes é o seguinte: numa prova de múltipla escolha, é desejável que se tente maximizar o aproveitamento dos dados obtidos com as respostas, extraindo o máximo de informação útil desses dados. Em vez cada pessoa examinada receber 1 ponto pela resposta certa e 0 pela resposta errada, seria melhor que houvesse algum tipo de ponderação no escore ou na probabilidade de escolher a resposta certa em função dos diferentes níveis de conhecimento/competência. A pessoa que sabe a resposta deve receber o ponto inteiro. A pessoa que não sabe, mas tem uma boa noção, deve ser capaz de não ficar em dúvida entre todas as 5 alternativas, mas apenas entre 2 ou 3 ou 4 alternativas, conforme o nível de conhecimento que ela tiver, aumentando sua probabilidade de acerto em comparação à pessoa que não sabe nada. Quanto mais conhecimento, maior deve ser a capacidade de descartar alternativas improváveis e maior sua probabilidade de escolher a resposta certa. Com isso, aumenta-se o poder de discriminação da prova, que passa a ser capaz não apenas de distinguir entre a pessoa que sabe resposta da pessoa que não sabe, mas também possibilita estratificar os diferentes níveis de conhecimento entre as pessoas que não sabem a resposta inteira, mas sabem partes de diferentes tamanhos. Para que o exame tenha essa propriedade, o enunciado e as alternativas precisam ser formulados para atingir esse objetivo, e depois precisa ser testado numa pequena amostra de pessoas para conferir se esse objetivo foi alcançado. Isso torna o exame muito mais eficiente, aproveitando melhor cada um dos itens do questionário e contribuindo para gerar escores mais justos, cumprindo melhor a função para a qual o teste foi criado. Nesse contexto, o uso de Teoria da Resposta ao Item desempenha um papel crucial. Outra situação na qual TRI é muito importante: um questionário que tenta medir determinada variável (competência em programação, por exemplo), pode conter alguns itens que correlacionam negativamente com o escore total. Isso significa que além de não contribuir para o objetivo do exame, esse item ainda por cima prejudica o resultado, isto é, aumenta os escores dos sujeitos que atendem menos ao critério e reduz os escores dos sujeitos que atendem melhor ao critério. Nestes casos o uso de TRI contribui para a detecção e exclusão de itens problemáticos. Medidas de performance, especialmente performance esportiva, performance de genótipos no mercado financeiro, genótipos para diversas outras finalidades, geralmente são muito malfeitas. Os rankings da FIFA, por exemplo, são uma bagunça na qual se usa escalas ordinais com operações aritméticas que só fariam sentido numa escala de proporção. Esses rankings podem ser organizados por meio de modelos muito melhores, mais consistentes e conceitualmente corretos, utilizando TRI. Avaliações pedagógicas e psicológicas também podem produzir resultados muito mais acurados e úteis se forem baseados em TRI. Pesquisas publicitárias, otimizações com algoritmos genéticos são mais alguns exemplos que podem produzir melhores resultados se forem utilizados modelos de TRI. E poderia prosseguir com a lista ad nauseam, com vários outros exemplos, mas creio que estes sejam suficientes para proporcionar uma ideia sobre a importância dessa ferramenta e quanto ela tem sido subvalorizada. Em 2004, lembro-me que eram bem poucas pessoas no Brasil que tinham alguma noção sobre o assunto. Depois disso, em parte graças aos trabalhos do Dalton e do Pasquali, TRI começou a se difundir um pouco mais, porém continua sendo bem pouco conhecida e pouco utilizada. Por isso considero esse livro importante, por trazer uma lista razoavelmente completa de ferramentas para as finalidades citadas acima.