Robust Statistics Theory and Methods, do Maronna

Por Hindemburg Melão Jr.


O livro sobre o qual vou falar hoje foi meu favorito durante um bom tempo, por ser um dos poucos que trata de Estatística Robusta e por ser bastante completo sobre esse tema. Trata-se de “Robust Statistics Theory and Methods”. Na época que conheci esse livro, em 2007, eu precisava lidar com conjuntos de dados seriamente contaminados por outliers. Quem já enfrentou esse tipo de problema, sabe como é difícil identificar corretamente quais elementos devem ser interpretados como outliers e excluídos, e quais devem ser preservados. Quando há apenas 1 ou 2 outliers muito evidentes, a solução é bastante simples e não requer análises mais profundas, mas quando uma amostra contém mais de 5% ou 10% de outliers, começam a surgir dúvidas sobre quais dados são realmente outliers. Esse livro trata justamente desse tipo de problema, numa grande variedade de situações, com exemplos e análises que ajudam a decidir qual o estimador robusto mais apropriado para cada caso. Embora o Maronna seja argentino, o livro está em inglês. Aliás, há uma profunda lacuna na literatura lusófona sobre esse tema. Que eu saiba, não existe livro em língua portuguesa sobre Estatística Robusta. Além disso, parece haver certa rejeição por parte de muitos pesquisadores, que consideram a filtragem de outliers uma “adulteração nos dados”, em vez de uma limpeza de dados. Essa rejeição é semelhante às divergências que eram relativamente frequentes alguns anos atrás entre os bayesianos e os clássicos, mas as novas gerações já vão começando a aprender Estatística Bayesiana desde a graduação, e para elas acaba sendo muito natural, de modo que em poucas décadas é provável que praticamente ninguém discorde sobre os métodos bayesianos serem sempre mais completos e mais acurados que os “clássicos”. Aliás, o termo “clássicos” é um eufemismo. Talvez devessem receber o nome de “incompletos”. No caso da Estatística Robusta, não é tão claro que ela seja sempre preferível, como acontece no caso da Estatística Bayesiana. Em algumas situações, a Estatística Robusta piora a interpretação dos dados. No caso do acidente com a usina nuclear de Fukushima, em 2011, por exemplo, seria um erro usar Estatística Robusta para predizer os riscos de um tsunami muito maior que o máximo histórico. O correto seria quase o contrário de usar estimadores robustos: precisariam determinar com maior acurácia o ritmo em que a densidade das caudas cresce à medida que se afastada da tendência central, para prever a ocorrência de outliers muito maiores que os maiores registrados. Portanto a Estatística Robusta expande o leque de opções do cientista, mas a escolha da melhor ferramenta para cada caso deve ser feita com bons critérios, para evitar desastres. Lembrando que no caso de Fukushima o acidente não foi causado pelo uso de Estatística Robusta, mas poderia ter sido agravado (ocorreria antes) se tivessem usado Estatística Robusta. É muito importante compreender os problemas que estão sendo analisados para que se possa julgar quais as ferramentas mais apropriadas. Se os outliers estão atrapalhando a determinação do coeficiente de inclinação de uma reta de regressão ou a determinação da localidade da tendência central – que são situações muito comuns –, então o uso de estimadores robustos nos ajuda a ter um modelo mais aderente aos dados. Mas se desejamos nos prevenir contra eventos cuja gravidade seja muito grande e nenhum desses eventos possa ser permitido, como no caso de Fukushima, então deve-se não apenas dar especial atenção aos outliers presentes na amostra, como também tentar estimar corretamente as probabilidades de ocorrência de novos outliers ainda maiores. Enfim, este é um livro extremamente importante e muito útil, que me ajudou em diversas ocasiões. Agora há também uma segunda edição focada no uso do R.