Esse ano está sendo marcado por uma série de discussões relevantes para o progresso da ecologia. Uma delas é, sem dúvida, sobre o mau uso dos testes de hipóteses e do foco exagerado que temos dado aos valores de p em nossos trabalhos. Se você não acredita, recomendo que você dê uma olhada no Fórum desta edição da revista Ecology e este artigo da Nature (apesar de achar que você pode achar muito mais coisa por aí, publicada esta ano).
Grande parte de nós, cientistas, estamos acostumados a usar testes de hipóteses baseados nos valores de p no nosso dia a dia: organizamos nossas planilhas de dados (muitas das quais gigantescas), abrimos nosso programa estatístico (Statistica, SAS, SPSS, R,…), colocamos ele para rodar a análise que queremos e cruzamos os dedos para encontrar um valor de p < 0.05. Quando isso acontece sentimos um grande alívio (“Oba! Um resultado para publicar!”). A emoção é tanto que muitas vezes nem paramos para olhar os outros *números* que o programa dá. O resultado está lá – um número pequeno depois da vírgula. Nas ocasiões em que não temos a sorte de um p < 0.05, é praticamente o fim do mundo (“Que droga! Quem vai querer publicar essa porcaria?!”).
Você sabe a definição do que é o valor de p? Como calculamos esse valor? Você sabe o que o valor de p de fato testa? Por que p < 0.05 e não p < 0.2 ou p < 0.01? Eu arriscaria dizer que a grande maioria das respostas para a primeira pergunta é “a significância do meu teste” ou “a força do meu teste” (e qualquer variação destas duas frases), para a segunda pergunta é “minha hipótese”, para a terceira pergunta é “um mistério que só o programa sabe” (e derivações) e, para a última pergunta, “por que é o valor do alfa” ou “porque sim” (e derivações). Pois bem, não é por aí.
Em toda a pesquisa, coletamos dados com a finalidade de tentar descrever o comportamento de uma dada variável a algum fator que estamos manipulando, seja artificialmente ou de forma natural. Vamos imaginar que coletamos várias amostras de uma dada variável e que esta variável segue uma determinada distribuição de probabilidade, digamos, uma distribuição normal padrão (média = 0; desvio padrão = 1).
Um dos interesses que podemos ter, por exemplo, é saber se os valores coletados estão acima de um limite pré-estabelecido (ou abaixo, ou que seja diferente de um determinado valor, não importa, é só seguir por analogia). No contexto do teste de hipóteses da estatística frequentista, podemos encarar este limite pré-estabelecido como nossa hipótese nula (H0; qual deve/pode ser o valor da variável) e o valor de nossa variável como a hipótese alternativa (Ha; qual é o valor da variável). Então, uma das abordagens que podemos usar é a comparação entre um valor médio previsto pela hipótese nula e o valor médio que o nosso dado conta. Utilizando a distribuição normal padrão, temos que esta comparação é feita através de:
Onde o x-barra é a média da nossa variável segundo os dados que coletamos, µ0 é a média segundo a hipótese nula, σ é o desvio padrão e n é o tamanho da nossa amostra. O que esta equação pode nos dizer?
- Se a diferença entre as duas médias for igual ou próximo a zero (µ0– x-barra = 0), então os dois valores são muito parecidos (µ0 ≅ x-barra).
- Se a variabilidade (σ) nos nossos dados for muito grande, então o valor de z vai tender a cair e as diferenças entre as duas médias vai tender a ficar mascarada (afinal, quanto maior o denominador, menor o coeficiente).
- Se o seu n for muito grande, ele *pode* (não necessariamente vai) fazer com que o denominador da equação seja pequeno. Isto por sua vez vai fazer com que o valor de z infle, ainda que a diferença entre as duas médias seja pequena (quanto menor o denominador, maior o coeficiente).
Ok, mantenham isso em mente e vamos avançar (você vai voltar nesses três tópicos quando estiver próximo ao final do texto). Uma vez resolvida esta equação, você tem um valor z que descreve a diferença padronizada entre as duas médias. Mas a fim de saber se este valor representa, de fato, uma diferença relevante você precisa ter um baseline, algo que te diga se o valor de z que você calculou é algo ‘comum’ ou ‘extraordinário’ para a distribuição normal padrão.
Como toda a distribuição de probabilidades, a distribuição normal padrão prevê que você vai ter muitos valores de ocorrência relativamente comum (o meio do sino), mas também é provável que você observe valores extremos, com menor probabilidade de ocorrência (as pontas do sino). Assim, quando consideramos sei lá, 5% dos valores mais extremos que podem ser observados para a distribuição normal padrão, estamos selecionando aquela área do sino que corresponde a esta proporção das observações. Se baixarmos para 1% dos valores mais extremos, então essa área vai tender a ser ainda menor, e por aí vai. Ah sim! A posição dessa área vai depender de que tipo de valores você está buscando: apenas maiores que um dado valor, apenas menores que um dado valor ou maiores e menores que um determinado valor. Esse valor é o z crítico ou zα (z alfa).
Por que zα? Porque o α é aquela proporção de valores extremos contra os quais queremos testar o nosso valor de z! Com base nisto, existem duas abordagens que podemos então utilizar para traçar a relevância da diferença entre as médias. A primeira abordagem envolve em determinar o valor de z, determinado por α, a partir do qual a diferença entre as médias é extrema demais para a distribuição padrão normal. No nosso caso, onde queremos saber se os valores obtidos em nosso coleta são maiores que uma determinada média pré-estabelecida, então precisamos descobrir o zα conforme pode ser observado no primeiro gráfico da figura acima. Assim, a diferença entre as médias seria considerada extrema se, e somente se, a diferença calculada entre as nossas médias for maior do que aquela prevista pela distribuição padrão normal (isto é, z ≥ zα).
A segunda abordagem que podemos seguir é extremamente relacionada à primeira, e envolve o cálculo do valor de p. Para tal, basta consultar a tabela da distribuição normal padrão (você pode achar em praticamente todos os livros de estatística ou na memória do seu programa estatístico) e achar o valor da área escura do gráfico (conforme na figura acima) que corresponde a frequência de observações que estão localizadas acima do valor de z que você calculou (e/ou abaixo, dependendo da sua hipótese) – isto é o valor de p. Para saber se este valor é significativo, basta compará-lo com o valor de α que você resolveu adotar para o seu teste. Pronto!
É importante notar que durante todo o processo estamos estamos tentando rejeitar uma hipótese nula em favor de uma hipótese alternativa. Em outras palavras, a forma que empregamos para prever realizar nossos testes se baseiam em dizer como ela não se comporta. Estamos o tempo todo testando a hipótese nula! O valor de p é, na verdade, força da evidência contra a hipótese nula e não a força do seu teste (de fato, a definição formal do valor de p é “assumindo que a hipótese nula é verdadeira, o valor de p descreve a probabilidade de que os dados coletados estejam de acordo com ela“).
E por que p < 0.05? Convenção. Em estatística, se diz que se um evento tem 1 chance em 20 (5%) de ocorrer, então este é um evento pouco provável. Simplesmente assim. É claro que existe uma discussão sobre os valores de p e de α, sobre tornar o teste menos ou mais rigoroso, mas não é o meu enfoque discutir isso aqui.
Agora, eu quero que você volte naqueles tópicos lá em cima. Leia eles de novo e não os decore. Entenda eles e entenda o que eles querem dizer agora que você sabe calcular o valor de p: uma variabilidade grande nos dados pode gerar uma não-significância no seu teste ainda que haja diferença entre as médias (z é subestimado) e um espaço amostral muito grande pode gerar uma significância no seu teste ainda a diferença entre as médias seja extremamente pequena (z superestimado).
E esse tipo de problema é comum a diversos outros tipos de distribuição e testes de hipóteses. Por exemplo, quando estamos testando hipóteses como em uma ANOVA, é comum observarmos um valor de p muito baixo (p < 0.001) acompanhado com um valor da razão de F também baixo (usualmente < 3), ou seja, um efeito significativo mas de magnitude muito pequena. Assim como na distribuição normal padrão, isto tende a acontecer quando temos um grande número de réplicas e um pequeno número de fatores sendo testados (o excesso de graus de liberdade no denominador dos quadrados médios dos resíduos reduz este coeficiente, que por sua vez será usado como denominador para o cálculo da razão F) – mas isso é tema de um outro post.
Será que temos prestado atenção a essas coisas? Será que confiamos demais na caixa preta da estatística? Quantas conclusões erradas estamos tirando dos testes que estamos fazendo? Somos responsáveis pela recente crítica feita à queda no poder preditivo da ecologia? Essas perguntas me lembram de um provérbio budista que diz: “Para todo homem é dado as chaves para o paraíso. A mesma chave abre os portões do inferno”. Particularmente, eu acredito que não existem culpados. Temos feito o melhor que podemos, com o melhor que temos – ainda que muitas vezes não saibamos o que estamos fazendo.
Comments 1