Por mais que na Ecologia e em muitas outras áreas da Biologia a utilização de análises estatísticas seja onipresente, boa parte dos biólogos que utilizam estas análises muitas vezes o fazem sem ter um real entendimento do que estão fazendo, ou de como interpretar seus resultados. Me parece que somos treinados a repetir protocolos e procedimentos analíticos que outros utilizaram anteriormente, muitas vezes pra conjuntos de dados que pouco se relacionam com os nossos, saídos de uma caixinha preta sem ao menos questionarmos o porquê de utilizá-los ou quais alternativas são possíveis. A verdade é que o real entendimento da maioria destes modelos requer de nós um entendimento maior da matemática por detrás destes modelos, e isso por si só é capaz de fazer com que gerações de biólogos permaneçam coniventes com a obscuridade.
A verdade é que eu, como um aluno de gradução da Universidade Federal do Rio de Janeiro do curso de Ciência Biológicas, tive um péssimo ensino de matemática na universidade, assim como meus colegas biólogos de diversos outros cursos. Por isso, a estatística sempre me pareceu uma grande piscina de lama, quanto mais eu procurava entender mais eu chafurdava na ignorância. Com o tempo, tive a oportunidade de ir estudando um pouco mais de matemática, que me permitiu erguer um pouco a cabeça e respirar, na esperança, utópica, de um dia poder caminhar sobre areia movediça.
Mas uma coisa sempre me chamou atenção, não importa o teste estatístico que alguém faça, invariavelmente você reporta o valor de p para dizer se você obteve, ou não, efeitos significativos. Efeitos significativos, podem ser diferenças na média de determinada variável de um tratamento qualquer vs. um conjunto de dados controle. Ou mesmo para verificar se uma regressão linear foi significativa, que em linhas gerais serve pra ver se existe uma relação de causa e efeito quantitativa entre duas varáveis. Ou seja, praticamente todo mundo que se utiliza de um teste estatístico, reporta o valor de p nos seus resultados. Mas o que realmente representa o valor de p ? Alguma idéia? Infelizmente a intuição nos leva a crer que o valor de p representa a probabilidade do resultado obtido ser em função do acaso ou em função de um fator determinístico. E essa intuição não passa nem perto do real sentido do valor de p.
Bem, para chegarmos a uma boa definição do que seria o valor de p, primeiro vamos desconstruir alguns conceitos. Quando se diz que o valor de p é a probabilidade de um resultado ser em função do acaso ou de um fator determinístico está errado em sua essência, pois todo e qualquer evento será uma mistura de determinismo e do acaso. É praticamente impossível encontrarmos algum evento na natureza que não tenha um componente de estocasticidade e por isso tratar esses dois componentes de forma dicotômica por si só é uma falácia. Na sua essência, o valor de p não diz se um resultado é devido ao acaso mas sim se o resultado é corroborado por ser gerado pelo acaso, ou não. Muitos autores, mesmo nos dias atuais, descrevem o valor de p como uma probabilidade condicional da seguinte forma:
valor de p = P(D > d | H0)
Ou seja, o valor de p é a probabilidade de um teste estatístico qualquer (e.g., D) ser maior que o valor observado (i.e., calculado para os deus dados) deste mesmo teste (e.g., d) dado a hipótese nula (H0). No entanto, esta descrição é errada pois a hipótese nula não é uma variável aleatória, ela é fixa. Por isso, não existe uma distribuição conjunta de D > d e H0 e não existe uma probabilidade a priori de H0. Isso faz com que o valor de p não possa ser descrito como uma probabilidade condicional. É um problema de conceito! H0 é não uma variável aleatória! Por isso alguns autores usam uma outra notação, em vez da barra vertical (|), usada em probabilidade condicional, eles usam ponto e virgula (;) uma dupla barra vertical (||), o que resultaria na seguinte notação:
valor de p = P(D > d ; H0)
ou
valor de p = P(D > d || H0)
Essa notação seria lida de forma bem parecida a apresentada anteriormente, o valor de p é a probabilidade de uma métrica de um teste estatístico qualquer (e.g., D) ser maior que o valor observado (e.g., d) assumindo que a hipótese nula (H0) é verdadeira. E esta seria a definição correta do valor de p. Imagine o seguinte exemplo, que você quer verificar se a biomassa fitoplactônica de dois lagos é diferente. Você coleta amostras de fitoplancton nos dois lagos, verifica que o lago B tem uma biomassa média maior que a do lago A. Você aplica um teste t, que informalmente verifica a diferença entre duas médias, e verifica que o valor de p é de 2% (0.02). Isso significa que temos 2% de chances de encontrarmos uma diferença maior que a observada assumindo que as médias das populações de dados (neste caso biomassa fitoplanctônica) dos dois lagos são iguais (minha hipótese nula H0). Isso sugere que o resultado (Lago B tem uma biomassa fitoplanctônica maior) não é suportado por ser gerado pelo acaso, pois por convenção assumimos que 2% é um valor baixo, abaixo de um nível de significância de 5%. Note que é bem diferente de dizer que o resultado se deve ao acaso com 2% de chance, o que intuitivamente (errado) é o que parece ser. Mas por que escolhemos como limite o valor arbitrário de 5% para dizer se um resultado é suportado, ou não, em ser gerado pelo acaso? Não existe resposta para isso, é arbitrário e por isso se você tiver uma boa justificativa pra usar 10% não tenha medo, vá em frente! Mas caso o seu resultado tenha implicações vitais, por exemplo, está relacionado ao efeito de um medicamento ou resistência de um material usado em aeronaves, eu sugiro diminuir seu nivel de significância para menos de 5%, assim eu vou comprar remédios e voar com muito mais segurança!
Essa definição do valor de p lhe parece um pouco estranha? Bem, não deveria. A partir desta definição é possível derivar mentalmente quais seriam os passos necessários pra se calcular o valor de p a partir, por exemplo, de um método de re-amostragem. Atualmente na Ecologia é muito comum nós observarmos testes estatísticos advindos de métodos de re-amostragem, por exemplo a partir de um método de Monte Carlo. E no que consiste este método de re-amostragem? Esse método consiste em aleatorizar seus dados e calcular pra cada vez que você aleatoriza seus dados um determinado teste estatístico, que pode ser uma diferença entre médias, o valor da estatística t usada no teste t ou da estatística F usada na ANOVA. Você faz essa aleatorização milhares de vezes e calcula quantas vezes o valor da sua métrica de interesse (diferença, t, F, etc…) foi maior que o valor da mesma métrica calculada para os dados reais, ou seja, não aleatorizados. Se essa proporção for menor que 5% diz-se que o efeito foi significativo. Voilà!!!! Mas essa é a definição que eu acabei de apresentar do valor de p!!!!! Só que feita passo a passo, ou seja, por força bruta! Quando você calcula o valor de p por um método estatístico convencional ou o valor de p por um método de re-amostragem (e.g., Monte Carlo) você na verdade está calculando exatamente a mesma coisa, só que no caso do teste convencional você está usando um método analítico e no caso do método de re-amostragem você está usando força bruta! Quando se utiliza um método analítico seus dados precisam ter determinadas características, as famosas premissas do método, para que a conta dê um valor correto, mas isso não é necessário se você faz os cálculos por força bruta. Por isso premissas são relaxadas em métodos de re-amostragem. Depois de pensar sobre esse assunto eu cheguei a conclusão de que alguém que se arrisque a fazer uma análise estatística a partir de um método de re-amostragem precisa saber o que realmente significa o conceito do valor de p. Por isso é tão importante termos a noção exata de conceitos estatísticos que usamos rotineiramente.
O que procurei aqui foi mostrar qual seria a definição correta do valor de p, o que é apenas um pequeno passo no entendimento de estatística de forma geral. Eu procurei mostrar como essa definição é capaz de ajudar no melhor entendimento de métodos de re-amostragem por exemplo, mas como essa definição vai ajudar no entendimento de estatística pra cada um de nós, isso vai depender dos obstáculos que cada um tem a frente. Espero que esse pequeno passo ajude de alguma forma.
PS: Já parou pra pensar o que significa ter um intervalo de confiança de 95% de uma média qualquer? Dica: Não siga sua intuição!
Precioso esclarecimento Rafael!
Acho que o uso direto do valor de p value deveria permanecer majoritário na Ecologia, ao invés de usarmos um nível de significância. Uma coisa não passa a ser verdade se você tem um p de 0.04 e vira mentira se o seu p é de 0.07. São probabilidades muito próximas… E a discussão deve ser feita baseada nelas. O que me deixa intrigada muitas vezes é a discussão autoritária a partir de um valor de p, seja ele maior ou menor que 5%, o tal nível de significância…
Concordo plenamente. Ela vira mentira se o valor for de 0.0500001 na verdade. Isso realmente é algo muito complicado. Por isso que eu acho que se deve ter uma atenção maior ao poder da análise. Uma vez adotado esses 5% qual são minhas chances de falsos positivos ou negativos? Isso trás um rigor a essa subjetividade eu acho, pode ser um tema pra um próximo post quem sabe!
…quais são minhas chances… (Esse wordpress não deixa eu corrigir minha concordância)
Certamente, será um bom tema! A questão é começarmos a tentar mudar um sistema tão bem aceito… Eis o desafio! Mas a discussão é o primeiro passo!