Um post recente num famoso blog de Ecologia, levanta a problemática de se ter desenhos de ANOVA (fatorial) desbalanceados (ou seja, com número de réplicas diferente entre tratamentos). Caso você faça sua análise no R ou no SAS, ou Statistica, os resultados serão diferentes devido a forma padrão que os softwares fazem a decomposição da soma dos quadrados. O pior é que no R, quando se tem um desenho desbalanceado o teste de hipótese MUDA! Você na verdade está testando o efeito da variável 1 sem controlar o efeito da variável 2! Ninguém quando faz o teste na verdade quer testar isso, mas é o que acaba testando sem saber.
Esse post me lembrou uma velha questão de quando chamar uma variável de fixa ou aleatória num desenho de ANOVA. Isso é muito importante pois irá alterar o cálculo de graus de liberdade na estimativa de médias dos quadrados. Só como exemplo, se você chama uma variável de aleatória e tem um tratamento de três níveis (20, 30 e 35 graus de temperatura por exemplo, caso seu tratamento seja temperatura). Nada adianta, ter 30, 50, 100 réplicas dentro de cada nível, pois os graus de liberdade são calculados com o número de níveis, quando a variável é aleatória. Neste caso 3, ou seja, bem pouco. É bom que você tenha um efeito bem forte da temperatura, caso o contrário nunca achará efeito significativo.
No final das contas, o que temos que nos preocupar são com os graus de liberdade, pois eles afetam o poder da nossa análise, ou seja, a capacidade de dizermos que algo é diferente, quando realmente existe diferença significativa. Se no nosso modelo estatístico acabamos ficando com poucos graus de liberdade, o modelo torna-se muito conservativo e dificilmente detectaremos qualquer diferença. Essa explicação é bem básica e simplória, mas traduz o que quero dizer.
Mas o que são então os graus de liberdade? Essa não é uma pergunta trivial. Não é fácil criar uma sequência lógica de informações que te levem a uma resposta concreta, mas eu vou escrever aqui até onde consegui chegar quando me deparei com esta pergunta.
O conceito surgiu a partir de uma interpretação matemática, ou melhor dizendo, da geometria de projeções de vetores e matrizes. Uma das ferramentas mais importantes da estatística é a algebra linear e desta forma representação de matrizes e vetores é a base de qualquer tratamento matemático de qualquer modelo estatístico. Essa definição geométrica também apresenta variações, alguns dizem que é o rank de uma matriz quadrada ( ou a forma quadrática de um conjunto de dados ou parâmetros relacionados aos dados) e outros, de forma mais generalizada, que seriam diferenças na dimensionalidade no espaço de parâmetros. Na verdade são conceitos de graus de liberdade que se aplicam a diferentes modelos estatísticos.
No final das contas o conceito básico dos livros “o número de elementos que são livres pra variar” não está errado, mas é heurístico e simpificado demais pra que alguém tenha uma noção clara do seu significado. Mas no final das contas está apropriado, vamos ver…
Podemos começar a pensar nos graus de liberdade como sendo uma maneira de quantficar as estimativas de métricas para um cálculo estatístico qualquer. Na definição no Wikipedia (pt) é: o número de determinações independentes (dimensão da amostra) menos o número de parâmetros estatísticos a serem avaliados na população.
Digamos que você queira quantificar a variância de uma amostra com n observações. Pra calcular a variância você precisa calcular a média, logo te sobram n-1 graus de liberdade para calcular a variância…. (existe uma dependência entre as estimativas….)
Se você precisa calcular agora a variância pra dois grupos de dados, você precisa calcular duas médias (uma de cada grupo) e te sobram n1+ n2 – 2 graus de liberdade para calcular a variância
Numa ANOVA o denomindador é a variância entre grupos, logo se você tem g grupos, você teria n1+n2+…ng – g graus de liberdade pra calcular a variância. Isso pro denominador do F ratio. (é o exemplo acima com mais de 2 grupos). A hipótese nula de uma ANOVA é que não existe diferença na média entre os g grupos, logo você precisaria calcular a média central e a variabiliadade pra colocar no numerador do F ratio, uma vez que você precisa desta média central, isso te deixa com g-1 graus de liberdade pra calcular a outra estimativa, a variância.
E assim por diante….
No final das contas o que você está fazendo é contando quantas parâmetros já foram estimados para que eu possa calcular uma outra estimativa e descontando isso do seu número de observações. Aqui eu já começo a ter uma noção melhor do que seriam os graus de liberdade. Mas antes disso vamos voltar pra definição geométrica
A variância pode ser descrita pela seguinte equação: SOMA(y – ymédio)² (onde SOMA é o somatório). Só que essa conta também pode ser representada na forma de um produto entre vetores e matrizes = y’ * M * y . Onde y é o vetor de observações (y’ é transposto) e M é uma matriz quadrada n x n onde na diagonal principal você tem (1-1/n) e em qualquer outra “célula” (-1/n).
Se você proceder o produto destes vetores e matrizes você cai numa equação igual a equação do cálculo da variância [SOMA(y – ymédio)²]. Essa matriz M é uma matriz quadrada n x n (ou seja, depende do tamanho do vetor y = o número de observações) e o rank dela é igual a n-1 !!!!! O que é o rank de uma matriz, é o conjunto de linhas ou colunas que são independentes!!!!! Se você tem uma matriz [1 2 1; -2 -3 1; 3 5 0] por exemplo, você pode ver que o rank é 2 (dois) pois as duas ultimas linhas são independentes mas a primeira é a soma das duas últimas. No caso da nossa matriz M que é montada de forma sempre igual, com os elmentos -1/n e 1-1/n, o rank dela sempre vai ser n-1, e esse são os graus de liberdade da estimativa de variância como mostrei acima. Por isso graus de liberdade pode ser definido geometricamente como o rank da forma quadrática da sua estimativa!!!!!! A definição portanto de graus de liberdade tem a ver com a independência entre os termos a partir do tamanho da sua observação. Já falamos disso…
Vamos para outro exemplo, agora com essa noção de algebra linear mais generalizada.
Se P é uma projeção ortogonal num plano R de um subespaço p-dimensional L, e y é um vetor arbitrário,…. x*Beta está em L, y-X*Beta e X*Beta são ortogonais. Se y é livre para variar neste espaço n dimensional então y-X*Beta é livre pra variar no espaço n-p dimensional, logo y-X*Beta tem n-p graus de liberdade. Mas da onde sai isto? Isso tem alguma relação com estatística?
olha esse gráfico abaixo:
Esse gráfico é a representação geométrica de uma análise de regressão. Col X = R, beta é o seu vetor tratamento, x(1,2,3) é sua variável preditora, X*beta sua reposta estimada, y sua resposta observada e y-x*Beta é o resíduo (ê) !!!!! Que é orthogonal a X*beta!!!! Por isso que os graus de liberdade geometricamente podem ser definidos como diferenças na dimensionalidade no espaço de parâmetros, neste caso n é restringido pelo tamanho do subespaço com p dimensões (L = b1x1 + b2x2 + …. – quantos vetores compõem X*Beta?). No final das contas a noção é semelhante, para gerar X * beta você precisou usar as informações do tamanho de L.
E agora eu acho que fica mais clara a noção de graus de liberdade… na minha interpretação, graus de liberdade é uma medida da dependência das suas estimativas (das suas métricas estatísticas) em relação a sua amostragem.
Imagine o seguinte (versão simplificada):
z + x + y = 10, se eu fixo x, z e y são livres pra variar e eu ainda assim conseguiria obter um resultado 10. por exempo, x=0, z pode ser 5 e y 5, z pode ser 8 e y 2, etc…
Mas se eu fixo z e x, agora y não é mais livre pra variar e o resultado ser 10, eu perco graus de liberdade. A minha estimativa “10” acaba ficando muito dependente da minha amostragem (tendo apenas 3 observações).Se eu tivesse 10 observações e fixo z e x, y e outras poderiam ser livres pra variar, a dependência da amostragem diminuiria.
Por isso que quanto menos graus de liberdade você tem, mais restritivo vai sendo pra se achar uma diferença significativa. Suas estimativas vão ficando cada vez mais dependentes umas das outras o que faz com que o seu resultado possa ser muito dependente da sua amostragem, e aí você deve penalizar a sua inferência de alguma forma.
Na verdade, essa falta de independência é observada de forma geométrica quando você restringe a dimensionalidade de vetores baseado no tamanho de outros vetores ou quando você restringe a independência de termos numa matriz que serão utilizados num cálculo de alguma métrica. Mas no final das contas a noção básica é a mesma: O quão independente são minhas métricas estatísticas calculadas levando em consideração a minha amostragem? A resposta pra isso são os graus de liberdade e quanto menos você tem mais restritivo é a confiança relacionada àquela métrica e portanto mais conservativa deve ser sua inferência. Por isso que é mais difícil achar uma diferença significativa com poucos graus de liberdade.
Essa foi uma interpretação livre do conceito que foge um pouco do rigor matemático. No entanto, é uma interpretação que aparentemente não fere nenhuma das definições propostas. Comentários? Escreve aí!
Boa explicação Rafael!
Particularmente, quero parabenizar pela interpretação livre de conceito! Acredito que o maior obstáculo para entendermos grande parte da matemática por trás da estatística é a forma como os conceitos são apresentados. Não que haja um problema com os conceitos, mas é que muitas vezes não conseguimos enxergar o que todos os parâmetros de um modelo significam e o que uma dada definição de fato quer dizer.
Queria deixar duas perguntas: você acha que existe uma deficiência matemática na formação geral do ecólogo?; e, essa deficiência é um obstáculo para evolução e aprimoramento dos resultados que obtemos?
Oi Nicholas,
Obrigado. Eu sei que você deve ter percebido que 90% do que está escrito aí saiu daquele nosso debate por email!
Cara vou responder primeiro sua segunda pergunta. A discussão recente a respeito da hipótese do distúrbio intermediário é um exemplo muito bom de como a falta de conhecimento em matemática impede o avanço na Ecologia. Da forma como o Connell publicou o trabalho, não existe nada errado na teoria proposta. Ele falava de “colonization-competition trade-offs” e com isso está tudo bem. Uma resposta no paper do Fox na Tree deixou isso claro e até o Fox reconheceu. O problema é a interpretação que fazem da hipótese. Essa interpretação errada foi levantada pelo Peter Chesson no meio dos anos 90 e só agora depois do paper do Fox as pessoas começaram a saber do que se tratava. O próprio Fox disse que escreveu o paper para deixar as idéias do Chesson mais fáceis de se entender para quem sabe menos matemática. Estávamos cegos para uma coisa de extrema importância (a hipótese do distúrbio intermediário é uma das mais famosas na Ecologia e vem sendo usada errada há anos e até hoje em dia provavelmente) por anos simplesmente porque tinha muita matemática. É complicado….
Respondendo sua segunda pergunta, e dando um gancho pra explicar a razão desta nossa defasagem: Uns dos Ecólogos que eu mais gosto é o John Mcnamara (Físico por Cambridge, com pós em matemática por Oxford)…. Ben Bolker: Físico e Matemático, Simon Levin (matemático) e por aí vai…
Lógico que tem muita gente que fez biologia e depois foi trabalhar mais a fundo com matemática (Tillman, Troy Day, etc…) mas o contrário é quem manda.
As vezes acho que aprender matemática é igual a aprender inglês. Começar na infância (i.e. graduação) é a única forma de ser fluente. (Tirando o Edward Wilson que já deu entrevista falando que começou a estudar depois de virar professor em Harvard – minha esperança).
O problema é que a Ecologia é diferente das demais carreiras na Biologia. Zoologia, Botânica, e o resto não se utilizam muito de matemática (na minha opinião). Mas em Ecologia é matemática em TUDO! Com uma grade curricular voltada para formar zoólogos (uma herança dos tempos de história natural) de forma geral quem segue na Ecologia sofre com a defasagem na matemática.
Como diria o Fernando Vanucci: É mudar, mudar ou….. mudar de vez! 🙂
Gostei muito de mais essa sua publicação. A explicação da alg.linear (beta “chapéu” etc) esta bem simples e intuitiva. E a simplicidade conclusão esta justamente porque você buscou a origem do conceito, que é da alg. linear.
Vejo que a confusão da ideia de “graus de liberdade” é porque ela é usada em diferentes contextos, mas todos são análogos apesar de não parecerem para quem não estiver familiarizado. Por exemplo em um problema massa-mola amortecido:
“[…]. O sistema oscilante escolhido para o estudo é constituído de duas massas, m1, e m2 acopladas por três molas de constantes de força . A oscilação é unidimensional, horizontal e com dois graus de liberdade para vibração.”
Ao compreender e ideia básica de espaços vetoriais as analogias são claras, como vc mostrou.
No entanto, apesar das analogias serem claras, se partirmos da definição matemática, me parece que o fato da interpretação da representação de um vetor ser diferente (dependendo do problema tratado) pode trazer uma “torre de babel” ao termo, tão comum quando um conceito é usado em várias disciplinas, havendo abuso de linguagem ou não. (como “mostra” da pior forma o Wikipédia:
“Graus de liberdade é um termo genérico utilizado em referência a quantidade mínima de números reais necessários para determinar completamente o estado físico de um dado sistema. Este conceito é empregado em mecânica clássica e termodinâmica.
Na mecânica, para cada partícula do sistema e para cada direção em que esta é capaz de mover-se existem dois graus de liberdade, um relacionado com a posição e outro com a velocidade. Observe-se que esta definição não coincide nem com a definição de graus de liberdade que se usa em engenharia de máquinas, nem com a que se usa em engenharia estrutural.
Na mecânica hamiltoniana, o número de graus de liberdade de um sistema coincide com a dimensão topológica do espaço de fases do sistema. Na mecânica lagrangiana, o número de graus de liberdade coincide com a dimensão do fibrado tangente do espaço de configuração do sistema.”
http://pt.wikipedia.org/wiki/Graus_de_liberdade_(física)
O que acha ?
Oi Paulo,
excelente contribuição sua!!! Muito obrigado!
Concordo que é difícil generalizar quando o mesmo é utilizado em diferentes disciplinas como você falou. Acho que o problema fundamental é que pro termo ficar muito geral ele acaba fincando simples demais, quase sem sentido. Qual é o balanço deste trade-off….? Não sei!
Sensacional!!! Depois de muito buscar, só agora consegui entender porque perdemos um grau de liberdade ao realizar um tratamento estatístico! Obrigada!