Esse post é sobre bits, unidades de informação, mas antes de falarmos de bits precisamos falar um pouco sobre diversidade, sobre como quantificamos a diversidade. Este post também é uma forma de dividir idéias, onde algumas ainda estão no campo das “hipóteses”, falando de forma conservadora. Portanto leia de forma crítica e comente a vontade!
Bem, quando calculamos a diversidade através do Índice de Shannon na verdade estamos calculando a incerteza quanto a identidade (espécie) de um indivíduo amostrado aleatoriamente de um local (ou conjunto de dados) qualquer. Em termos gerais é uma medida de entropia de uma variável aleatória, em outras palavras, a imprevisibilidade média de uma variável aleatória, que é equivalente a sua quantidade de informação.
Mas qual é a intepretação ecológica que damos ao índice de Shannon quando o utilizamos? A interpretação ecológica do conceito de diversidade de espécies tem dois componentes, a riqueza de espécies e a equitabilidade. Ou seja, quantas espécies existem e a proporção de indivíduos de cada espécies para o total de indivíduos na comunidade. Curiosamente, a incerteza associada a amostrar um indivíduo de uma espécie qualquer vai depender do número de espécies na comunidade (quanto maior o número maior a incerteza) e da proporção dos indivíduos (quanto mais equitativos maior a incerteza).
É fácil chegar a esta conclusão se considerarmos um exemplo básico. Imagine uma comunidade com duas espécies A e B e uma com 10 espécies de A a J. É mais provável amostrar uma espécie do tipo A escolhendo um indivíduo qualquer na primeira comunidade pois existem menos opções. Logo a incerteza associada a amostrar a A na primeira comunidade é menor e portanto a diversidade é menor também.
Agora em relação a equitabilidade. Imagine esta comunidade com espécies A e B onde ambas apresentem 50 indivíduos, totalizando 100. Agora uma segunda situação onde a espécie A apresenta 99 indivídios e B apenas 1. Em que situação a incerteza de amostras um indivíduo da espécie A é maior? É lógico que é na primeira situação. Na segunda situação 99% dos indivíduos são de A, logo existe uma “certeza” maior que A será amostrado. Se a incerteza é maior na primeira situação logo a diversidade também é maior, determinada pela maior equitabilidade.
Fica claro com esse exemplo que o índice de Shannon é aplicado com sucesso para quantificar a diversidade pois sua formulação leva em consideração o número de componentes distintos do sistema (i.e., espécies) e a proporção destes componentes (número de indivíduos de cada espécie). O índice foi feito originalmente para quantificar a informação em mensagens a partir da proporção de letras. A entropia de Shannon mede o valor esperado da quantidade de informação contida numa mensagem, ou comunidade no caso da Ecologia.
Mas como a maioria das medidas, essa medida de entropia tem uma unidade. O índice de Shannon pode ser representado em bits, nats ou decits. A unidade depende da base do logaritmo utilizado na fórmula do índice. Se a base for 2, bits, base e, nats, e base 10, decits. Tradicionalmente o índice de Shannon é calculado com logaritimo de base 2, logo sua unidade deve ser em bits. No entanto, é comum em trabalhos de Ecologia encontrarmos valores de índice de Shannon com unidades como bits/indivíduos, bits/biomassa ou bits/células.
Isto é ainda mais comum em trabalhos de fitoplâncton (ou zooplâncton) onde número de indivíduos, células ou biomassa de uma espécie podem ser muito pouco correlacionados. Na verdade, minha vontade de escrever este post surgiu em função destas unidades aparecerem na literatura limnológica. Não quero aqui discutir as vantagens ou desvantagens de se calcular a diversidade com indivíduos, células ou biomassa, minha crítica é em relação a notação, bits por indivíduos (bits/indivíduos), ou por células, biomassa etc… esta seria uma notação válida para unidade do índice de diversidade de Shannon? Para chegarmos a uma conclusão precisamos dissecar sua formulação, isso nos vai ajudar a entender quando são utilizadas as informações do número de indivíduos, células, biomassa, etc…
O índice de Shannon (H) pode ser definido da seguinte forma:
Onde E é a notação para valor esperado, X é uma variável aleatória discreta com possíveis lavores (x1,x2,x3,….,xn) e P(X) é a função de probabilidade de X. Nada mais é que as diferentes frequências com que cada espécie aparece. I é a quantidade de informação.
Mas como I(x) se transforma em log (P(X))? Bem…vamos deixar isso pra daqui a pouco.
Se considerarmos uma amostra finita (onde X pode assumir diferentes valores (xi)), esta entropia pode ser calculada da seguinte forma:
O último termo é a fórmula clássica do índice de Shannon:
Veja que ni/N na verdade é como chamamos o termo pi, uma proporção. Portanto o número de indivíduos de cada espécie sobre o número de indivíduos total (pi) tem a mesma unidade no numerador e denominador. Indivíduos fica dividido por indivíduos, biomassa dividido por biomassa ou células dividido por células… Logo, matematicamente falando, o termo pi é adimensional independentemente do tipo de variável utilizada no índice de Shannon. Afinal de contas é uma proporção. Só por esta conclusão podemos dizer que representar o índice de Shannon pela unidade bits/indivíduo, somente pelo fato do número de indivíduos ter sido usado para o cálculo de pi, está errado.
É a mesma coisa que dizer que a unidade com que uma gota de chuva cai do céu deve ser em metros/s/ml e de uma pedra deve ser em m/s/g. Não faz sentido! O que se calcula é velocidade, independente do objeto. Se estamos calculando quantidade de informação, não podemos inventar uma nova unidade só porque queremos indicar que ela foi calculada com determinada variável. O índice de Shannon, portanto, é calculado com valores adimensionais.
Bem então é isso, bits/indivíduo (ou por qualquer outra coisa) é um erro (crasso) de nós Ecólogos e não é pertinente, em hipótese alguma, quando calculamos entropia.
hummmmmmm…
hummmmmmm….
Vamos pensar de uma outra forma…
Esta unidade bits, deve soar familiar pra muita gente, afinal quantidade de memória em dispositivos eletrônicos tem esta unidade também. 8 bits é igual a 1 byte (B) e 1024 bytes é igual a 1 megabyte (MB), 1024 MB é igual a 1 Gigabyte (GB) e por aí vai. Veja que na verdade são múltiplos de bits, assim como milgramas ou kilogramas são múltiplos da unidade grama.
Vamos entender como os bits funcionam num computador então, e isso vai nos ajudar a entender como I(X) virou Log (P(X)) como apresentado acima. A memória de um computador pode ser simplificada como um número muito grande de interruptores que podem ter dois estados (pra cima ou pra baixo – ligado ou desligado – branco ou preto – positivo ou negativo – etc..). Ou seja, estados binários. Um HD normal é uma fita magnética com segmentos polarizados ou não. A pergunta que temos que fazer é: quantos números diferentes (ou informações diferentes) eu consigo estocar (ou descrever) com 1 interruptor?
Bem, se o interruptor só tem dois estados (digamos pra cima ou pra baixo) fica fácil dizer que somente dois valores são possíveis. Mas o quê acontece se tivermos 2 interruptores? Nesse caso podemos ter uma combinação de posições, cima-cima, cima-baixo, baixo-cima, baixo-baixo. Logo, com dois interruptores eu posso descrever até 4 tipos de números ou informações distintas, pois eu tenho quatro tipos de combinações diferentes que posso fazer com meus interruptores.
Agora utilizemos o raciocínio inverso, qual o valor mínimo de interruptores que eu preciso pra poder descrever um máximo de 2 números? Já vimos que é apenas 1. E quantos eu preciso pra descrever um máximo de 4 números? Como já vimos, apenas 2. A fórmula é simples, Log (2) = 1, Log (4) = 2, … O logarítimo deste valor máximo de números (ou qualquer informação) que quero estocar requer o Log (n. de interruptores) e esse valor final tem como unidade bits.
Com 1 bit eu consigo descrever até dois números, com dois bits 4 números, com 3 bits 8 e assim sucessivamente, é só tirar o anti-log, ou em outras palavras, fazer 2 elevado ao número de bits (interruptores). Por isso que quantidade de informação de X (I(X)) pode ser descrita como Log (P(X)) e que tem como unidade bits, pois o Log é na base 2.
Agora então vamos pensar numa comunidade ecológica como uma coleção de pequenas estruturas (indivíduos) e vamos organizá-los em estruturas maiores (espécies), uma abordagem totalmente baseada em mecânica estatística. Em quantas maneiras (M) possíveis poderíamos organizar nossa comunidade tendo um número x de indivíduos e n de Espécies? De quantas maneiras esta comunidade poderia ser descrita? Podemos usar a seguinte fórmula:
x é o número total de indivíduos e z1, z2,..zn! é a quantidade de indivíduos para cada espécie n. Note que antes número de indivíduos era N e agora é x, só lembrando pra evitar confusão. Se as espécies são equitativas, z = x/n. É uma fórmula de análise combinatória. A partir do que foi apresentado logo acima, o Log (M) nos daria uma medida de quantidade de informação, já que M descreve o número máximo de maneiras (ou combinações) que posso descrever (ou estocar) meus indivíduos na comunidade. Então Log(M) pode ser dado em bits. Lembrando que todo log que eu utilizar aqui será em base 2. Vamos agora calcular este Log.
Para calcular o logaritmo de um número fatorial temos que utilizar a aproximação de Stirling, onde de forma simples temos que o log de (x!) é igual a xlogx-x. Portanto o Log (M) pode ser escrito como:
Agora que vem a parte interessante, ao dividirmos os dois lados por x e jogarmos o termo log(x) fora do somatório pra dentro, criando o termo log(zi /x) pois o log da razão é igual a log – log. Assim teríamos:
Ou seja, Log(M)/x é igual a fórmula do índice de Shannon, como log(M) é dado em bits e x em número de indivíduos, a fórmula do índice de Shannon pode ter como valor um número com a unidade bits/indivíduo!!!!! Se x fosse biomassa ou células, bits/biomassa, bits/células seriam unidades igualmente válidas! Wow!!!
A fórmula de Log(M) é na verdade o cálculo da entropia máxima do sistema, e na medida que dividimos por x ela se torna equivalente ao índice de Shannon. x na verdade é o valor que propicia a compressão máxima da informação. Por que estou dizendo isso, pois o índice de Shannon descreve a quantidade de informação de um sistema e o Log (M) a quantidade de informação máxima que pode ser alocada.
Logo o fator que iguala estas duas quantidades é o fator que comprime a informação para um tamanho equivalente ao que ela realmente ocupa. Esse é o princípio básico da compressão de dados em informática e é exatamente o que o termo x (número de indivíduos) está fazendo com a informação na minha opinião.
Hummmm…. o raciocínio pode parecer confuso, talvez seja, mas a idéia é análoga a fragmentação. Imagine que você tem um volume qualquer e você quer colocar neste volume toda a informação. Mas pra isso você segmenta a informação em vários fragmentos. Se os fragmentos são grande demais, você coloca eles no volume e sobra espaço entre os fragmentos, mas à medida em que esses fragmentos vão ficando cada vez menores (x maior) eles vão conseguindo preencher melhor os espaços vazios, se encaixando como se fossem pequenos grãos de areia, permitindo que eles ocupem este volume que seria o volume de informação que descreve o sistema.
E então chegamos numa situação extremamente interessante. Mas as duas fórmulas chegam no mesmo resultado? Não! Se calculado com a fórmula original e depois tirado seu logaritmo, Log(M)/x se aproxima do valor do índice de Shannon apenas quando x tem valores grandes. Lembrando que x não e só o número de indivíduos, mas um valor preciso de número de indivíduos que comprime de forma ótima a informação. Se nós considerarmos uma comunidade extremamente simples, com apenas 4 espécies equitativas, o índice de Shannon seria 2 bits e Log (M)/x variaria de acordo com o número total de indivíduos (x) representado na figura abaixo:
A fórmula que gera essa figura é: Log(x!/x((x/4)!)^4) e é fácil de ver que ela não é convergente, o limite de Log(M) quando x tende ao infinito é infinito também, logo a função sempre cresce. Desta forma, não podemos dizer que Shannon é igual a Log(M)/x quando x tender ao infinito, pois quando x tende ao infinito Log(M)/x é infinito. Existe um limite superior de x que faz com que Log (M)/x seja igual ao índice de Shannon. Achar uma fórmula que deduza esse limite e essa relação em última análise, generalizando para qualquer estrutura {z…zn} seria equivalente a unificar matematicamente a entropia de informação e a entropia estatística (eu acho).
Assim sendo, quando um autor escrever bits/indivíduo ou bits/biomassa ele não está dizendo que calculou o índice de Shannon utilizando indivíduos ou biomassa, ele ou ela na verdade está calculando a quantidade de informação aproximada alocada para descrever o sistema físico composto por indivíduos ou biomassa. Esta quantidade de informação é derivada do número de modos possíveis de se alocar o número total de indivíduos de uma comunidade pelo número e proporção de espécies presentes, ou seja, a entropia máxima do sistema físico com posterior compressão de dados baseada no tamanho total do número de componentes do sistema.
Esta medida de quantidade de informação pode ser análoga ao índice de Shannon mas não é a mesma coisa. O detalhe se esconde na magnitude do número de componentes (Indivíduos, Biomassa, etc…), uma vez que o valor final é dependente desta magnitude, que não acontece no índice de Shannon . Portanto, ao pé da letra, deixa de ser entropia de informação e passa a ser entropia baseada em mecânica estatística, caracterizando de forma errada ao que foi realmente calculado. Somado a isto, é possível nós falarmos de taxa de entropia, bits por “alguma coisa”. Por exemplo a cada vez que se joga uma moeda, temos 1 bit por jogada (1 bit/jogada) ou (1bit/moeda). Portanto, podemos pensar que o índice de Shannon mede a taxa de entropia necessária para codificar uma espécie, pois como no exemplo da moeda você precisa de 1 bit pra codificar chances iguais pra cara ou coroa. Então no máximo poderíamos escrever bits/espécie mas não bits/indivíduo!
Desta forma, na minha humilde opinião, a utilização de bits/(ind., biomassa, células) não deve ser feita para representar o índice de Shannon em trabalhos de Ecologia, garantindo assim a interpretação correta da medida reportada por qualquer leitor, independente do seu treinamento ou background teórico. A Ecologia deve crescer de modo a ser interdisciplinar, e uma forma saudável de fazer isso é preservar a notação e interpretação de unidades utilizadas em outras disciplinas.
Fala Jabour! Bem interessante essa explorada no índice de diversidade, um campo em que a maioria de nós só entende o mais superficial. Mas você acha que – mesmo havendo as limitações de precisão por causa do número de indivíduos – dá pra partir da análise de entropia máxima pra entender a comunidade de uma forma diferente do que o índice de Shannon permite?
Oi Vin?cius,
Poxa que bom que voc? gostou. Acho que a resposta pra sua pergunta ? sim. De forma geral a defini??o de entropia fica vaga quando generalizamos pros ?ndices de diversidade, mas a pr?pria entropia de Rao ? um “exemplo” da sua proposi??o. Mais especificamente sobre a an?lise entropia m?xima, este ? um princ?pio para se criar uma distribui??o de probabilidades. A partir da? muita coisa pode ser feita, inclusive determinar curvas de abund?ncia relativa de esp?cies baseadas em diferentes “constraints” para a sua maximiza??o. Esses “constraints” poderiam servir como hip?teses de poss?veis fatores que determinam a propor??o de esp?cies raras e dominantes numa comunidade por exemplo. Se voc? consegue verificar um resultado parecido entre o seu modelo e um dado de campo, ? plaus?vel argumentar que aquele seu “constraint” ? ecologicamente relevante, mesmo que este seja outro debate delicado. Enfim…muita coisa pode ser feita. Podemos pensar, e derivar, o ?ndice de Shannon tamb?m a partir de maximiza??o de entropia com um “constraint” espec?fico, mas eu acredito que esta abordagem pode permitir a quantifica??o da diversidade n?o apenas pelo n?mero e propor??o de esp?cies, mas tamb?m por diferen?as (dist?ncias) funcionais, filogen?ticas, etc…omitidas no ?ndice de Shannon. Uma vez que estas dist?ncias pudessem ser quantificadas, elas poderiam ser incorporadas ao modelo. Ou at? algo mais simples do tipo: x indiv?duos que podem ocupar k esp?cies que podem ocupar z grupos funcionais… seria interessante explorar isso melhor… n?o sou muito conhecedor das publica??es no tema mas certamente j? deve ter algo sobre isso.
Sem falar que voc? pode explorar n?o a diversidade de um local, mas entre locais (beta) brincando com estes c?lculos de entropia.
Enfim…Shannon ? s? o princ?pio… mas a grande vantagem dele s?o as propriedades que ele tem (Ex: concavidade, sempre ter n?meros positivos…) acaba se tornando pr?tico e geral. Mas sua “simplicidade” pode n?o ser ?til dependendo do enfoque ecol?gico.
Oi Vinícius,
Poxa que bom que você gostou. Acho que a resposta pra sua pergunta é sim. De forma geral a definição de entropia fica vaga quando generalizamos pros índices de diversidade, mas a própria entropia de Rao é um “exemplo” da sua proposição. Mais especificamente sobre a análise entropia máxima, este é um princípio para se criar uma distribuição de probabilidades. A partir daí muita coisa pode ser feita, inclusive determinar curvas de abundância relativa de espécies baseadas em diferentes “constraints” para a sua maximização. Esses “constraints” poderiam servir como hipóteses de possíveis fatores que determinam a proporção de espécies raras e dominantes numa comunidade por exemplo. Se você consegue verificar um resultado parecido entre o seu modelo e um dado de campo, é plausível argumentar que aquele seu “constraint” é ecologicamente relevante, mesmo que este seja outro debate delicado. Enfim…muita coisa pode ser feita. Podemos pensar, e derivar, o índice de Shannon também a partir de maximização de entropia com um “constraint” específico, mas eu acredito que esta abordagem pode permitir a quantificação da diversidade não apenas pelo número e proporção de espécies, mas também por diferenças (distâncias) funcionais, filogenéticas, etc…omitidas no índice de Shannon. Uma vez que estas distâncias pudessem ser quantificadas, elas poderiam ser incorporadas ao modelo. Ou até algo mais simples do tipo: x indivíduos que podem ocupar k espécies que podem ocupar z grupos funcionais… seria interessante explorar isso melhor… não sou muito conhecedor das publicações no tema mas certamente já deve ter algo sobre isso.
Sem falar que você pode explorar não a diversidade de um local, mas entre locais (beta) brincando com estes cálculos de entropia.
Enfim…Shannon é só o princípio… mas a grande vantagem dele são as propriedades que ele tem (Ex: concavidade, sempre ter números positivos…) acaba se tornando prático e geral. Mas sua “simplicidade” pode não ser útil dependendo do enfoque ecológico.
Acho que finalmente entendi Shannon. Obrigada!