Esbarramos com séries temporais o tempo todo no dia-a-dia, elas normalmente aparecem nos meios de comunicação na forma de gráfico mostrando índices ou medições como taxas de desemprego, porcentagem de ibope, flutuações nos preços de um produto, etc… Essa estatística é muito utilizada dentro das ciências econômicas (mais precisamente na econometria) com aplicação em diversas outras áreas como demografia, meteorologia, epidemiologia e mais recentemente na ecologia.
Após muitas pesquisas de ‘curta-duração’ os ecólogos reconheceram que certas perguntas só poderiam ser respondidas de forma consistente através de uma amostragem sequencial e extensa ao longo do tempo. Se pararmos para pensar, devido à lentidão de alguns processos naturais, certas abordagens em ecologia se tornam fatalmente limitadas pelo tempo de observação. Inferir sobre tais processos utilizando dados ‘curtos’ pode não ser apropriado ou até mesmo impossível na prática. Algumas questões como: dinâmica populacional de organismos com longo tempo de geração, entrada e saída em pools de elementos e nutrientes com ciclagem lenta (como ocorre em solos), relações entre fatores evolucionários e ecológicos, respostas das comunidades e das populações a mudanças graduais no clima e na paisagem, necessitam de uma janela de tempo considerável para serem estudadas. Nesse contexto, no inicio da década de 80, diversas pesquisas ecológicas de longa duração (PELD ou LTER) foram iniciadas por todo o mundo. Esses projetos se dispuseram a monitorar um dado ecossistema por décadas, a fim de testar grandes teorias ecológicas em escalas geográficas maiores. As atividades de monitoramento resultam em banco de dados que podem ser modelados pela análise de séries temporais.
A análise de séries temporais tem basicamente dois objetivos principais: (I) Descrição e Modelagem: Envolve caracterização da série de dados, ajuste de modelos matemáticos, extração de índices e comparação entre variáveis ou séries obtidas em sítios distintos. (II) Previsão (forecasting): A previsão se baseia na ideia de que o que acontece no futuro próximo dependerá, em grande parte, do que aconteceu ou está acontecendo agora. Em outras palavras, a “memória temporal” existente entre observações próximas é um aspecto essencial quando se deseja aplicar técnicas de previsão. A partir do entendimento de padrões passados é possível fazer predições anuais, trimestrais ou mensais (descobrir os próximos valores da série).
O que é uma série temporal afinal? É uma sequência de medições de uma variável, feitas ao longo do tempo em intervalos determinados (dias, meses, trimestres, anos), na qual os valores vizinhos são temporalmente dependentes (dependência serial), com distribuição não necessariamente estável. Diferente da análise de observações aleatórias (o que ocorre na maioria das estatísticas), a análise de séries temporais se baseia no pressuposto de que elas foram igualmente espaçadas no tempo. O modelo geral é dado por:
Yt = T . S + ε
Onde: Yt é a variável aleatória no momento t (em um universo de 1 à t observações); T é a tendência ou componente determinística; S é a variação sazonal ou cíclica e ε é a componente aleatória ou ruído.
O primeiro passo da análise consiste em isolar essas três componentes. Encontrar padrões de tendência (T) e sazonalidade (S) é de fato o que mais nos interessa, entretanto, o ruído (ε) presente em toda e qualquer série de dados brutos interfere na análise e deve ser removido através de técnicas de suavização (smoothing). A figura 1 mostra como as componentes de uma série temporal isoladas aparentam graficamente.
Figura 1. Combinações de tendência, sazonalidade (ciclo) e ruído (retirado de: Encontros com o Acaso – Wild & Seber 2004 Ed. LTC).
Picos e degraus presentes na série de dados são informações valiosas, pois representam sinais de eventos externos ao sistema estudado (quando não são erros de medição é claro). Eventos estocásticos como uma seca abrupta ou tornados podem gerar um pico em uma série trimestral (uma amplitude anormal nessa observação em particular). Por outro lado, perturbações duradouras como o estabelecimento de impactos antropológicos podem ser responsáveis pelos degraus (figura 2). Nesse último caso, realizar uma modelagem ‘por partes’ é uma boa estratégia.
Figura 2. Picos e degraus podem atrapalhar no ajuste do modelo, mas também informam sobre forças importantes que atuam no ambiente (retirado de: Encontros com o Acaso – Wild & Seber 2004 Ed. LTC).
Uma das etapas mais simples da análise de séries temporais é encontrar o padrão de tendência (T). A ideia da análise de tendência é traçar uma linha no ‘meio’ da nuvem de pontos, a fim de descobrir se no geral, a variável cresceu ou decresceu com o passar do tempo. Para traçar essa linha utiliza-se, entre outras técnicas, o método dos mínimos quadrados (ajuste linear ou não). Os modelos de tendência são tipicamente utilizados para estimar a variação média da temperatura global nos estudos de mudanças climáticas. É importante ressaltar que na função linear, por exemplo, os resultados podem facilmente mudar em função do período utilizado, ou à medida que inserimos mais pontos à série (figura 3a). Além disso, há casos em que é preciso aplicar um modelo mais complexo (figura 3b). Nos painéis globais de mudança climática (IPCC) várias possibilidades são testadas, as tendências lineares são traçadas em períodos diferentes e as informações de diferentes bancos de dados são comparadas. As vantagens e fragilidades dos métodos são questões discutidas frequentemente nos relatórios, dado a importância desses modelos para tomadores de decisão em todo o mundo.
Figura 3. Média global das anomalias na temperatura de superfície. Dados relativos a uma climatologia de 1961-1990 baseada em mensurações anuais. Linhas pretas são os ajustes (a) pelo método dos mínimos quadrados e (b) pelo método de suavização por spline (linhas pontilhada demarcam o intervalo de 90% de confiança). (Retirado de: Climate Change 2013: The Physical Science Basis – IPCC).
Para mais informações sobre análise de séries temporais veja: Anderson (1976), Box & Jenkins (1976), Kendall (1984), Kendall & Ord (1990), Montgomery, Johnson & Gardiner (1990), Pankratz (1983), Shumway (1988), Vandaele (1983), Walker (1991), Wei (1989). Powel & Steele (1995), Legendre & Legendre (1998).
Muito interessante Leo, parabéns!
Séries temporais são mesmo uma ferramenta muito útil em diversos trabalhos que nós fazemos, especialmente quando temos uma sequência temporal bem longa.
Tenho estudado um bocado sobre o tema e um bom livro para ser usado como referência é o Time Series Analysis and Its Applications With R Examples, do Robert H. Shumway & David S. Stoffer.
Uma pergunta pra você: quando estamos trabalhando com variáveis-resposta que apresentam dependência entre si, só existe a opção das séries temporais para se obter essas tendências e respostas?
Olá,
Eu não pude não deixar de comentar pois acho este campo de análises fantástico. Tenho estudado bastante também. E quanto mais eu estudo mais eu vejo o quão difícil é analisar de forma apropriada séries temporais. Nunca antes na historia da ciência foi tão dificil traçar uma linha de tendência depois das discussões sobre o aumento de temperatura ao longo dos anos.
Problemas como aliasing, auto-correlação, ruídos, etc…são mutilo complicados de serem detectados e podem fazer você facilemnte dizer uma coisa errada.
Deixo aqui uma pergunta também que pode complementar a do Nicholas: faz diferença explorar manualmente os melhores parâmetros de um modelo de ARIMA (que lida com isso que o Nicholas falou) ou um auto-ARIMA é confiável?
Abraços