Medidas de Dispersão

As medidas de dispersão são ferramentas essenciais na estatística descritiva que nos ajudam a entender o quão espalhados ou concentrados estão os dados em torno de uma medida de tendência central, geralmente a média. Enquanto as medidas de tendência central mostram o valor típico, as medidas de dispersão mostram a variabilidade dos dados.

As principais medidas de dispersão são:

  1. Amplitude
  2. Variância
  3. Desvio Padrão
  4. Coeficiente de Variação
  5. Intervalo Interquartil (IQR)

Símbolos e Suas Origens

Na estatística, diferentes símbolos são usados para representar as medidas de dispersão, cada um com sua origem e significado específicos:

1. Variância

2. Desvio Padrão

3. Coeficiente de Variação

4. Intervalo Interquartil

5. Amplitude

Convenção de Notação:

  • Letras gregas ($\sigma$, $\mu$) são usadas para parâmetros populacionais (valores fixos, porém geralmente desconhecidos).
  • Letras latinas ($s$, $\bar{x}$) são usadas para estatísticas amostrais (valores calculados a partir de dados amostrais).
  • A distinção entre parâmetros e estatísticas é fundamental na inferência estatística.

📊 Importante: A análise de dispersão é crucial para entender a confiabilidade das medidas de tendência central.
Conjuntos de dados com a mesma média podem ter distribuições completamente diferentes em termos de variabilidade.

1. Amplitude

A amplitude é a medida de dispersão mais simples, representando a diferença entre o maior e o menor valor do conjunto de dados.

Fórmula

\[\text{Amplitude} = x_{\text{máx}} - x_{\text{mín}}\]

Exemplo Prático

Considere o conjunto de idades ordenadas:

\[\{x_1, x_2, x_3, x_4, x_5, x_6, x_7\} = \{18, 20, 22, 25, 30, 35, 40\}\]

Vantagens e Limitações

Vantagens:

Limitações:

⚠️ Cuidado com Outliers!
A amplitude pode ser enganosamente grande mesmo quando a maioria dos dados está concentrada. Por exemplo, em um conjunto como {1, 2, 2, 2, 2, 2, 100}, a amplitude é 99, mas 6 dos 7 valores são 1 ou 2!
💡 Dica Prática
Use a amplitude para uma primeira impressão da dispersão, mas sempre complemente com outras medidas como o desvio padrão ou IQR para uma visão mais completa.

2. Variância

A variância mede o quanto os valores de um conjunto de dados se afastam da média. É calculada como a média dos quadrados dos desvios em relação à média.

Fórmula (Populacional)

\[\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2\]

Fórmula (Amostral)

\[s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2\]

Exemplo Prático

Considere o conjunto de notas amostrais:

\[\{x_1, x_2, x_3, x_4, x_5\} = \{7, 8, 8, 9, 10\}\]
  1. Calcule a média amostral ($\bar{x}$): \(\bar{x} = \frac{\sum_{i=1}^{5}x_i}{n} = \frac{7 + 8 + 8 + 9 + 10}{5} = \frac{42}{5} = 8.4\)

  2. Calcule os desvios em relação à média e eleve ao quadrado: \((x_1 - \bar{x})^2 = (7 - 8.4)^2 = (-1.4)^2 = 1.96\) \((x_2 - \bar{x})^2 = (8 - 8.4)^2 = (-0.4)^2 = 0.16\) \((x_3 - \bar{x})^2 = (8 - 8.4)^2 = (-0.4)^2 = 0.16\) \((x_4 - \bar{x})^2 = (9 - 8.4)^2 = (0.6)^2 = 0.36\) \((x_5 - \bar{x})^2 = (10 - 8.4)^2 = (1.6)^2 = 2.56\)

  3. Some os desvios ao quadrado: \(\sum_{i=1}^{5}(x_i - \bar{x})^2 = 1.96 + 0.16 + 0.16 + 0.36 + 2.56 = 5.2\)

  4. Divida por $n-1$ (para variância amostral): \(s^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1} = \frac{5.2}{4} = 1.3\)

Portanto, a variância amostral é $s^2 = 1.3$.

🔍 Curiosidade Histórica
O conceito de variância foi formalizado por Ronald Fisher em 1918, mas suas origens remontam a trabalhos anteriores de Gauss e Laplace sobre o método dos mínimos quadrados. Fisher a chamou inicialmente de "dispersão", mas o termo "variância" prevaleceu por sua clareza conceitual.

3. Desvio Padrão

O desvio padrão é a raiz quadrada da variância e tem a vantagem de estar na mesma unidade de medida dos dados originais.

Fórmula (Populacional)

\[\sigma = \sqrt{\sigma^2}\]

Fórmula (Amostral)

\[s = \sqrt{s^2}\]

Exemplo Prático

Continuando com o exemplo anterior, onde calculamos a variância amostral $s^2 = 1.3$:

\[s = \sqrt{s^2} = \sqrt{1.3} \approx 1.14\]

Isso significa que o desvio padrão amostral é $s \approx 1.14$ pontos. Em outras palavras, em média, as notas desviam-se aproximadamente $1.14$ pontos da média amostral $\bar{x} = 8.4$.

📊 Regra Empírica (68-95-99.7)
Para distribuições normais, aproximadamente: - 68% dos dados estão dentro de 1 desvio padrão da média ($\bar{x} \pm s$) - 95% dentro de 2 desvios padrão - 99.7% dentro de 3 desvios padrão

4. Coeficiente de Variação (CV)

O coeficiente de variação é uma medida relativa de dispersão, expressa em porcentagem, que relaciona o desvio padrão à média.

Fórmula

\[CV = \left(\frac{s}{\bar{x}}\right) \times 100\%\]

Exemplo Prático

Considere dois conjuntos de dados com as seguintes estatísticas:

Como $CV_A > CV_B$ (10% > 4%), o Conjunto A apresenta maior dispersão relativa em relação à sua média.

⚠️ Limitação Importante
O Coeficiente de Variação não deve ser usado quando a média está próxima de zero, pois pode levar a valores extremamente altos e enganosos. Além disso, só faz sentido para dados em escala de razão (com zero absoluto bem definido).

5. Intervalo Interquartil (IQR)

O intervalo interquartil é a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1), representando a faixa que contém os 50% centrais dos dados.

Fórmula

\[IQR = Q3 - Q1\]

Exemplo Prático

Considere o conjunto de idades ordenadas:

\[\{x_{(1)}, x_{(2)}, x_{(3)}, x_{(4)}, x_{(5)}, x_{(6)}, x_{(7)}\} = \{18, 20, 22, 25, 30, 35, 40\}\]
  1. Primeiro Quartil (Q₁):
    • Posição: $Q_1$ = 25º percentil
    • Fórmula: $Q_1 = x_{(\frac{n+1}{4})} = x_{(2)} = 20$
  2. Terceiro Quartil (Q₃):
    • Posição: $Q_3$ = 75º percentil
    • Fórmula: $Q_3 = x_{(\frac{3(n+1)}{4})} = x_{(6)} = 35$
  3. Intervalo Interquartil (IQR): \(IQR = Q_3 - Q_1 = 35 - 20 = 15 \text{ anos}\)

Portanto, os 50% centrais das idades estão compreendidos entre 20 e 35 anos, com uma dispersão de 15 anos.

🔍 Identificando Outliers
O IQR é fundamental para identificar valores atípicos. Geralmente, considera-se como outliers os valores que estão abaixo de $Q_1 - 1.5 \times IQR$ ou acima de $Q_3 + 1.5 \times IQR$. No nosso exemplo, qualquer valor abaixo de $20 - 1.5 \times 15 = -2.5$ ou acima de $35 + 1.5 \times 15 = 57.5$ seria considerado um outlier.

Comparação entre as Medidas

Medida Vantagens Limitações
Amplitude Fácil de calcular Sensível a outliers
Variância Considera todos os dados Unidade ao quadrado
Desvio Padrão Mesma unidade dos dados Sensível a outliers
Coeficiente de Variação Comparação entre conjuntos Não se aplica a média zero
IQR Robusto a outliers Desconsidera 50% dos dados

Aplicações Práticas

  1. Controle de Qualidade: O desvio padrão é amplamente usado em gráficos de controle para monitorar processos.
  2. Finanças: O desvio padrão é usado como medida de risco em investimentos.
  3. Pesquisa: O IQR é frequentemente usado em boxplots para identificar valores atípicos.
  4. Meteorologia: A amplitude térmica é uma medida de dispersão usada em previsões do tempo.

Referências

  1. Bussab, W. O.; Morettin, P. A. (2017). Estatística Básica. Saraiva.
  2. Triola, M. F. (2017). Introdução à Estatística. LTC.
  3. Moore, D. S.; Notz, W. I.; Fligner, M. A. (2014). A Estatística Básica e Sua Prática. LTC.