1. Para descrever a distribuição de uma variável quantitativa, você precisará de uma descrição numérica precisa do centro e da dispersão.
  2. O modo (ou pico) é um tipo de média. Existem três tipos de média e cada um nos diz algo diferente. Então, precisamos entender o que cada média significa.
  3. Quando usamos o termo média, queremos dizer uma de três coisas. Ou queremos dizer a média aritmética, ou queremos dizer a média moda, ou queremos dizer a média mediana. Suponhamos 6 jogos de futebol, e contamos o número de gols feitos em cada jogo, o primeiro jogo teve 2, os outros três jogos tiveram 3 gols, o quinto jogo teve 12 gols e o sexto 13. Bom, primeiro vamos fazer a média aritmética. Tomamos o total de gols de todos os seis jogos e dividimos pelo número de jogos, e essa é a média aritmética. Se queremos a moda simplesmente olhamos para o número de gols por partida mais comum. Se quisermos a mediana, temos que escrever os gols por partida em ordem ascendente, e, em seguida, procurar o valor que está no meio desse conjunto, ou seja, o valor que divide esse conjunto em dois subconjuntos de igual tamanho. Agora, há um pequeno problema aqui quando temos um número par de observações (ou no caso, jogos).Fazemos o seguinte, tomamos os dois valores medianos e fazemos a média aritmética dos dois. Assim, os jogos tiveram a seguinte quantidade de gols, foram de 2, 3, 3, 3, 12, até 13 (em ordem crescente). A média aritmética é 2 + 3 + 3 + 3 + 12 + 13 dividido por 6, é igual a 6. A moda é 3, simplesmente o número de gols por partida mais comum. A mediana, uma vez que temos um número par de observações, ou no caso, de jogos, é 3 + 3, as duas medianas das observações ou jogos, divididos por 2, o que equivale a 3. Observe que se houvesse um jogo que tivesse marcado, por exemplo, 19 ao invés de 13 gols, a média aritmética teria um aumento para 7. Porém, a moda e a mediana manteriam-se inalteradas.
  4. Intuitivamente falando, a medida numérica do centro é um valor típico de uma distribuição de variáveis. As três principais medidas numéricas do centro de distribuição são a moda, a mediana e a média aritmética. Assim, quando olhamos a forma de uma distribuição podemos identificar a média moda como o valor onde a distribuição tem um pico. Vimos exemplos quando as distribuições tem um pico, ou seja, uma distribuição unimodal, também quando temos dois picos, uma distribuição bimodal. Em outras palavras, identificamos a média moda visualmente a partir do histograma. A mediana, que é o ponto médio, é o valor da distribuição tal que metade das observações ficam acima e metade ficam abaixo. Para encontrarmos a mediana ordenamos os dados do menor para o maior. A média aritmética, é claro, pode ser calculada pela soma dos valores de todas as observações, dividindo-a pelo número de observações a fim de gerar uma média significativa.
  5. Nosso objetivo agora é descrever a distribuição. Como você descreveria estas três distribuições abaixo?
    dotplot_spread_panel.png
  6. As distribuições tem uma mesma média aritmética. Porém, as distribuições são realmente muito diferentes. A primeira distribuição tem uma pequena dispersão, a segunda um pouco mais de variabilidade, e a terceira é muito dispersa.
  7. A fim de descrever uma distribuição, precisamos completar a descrição gráfica. Não só com uma medida de centro, mas também com uma medida da variabilidade, ou dispersão da distribuição.
  8. Há várias maneiras para descrever a dispersão. A medida comumente utilizada é o desvio padrão. A ideia por trás do desvio-padrão é o de quantificar a dispersão da distribuição, medindo o quão distante as observações estão da sua média. O desvio padrão dá a média ou distância entre um ponto de dados e a média aritmética. A fim de melhor compreender desvio padrão, seria útil ver um exemplo de como ele é calculado. Na prática, naturalmente, o software vai fazer esses cálculos para nós.
  9. Podemos observar nossa tabela de alturas.
    tabAlturaPop.jpg
  10. Para encontrar o desvio padrão das medidas de alturas, temos que encontrar a média aritmética.
    1. Média Aritmética = (1,52 + 1,56 + 1,61 + 1,67 + 1,68 + 1,71 + 1,72 + 1,72 + 1,75 + 1,75 + 1,76 + 1,78 + 1,79 + 1,80 + 1,81 + 1,87 + 1,88 + 1,90 + 1,91 + 2,01) / 20;
    2. Média Aritmética = 1,76m;
  11. Em seguida, precisamos encontrar os desvios em relação à média aritmética. Esta é a diferença entre cada observação e a média. Como a nossa média aritmética é 1,76, subtraímos 1,76 de cada uma de nossas observações.
    1. Desvios = (1,52 - 1,76) + (1,56 - 1,76) + (1,61 - 1,76) + (1,67 - 1,76) + (1,68 - 1,76) + (1,71 - 1,76) + (1,72 - 1,76) + (1,72 - 1,76) + (1,75 - 1,76) + (1,75 - 1,76) + (1,76 - 1,76) + (1,78 - 1,76) + (1,79 - 1,76) + (1,80 - 1,76) + (1,81 - 1,76) + (1,87 - 1,76) + (1,88 - 1,76) + (1,90 - 1,76) + (1,91 - 1,76) + (2,01 - 1,76);
    2. Desvios = (-0,24 + -0,20 + -0,15 + -0,09 + -0,08 + -0,05 + -0,04 + -0,04 + -0,01 + -0,01 + 0 + 0,02 + 0,03 + 0,04 + 0,05 + 0,11 + 0,12 + 0,14 + 0,15 + 0,25);
  12. Como um terceiro passo, calculamos os quadrados de cada um desses desvios.
    1. Quadrado dos desvios = (-0,24 * -0,24) + (-0,2 * -0,2) + (-0,15 * -0,15) + (-0,09 * -0,09) + (-0,08 * -0,08) + (-0,05 * -0,05) + (-0,04 * -0,04) + (-0,04 * -0,04) + (-0,01 * -0,01) + (-0,01 * -0,01) + (0 * 0) + (0,02 * 0,02) + (0,03 * 0,03) + (0,04 * 0,04) + (0,05 * 0,05) + (0,11 * 0,11) + (0,12 * 0,12) + (0,14 * 0,14) + (0,15 * 0,15) + (0,25 * 0,25);
    2. Quadrado dos desvios = 0,0576 + 0,04 + 0,0225 + 0,0081 + 0,0064 + 0,0025 + 0,0016 + 0,0016 + 0,0001 + 0,0001 + 0 + 0,0004 + 0,0009 + 0,0016 + 0,0025 + 0,0121 + 0,0144 + 0,016 + 0,0225 + 0,0625;
    3. Soma dos Quadrados dos desvios = 0,2733;
  13. Em seguida, vamos calcular a média aritmética do quadrado dos desvios.
    1. Média aritmética do Quadrado dos desvios = 0,2733 / (20 - 1);
    2. Média aritmética do Quadrado dos desvios = 0,0143842;
  14. Esta média do quadrado dos desvios é chamado de variância. O desvio padrão da variável é a raiz quadrada da variância.
    1. Desvio padrão = raiz quadrada de 0,0143842;
    2. Desvio padrão = 0,12;
  15. A interpretação do desvio padrão igual a 0,12, é que, em média, a altura média dos alunos é de 1,76m, podendo variar em 12cm para mais ou para menos.
  16. Agora você tem um melhor entendimento para observar uma variável de distribuição em amostras diferentes, e ser capaz de dizer qual tem uma maior variabilidade, isto é, um elevado desvio padrão, e o que isso implica.
  17. Para calcular o desvio padrão usando o SAS, chamamos o procedimento PROC UNIVARIATE. O procedimento de univariada é seguido por ponto e vírgula, depois vem a declaração VAR, e, em seguida, uma lista de variáveis quantitativas ​​que você gostaria de examinar. Vamos executar o procedimento PROC Univariate com dist_agua da base "savana", ressaltando que dist_agua, é uma variável quantitativa. A declaração termina com um ponto e vírgula.
    1. PROC UNIVARIATE; VAR dist_agua;
  18. Quando executamos a sintaxe Proc univariate, o SAS nos fornece tabelas estatísticas univariadas com a distância de água das espécies de árvores. Entre outros, você pode ver que temos a média aritmética (mean), a mediana e a moda. O desvio padrão, a variância e o intervalo. Quando rolar para baixo, podemos ver também uma tabela que mostra os pontos de corte para percentis específicos sobre esta variável. Vemos uma tabela de valores extremos, mais altos, e mais baixos. E também, os valores ausentes, se existir.
  19. Assim, você pode ver que o procedimento Proc univariate é extremamente útil para uma melhor compreensão das características importantes de suas variáveis. Sabemos, agora, que a maioria, 75%, das espécies de árvores, foram encontradas entre 200 e 500 metros de distância de corpos d'água. Sabemos, agora, que apenas 1% das espécies de árvores foram encontradas a 1.400 e 1.500 metros de um corpo d'água. Que a mediana é de 400m. E que o desvio padrão é de 295m. Assim, podemos dizer que na média as espécies de árvores se encontram entre 100 e 700m de corpos d'agua. Podemos ver que existe uma grande variedade de distâncias para as espécies de árvores, desta forma podemos adicionar outras variáveis para entender melhor a distribuição das espécies de árvores. Porque então não adicionamos, por exemplo, a geomorfologia do solo para compreender melhor? É muito importante lembrar que a maioria das estatísticas univariadas não são adequadas para serem calculadas em variáveis ​​categóricas, particularmente aquelas que são representadas com os códigos, como a variável Geol_Let. Se tivéssemos que incluir a variável categórica Geol_Let na sintaxe univariada, o SAS ainda iria gerar as tabelas univariadas. No entanto, as estatísticas não fariam qualquer sentido.

  1. Como você pode ver, temos uma média e um desvio-padrão com base em nomes de códigos sem relação um com o outro. Os percentis estão listados representando esses códigos ao invés de quantidades reais. Então, novamente, é muito importante lembrar que deve-se usar as estatísticas descritivas apropriadas tanto para variáveis quantitativas como ​​categóricas. As variáveis ​​categóricas muitas vezes podem ser bem descritas com tabelas de frequência, gerada pelo procedimento PROC FREQ ou com um gráfico de barras. Para as variáveis ​​quantitativas, é melhor examinar histogramas e, em seguida, complementá-los com as medidas exatas de forma, centro, e dispersão.