Centro e Dispersão - Exercícios 9 e 10
- Para descrever a distribuição de uma variável quantitativa, você precisará de uma descrição numérica precisa do centro e da dispersão.
- O modo (ou pico) é um tipo de média. Existem três tipos de média e cada um nos diz algo diferente. Então, precisamos entender o que cada média significa.
- Quando usamos o termo média, queremos dizer uma de três coisas. Ou queremos dizer a média aritmética, ou queremos dizer a média moda, ou queremos dizer a média mediana. Suponhamos 6 jogos de futebol, e contamos o número de gols feitos em cada jogo, o primeiro jogo teve 2, os outros três jogos tiveram 3 gols, o quinto jogo teve 12 gols e o sexto 13. Bom, primeiro vamos fazer a média aritmética. Tomamos o total de gols de todos os seis jogos e dividimos pelo número de jogos, e essa é a média aritmética. Se queremos a moda simplesmente olhamos para o número de gols por partida mais comum. Se quisermos a mediana, temos que escrever os gols por partida em ordem ascendente, e, em seguida, procurar o valor que está no meio desse conjunto, ou seja, o valor que divide esse conjunto em dois subconjuntos de igual tamanho. Agora, há um pequeno problema aqui quando temos um número par de observações (ou no caso, jogos).Fazemos o seguinte, tomamos os dois valores medianos e fazemos a média aritmética dos dois. Assim, os jogos tiveram a seguinte quantidade de gols, foram de 2, 3, 3, 3, 12, até 13 (em ordem crescente). A média aritmética é 2 + 3 + 3 + 3 + 12 + 13 dividido por 6, é igual a 6. A moda é 3, simplesmente o número de gols por partida mais comum. A mediana, uma vez que temos um número par de observações, ou no caso, de jogos, é 3 + 3, as duas medianas das observações ou jogos, divididos por 2, o que equivale a 3. Observe que se houvesse um jogo que tivesse marcado, por exemplo, 19 ao invés de 13 gols, a média aritmética teria um aumento para 7. Porém, a moda e a mediana manteriam-se inalteradas.
- Intuitivamente falando, a medida numérica do centro é um valor típico de uma distribuição de variáveis. As três principais medidas numéricas do centro de distribuição são a moda, a mediana e a média aritmética. Assim, quando olhamos a forma de uma distribuição podemos identificar a média moda como o valor onde a distribuição tem um pico. Vimos exemplos quando as distribuições tem um pico, ou seja, uma distribuição unimodal, também quando temos dois picos, uma distribuição bimodal. Em outras palavras, identificamos a média moda visualmente a partir do histograma. A mediana, que é o ponto médio, é o valor da distribuição tal que metade das observações ficam acima e metade ficam abaixo. Para encontrarmos a mediana ordenamos os dados do menor para o maior. A média aritmética, é claro, pode ser calculada pela soma dos valores de todas as observações, dividindo-a pelo número de observações a fim de gerar uma média significativa.
- Nosso objetivo agora é descrever a distribuição. Como você descreveria estas três distribuições abaixo?
- As distribuições tem uma mesma média aritmética. Porém, as distribuições são realmente muito diferentes. A primeira distribuição tem uma pequena dispersão, a segunda um pouco mais de variabilidade, e a terceira é muito dispersa.
- A fim de descrever uma distribuição, precisamos completar a descrição gráfica. Não só com uma medida de centro, mas também com uma medida da variabilidade, ou dispersão da distribuição.
- Há várias maneiras para descrever a dispersão. A medida comumente utilizada é o desvio padrão. A ideia por trás do desvio-padrão é o de quantificar a dispersão da distribuição, medindo o quão distante as observações estão da sua média. O desvio padrão dá a média ou distância entre um ponto de dados e a média aritmética. A fim de melhor compreender desvio padrão, seria útil ver um exemplo de como ele é calculado. Na prática, naturalmente, o software vai fazer esses cálculos para nós.
- Podemos observar nossa tabela de alturas.
- Para encontrar o desvio padrão das medidas de alturas, temos que encontrar a média aritmética.
- Média Aritmética = (1,52 + 1,56 + 1,61 + 1,67 + 1,68 + 1,71 + 1,72 + 1,72 + 1,75 + 1,75 + 1,76 + 1,78 + 1,79 + 1,80 + 1,81 + 1,87 + 1,88 + 1,90 + 1,91 + 2,01) / 20;
- Média Aritmética = 1,76m;
- Em seguida, precisamos encontrar os desvios em relação à média aritmética. Esta é a diferença entre cada observação e a média. Como a nossa média aritmética é 1,76, subtraímos 1,76 de cada uma de nossas observações.
- Desvios = (1,52 - 1,76) + (1,56 - 1,76) + (1,61 - 1,76) + (1,67 - 1,76) + (1,68 - 1,76) + (1,71 - 1,76) + (1,72 - 1,76) + (1,72 - 1,76) + (1,75 - 1,76) + (1,75 - 1,76) + (1,76 - 1,76) + (1,78 - 1,76) + (1,79 - 1,76) + (1,80 - 1,76) + (1,81 - 1,76) + (1,87 - 1,76) + (1,88 - 1,76) + (1,90 - 1,76) + (1,91 - 1,76) + (2,01 - 1,76);
- Desvios = (-0,24 + -0,20 + -0,15 + -0,09 + -0,08 + -0,05 + -0,04 + -0,04 + -0,01 + -0,01 + 0 + 0,02 + 0,03 + 0,04 + 0,05 + 0,11 + 0,12 + 0,14 + 0,15 + 0,25);
- Como um terceiro passo, calculamos os quadrados de cada um desses desvios.
- Quadrado dos desvios = (-0,24 * -0,24) + (-0,2 * -0,2) + (-0,15 * -0,15) + (-0,09 * -0,09) + (-0,08 * -0,08) + (-0,05 * -0,05) + (-0,04 * -0,04) + (-0,04 * -0,04) + (-0,01 * -0,01) + (-0,01 * -0,01) + (0 * 0) + (0,02 * 0,02) + (0,03 * 0,03) + (0,04 * 0,04) + (0,05 * 0,05) + (0,11 * 0,11) + (0,12 * 0,12) + (0,14 * 0,14) + (0,15 * 0,15) + (0,25 * 0,25);
- Quadrado dos desvios = 0,0576 + 0,04 + 0,0225 + 0,0081 + 0,0064 + 0,0025 + 0,0016 + 0,0016 + 0,0001 + 0,0001 + 0 + 0,0004 + 0,0009 + 0,0016 + 0,0025 + 0,0121 + 0,0144 + 0,016 + 0,0225 + 0,0625;
- Soma dos Quadrados dos desvios = 0,2733;
- Em seguida, vamos calcular a média aritmética do quadrado dos desvios.
- Média aritmética do Quadrado dos desvios = 0,2733 / (20 - 1);
- Média aritmética do Quadrado dos desvios = 0,0143842;
- Esta média do quadrado dos desvios é chamado de variância. O desvio padrão da variável é a raiz quadrada da variância.
- Desvio padrão = raiz quadrada de 0,0143842;
- Desvio padrão = 0,12;
- A interpretação do desvio padrão igual a 0,12, é que, em média, a altura média dos alunos é de 1,76m, podendo variar em 12cm para mais ou para menos.
- Agora você tem um melhor entendimento para observar uma variável de distribuição em amostras diferentes, e ser capaz de dizer qual tem uma maior variabilidade, isto é, um elevado desvio padrão, e o que isso implica.
- Para calcular o desvio padrão usando o SAS, chamamos o procedimento PROC UNIVARIATE. O procedimento de univariada é seguido por ponto e vírgula, depois vem a declaração VAR, e, em seguida, uma lista de variáveis quantitativas que você gostaria de examinar. Vamos executar o procedimento PROC Univariate com dist_agua da base "savana", ressaltando que dist_agua, é uma variável quantitativa. A declaração termina com um ponto e vírgula.
- PROC UNIVARIATE; VAR dist_agua;
- Quando executamos a sintaxe Proc univariate, o SAS nos fornece tabelas estatísticas univariadas com a distância de água das espécies de árvores. Entre outros, você pode ver que temos a média aritmética (mean), a mediana e a moda. O desvio padrão, a variância e o intervalo. Quando rolar para baixo, podemos ver também uma tabela que mostra os pontos de corte para percentis específicos sobre esta variável. Vemos uma tabela de valores extremos, mais altos, e mais baixos. E também, os valores ausentes, se existir.
- Assim, você pode ver que o procedimento Proc univariate é extremamente útil para uma melhor compreensão das características importantes de suas variáveis. Sabemos, agora, que a maioria, 75%, das espécies de árvores, foram encontradas entre 200 e 500 metros de distância de corpos d'água. Sabemos, agora, que apenas 1% das espécies de árvores foram encontradas a 1.400 e 1.500 metros de um corpo d'água. Que a mediana é de 400m. E que o desvio padrão é de 295m. Assim, podemos dizer que na média as espécies de árvores se encontram entre 100 e 700m de corpos d'agua. Podemos ver que existe uma grande variedade de distâncias para as espécies de árvores, desta forma podemos adicionar outras variáveis para entender melhor a distribuição das espécies de árvores. Porque então não adicionamos, por exemplo, a geomorfologia do solo para compreender melhor? É muito importante lembrar que a maioria das estatísticas univariadas não são adequadas para serem calculadas em variáveis categóricas, particularmente aquelas que são representadas com os códigos, como a variável Geol_Let. Se tivéssemos que incluir a variável categórica Geol_Let na sintaxe univariada, o SAS ainda iria gerar as tabelas univariadas. No entanto, as estatísticas não fariam qualquer sentido.
- Como você pode ver, temos uma média e um desvio-padrão com base em nomes de códigos sem relação um com o outro. Os percentis estão listados representando esses códigos ao invés de quantidades reais. Então, novamente, é muito importante lembrar que deve-se usar as estatísticas descritivas apropriadas tanto para variáveis quantitativas como categóricas. As variáveis categóricas muitas vezes podem ser bem descritas com tabelas de frequência, gerada pelo procedimento PROC FREQ ou com um gráfico de barras. Para as variáveis quantitativas, é melhor examinar histogramas e, em seguida, complementá-los com as medidas exatas de forma, centro, e dispersão.