HISTOGRAMA.pdf
  1. Vejamos um exemplo mais básico de como um histograma pode ser construído. Depois podemos usar isso como um trampolim para falar sobre as estatísticas descritivas adicionais, que podem ser geradas para variáveis ​​quantitativas.
  2. Neste exemplo, temos as alturas de 20 alunos.
    conjDadAlturaPop.jpg
  3. Primeiro precisamos dividir os valores em intervalos de valores, também chamados de caixas, grupos ou classes. Neste caso, uma vez que nosso conjunto de dados consiste da altura da população, faz sentido escolher intervalos que normalmente correspondem a uma gama de pessoas. Assim, com 10 pontos de largura, podemos ter, por exemplo, 1,50m, 1,60m, 1,70m, 1,80m, etc. Ao contar a quantidade em que cada uma das 20 observações caem em cada um dos intervalos, construímos a tabela a seguir.
    tabAlturaPop.jpg
  4. Para construir o histograma desta tabela, os intervalos são representados graficamente no eixo X, e mostram o número de observações de cada intervalo, ou, a percentagem de observações de cada intervalo no eixo Y. Isto é representado pela altura da barra localizada acima do intervalo.
    histogAlturaPop.jpg
  5. Uma vez que a distribuição esteja graficamente como um histograma, podemos descrever o padrão global de distribuição, e mencionar qualquer desvio marcante desse padrão. Mais especificamente, devemos considerar as seguintes características. Teremos uma noção geral do padrão a partir do centro do histograma, de sua dispersão, e da sua forma, enquanto que valores aberrantes vão destacar os desvios fora do padrão.
  6. Ao descrever a forma de uma distribuição, devemos considerar a simetria ou assimetria da distribuição e a modalidade. Isto é o número de picos ou modos que a distribuição tem.
  7. Neste exemplo, todas as três distribuições são referidas como simétrica.
    modality.png
  8. Porém, elas são diferentes na sua modalidade. A primeira é a distribuição unimodal. Tem um único pico em torno do qual as observações são concentradas. A segunda distribuição é bimodal. Ela tem 2 picos, em torno dos quais as observações são concentradas. A terceira distribuição é tipo uniforme. A distribuição não tem picos, ou nenhum valor em torno do qual as observações são concentradas. Em vez disso as observações são mais ou menos uniformemente distribuídas entre os diferentes valores.
  9. A distribuição é chamada enviesada para a direita se os maiores valores ficam a direita da cauda, ​​ou os menores valores ficam para a esquerda. Note-se que em uma distribuição assimétrica-direita, como você pode ver abaixo na direita, a maior parte das observações são pequenas e médias, com algumas observações muito maiores do que o resto.
    skewness.png
  10. Um exemplo de uma variável da vida real que tem uma distribuição assimétrica-direita é salário. A maioria das pessoas ganham salários mais baixos para médios, com algumas exceções, tais como atletas profissionais, diretores de multinacionais, e etc. que são distribuídos ao longo de uma ampla gama resultando em uma cauda longa com valores mais elevados.
  11. Uma distribuição é chamada enviesada para a esquerda se a cauda esquerda, ou valores menores, é muito maior do que a cauda direita, ou valores maiores. Note-se que na distribuição enviesada para a esquerda, a maior parte das observações são de grande para médio, com poucas observações muito menores do que o resto. Um exemplo de uma variável da vida real que tem uma distribuição assimétrica para a esquerda é a idade de morte por causas naturais. A maioria das mortes por causas naturais acontecem em idades mais avançadas com menos casos acontecendo em idades mais jovens.
  12. As distribuições enviesadas também podem ser bimodal. Abaixo está um exemplo de uma loja média de conveniência 24 horas de um bairro, onde foram coletados dados de 537 clientes sobre a quantidade de dinheiro gasto por eles em uma única visita à loja.
    skewBimodeHist.png
  13. Como é mostrado no histograma, a quantidade de dinheiro gasto está concentrada em torno de $ 20. E depois concentra-se novamente em cerca de US $ 50. Esse entendimento pode ajudá-lo a tomar melhores decisões. O modo por exemplo, tem aplicações na publicação de livros. A editora precisa imprimir mais livros populares, porque imprimir livros diferentes em igual número causará a escassez de alguns livros, e um excesso de oferta de outros. Da mesma forma, o modo tem aplicações em manufatura. Por exemplo, também é importante a fabricação de sapatos mais procurados por tamanhos de sapato.
  14. Como vimos o pico não é sempre no centro. O centro de distribuição é o seu ponto médio. O valor que divide a distribuição deixa cerca de metade das observações assumindo valores menores, e aproximadamente a outra metade assumindo valores maiores.
  15. Isto pode visto a partir do histograma de alturas de uma população.
    histogAlturaPop.jpg
  16. O centro da distribuição das alturas é de aproximadamente 1,70m. Com os histogramas, podemos obter apenas uma estimativa (visual) aproximada para o centro da distribuição. 5 alunos tem altura abaixo de 1,70m e 7 alunos tem altura acima 1,70m. As estimativas muitas vezes podem ser feitas pela análise do histograma.
  17. Então, e sobre a dispersão? A dispersão da distribuição, também chamada variabilidade, pode ser descrita pela estimativa da variação abrangida pelos dados. Ao olhar para o histograma, podemos estimar a menor observação, ou mínimo, e a maior observação, ou máximo, e estimar o intervalo. No nosso exemplo, o intervalo aproximado da altura mínima é 1,60m. Isto é o meio do intervalo das menores alturas. O intervalo máximo, ou das maiores alturas, aproximado é de 1,90m. Portanto, a nossa dispersão aproximada é de cerca de 30 centímetros, 1,90m menos 1,60m.
  18. O padrão global da distribuição de uma variável quantitativa é descrita pela forma, centro, e dispersão. Ao inspecionar o histograma, podemos descrever a forma da distribuição. Mas, como vimos, só podemos obter uma noção da estimativa do centro e da dispersão.