1. Para responder a pergunta: Como é que vamos examinar a associação entre duas variáveis ​​graficamente? Iniciamos fazendo uma outra pergunta referente ao tipo de variável de resposta, ou seja, qual é o tipo da variável resposta? É categórica ou quantitativa? Lembrando que usaremos de exemplo a seguinte questão de pesquisa: se a altura de espécies de árvores são dependentes da distância de corpos d'água?. Para a nossa questão de pesquisa da amostra, a variável de resposta ou dependente, é a altura da espécie de árvore, que é quantitativa.
  2. A variável quantitativa é muito interessante de trabalhar pois podemos transformá-la em categórica, fazendo agrupamentos. Este recurso de agrupar proporciona novas formas de interpretar os relacionamentos. Os agrupamentos também viabilizam a visualização dos dados, reduzindo o número de variáveis. Na visualização gráfica de barras, isto é muito importante. Na visualização de gráficos de dispersão, sendo as duas variáveis quantitativas, não precisamos nos preocupar com a quantidade de relações existentes, pois os gráficos de dispersão apresentam os indivíduos com pontos, não utilizando barras.
  3. Iremos construir alguns gráficos de barras visando a sua interpretação. Para fazer um gráfico de barras precisamos determinar quantas categorias estão na variável resposta, eixo Y. Não é significativo visualmente analisar um gráfico de barras com uma variável explicativa quantitativa no eixo X, quando no eixo Y, a variável de resposta é categórica. A não ser que haja uma relação entre essas categorias da variável de resposta. Por exemplo, caso façamos ela binária, presença ou ausência, menor ou maior, etc. O ideal é que nossa variável de resposta seja ou se torne, por meio de agrupamento, uma variável binária, ou seja, que assuma apenas dois valores, como 0 ou 1, masculino ou feminino, etc. Isto viabilizará o entendimento do comportamento dos dados. Porém, se conseguirmos relacionar as categorias no eixo Y, variável de resposta, de forma, por exemplo, do menor para o maior, etc., podemos sim ter uma variável de resposta, no eixo Y, com mais de duas categorias, sem serem binárias.
  4. A próxima pergunta a fazer é: que tipo é a variável explicativa? Antes de começar a representar usando um gráfico de barras, é importante transformar nossa variável explicativa de quantitativa para categórica. Isto é, a fim de visualizar a relação que estamos interessados, precisamos adicionar um pouco de gerenciamento de dados que nos permitirá construir um gráfico de barras.
  5. Para converter uma variável quantitativa em uma variável categórica, começamos por verificar a tabela de frequência da variável explicativa. Por exemplo, vamos pegar a variável dist_agua que é uma variável quantitativa e vamos transformá-la em uma variável categórica, para tentar relacionar se a distância da árvore de corpos d'água tem relação com a circunferência ou com a altura da árvore. Usaremos o procedimento PROC FREQ para examinar essa variável, dist_agua.
    1. PROC FREQ; TABLE DIST_AGUA;
    2. Resultado.
      freqDistAgua.jpg
  6. Podemos observar que a percentagem de distribuição de dividir em grupos mais ou menos equivalentes. Decidimos dividir em três, para demonstração. Por exemplo, até 200m um grupo, 300 e 400m outro grupo, e acima de 500m. Para fazermos isso no SAS, vamos inserir os seguintes comandos.
    1. IF DIST_AGUA LE 200 THEN PACKDISTAGUA = 1;
    2. ELSE IF DIST_AGUA LE 400 THEN PACKDISTAGUA = 2;
    3. ELSE PACKDISTAGUA = 3;
  7. Bem, agora já temos nossa variável explicativa categorizada (porém, relacionadas entre si), impositiva causal para explicar a altura das árvores. Então, vamos gerenciar, agora, a nossa variável de resposta, h_tot_m, altura da árvore, variável quantitativa. Vamos tentar categorizar está variável em binária (conforme sugerimos para a variável de resposta na visualização do gráfico de barras), árvores grandes e pequenas. Para isso, vou usar o procedimento PROC UNIVARIATE que fornece informações sobre a média aritmética, que será meu corte, dividindo nosso conjunto de dados em dois, árvores grandes e pequenas.
    1. PROC UNIVARIATE; VAR h_tot_m;
  8. Resultado.
    alturaMean.jpg
  9. Podemos observar que a média aritmética é aproximadamente 6. Então vamos agrupar a altura utilizando o seguinte comando SAS.
    1. IF h_tot_m LE 6 then PACKHTOT = 0;
    2. ELSE PACKHTOT = 1;
  10. Agora, já podemos gerar nosso gráfico com o seguinte comando SAS.
    1. PROC gCHART; VBAR packdistagua/DISCRETE TYPE=MEAN SUMVAR=packhtot;
  11. Resultado.
    relDistAguaHTot.jpg
  12. O gráfico mostra realmente uma relação entre altura das árvores e a distância das árvores até o corpo d'água. Podemos constatar que quanto menor a distância do corpo d'água, maior a altura da árvore.
  13. Usando o mesmo raciocínio, podemos também nos perguntar se existe uma relação entre a distância da árvore ao corpo d'água e a circunferência do tronco da árvore, com os seguintes comando SAS.
    1. IF circ_cm LE 37 then PACKCIRCCM = 0;
    2. ELSE PACKCIRCCM = 1;
    3. PROC GCHART; Vbar packdistagua/Discrete TYPE=MEAN sumvar=packcirccm;
  14. Resultado.
    relDistAguaCirc.jpg
  15. Porém, como podemos ver, não existe uma relação entre a distância das árvores aos seus corpos d'água e a circunferência do tronco da árvore.
  16. Vamos, agora, construir um gráfico de dispersão. Para isso, precisamos de duas variáveis quantitativas. Vamos, então, tentar relacionar a altura das árvores e a distância das árvores até o corpo d'água, porém, agora, sem categorizar as duas variáveis, apenas com os dados brutos. Os seguintes comandos SAS são executados.
    1. PROC GPLOT; plot h_tot_m*dist_agua;
  17. Resultado.
    relDistAguaHTotPlot.jpg
  18. Como podemos observar, não ficou muito clara a relação entre a altura das árvores e sua distância aos corpos d'água no gráfico de dispersão. O agrupamento no gráfico de barras demonstrou mais nitidamente esta relação. Então, podemos concluir que podemos observar nossos dados sobre vários aspectos diferentes, e, que, isso, pode nos proporcionar uma melhor interpretação dos dados. Utilizamos o seguinte comando do SAS.
    1. PROC GPLOT; plot h_tot_m*H_galha_m;
  19. Resultado.
    relAltCopaAltArv.jpg
  20. Podemos observar uma relação não muito forte entre a altura da copa da árvore e a altura da árvore.
  21. Vamos construir, agora, esse mesmo gráfico de dispersão com bolhas. As bolhas fazem uma terceira dimensão para um melhor entendimento dos gráficos de dispersão, pois, assim, podemos observar melhor a relação do tamanho das bolhas. Utilizamos o seguinte comando SAS.
    1. C_D = H_TOT_M + H_GALHA_M;
    2. PROC GPLOT; BUBBLE H_TOT_M*h_galha_m=c_d / bfill=solid bcolor=vibg BLABEL bsize=50;
  22. Resultado.
    relAltCopaAltArvBolh.jpg
  23. Vamos relacionar, por exemplo, a altitude com distância de corpos d'água.
    1. c_d = dist_agua + cotafisico;
    2. **PROC GPLOT; BUBBLE COTAFISICO*DIST_AGUA=c_d / bfill=solid bcolor=vibg BLABEL bsize=80;
  24. Resultado.
    relAltitudeDistAguaBolh.jpg
  25. Podemos observar que há um vazio na parte superior direita do gráfico, ou seja, em grandes altitudes, não foram encontradas espécies de árvores longe de corpos d'água.
  26. Os gráficos de dispersão mostram o quão forte ou fraca é a relação entre as variáveis.
    poorStrongRel.jpg
  27. Relação positiva e negativa.
    posNeg.jpg