1. Gerenciamento de dados envolve a tomada de decisões sobre os dados. O dicionário de dados e a frequência de distribuição são um excelente guia para a tomada de decisões. Há várias etapas comumente consideradas ao conduzir o gerenciamento de dados. As vezes você precisa considerar apenas um subconjunto delas. Pode até ser que suas variáveis já estejam adequadas e nenhum gerenciamento de dados seja necessário. De qualquer forma é bom que você considere cada uma delas para que você possa entender seus dados.
  2. Um primeiro passo a considerar é se você precisa ou não codificar dados faltantes. Por exemplo, procure em sua base de dados se existem dados faltantes, "missing values". Na base "lajeado" existem espécies sem o nome da espécie. Observe que depois de rodado o programa, nos resultados, podemos observar se tem "missing values" no final da tabela de resultado.
  3. O campo faltante do tipo caractere pode ser identificado por (' '). O campo faltante tipo numérico é (.). É importante lembrar que toda a sintaxe que você escreve para gerenciar dados é colocado na etapa "DATA" do seu programa. Para ajudar a verificar se as declarações lógicas estão realizando o que se pretende, faça comentários nos comandos de seu programa.
  4. Exemplo para verificar se há campos faltantes:
    1. if especie ne " " (obs.: o campo espécie é alfanumérico, caso fosse numérico a comparação seria com .;

  1. Em alguns conjuntos de dados, particularmente aqueles com base em pesquisas com questionário, há muitas vezes padrões a serem ignorados. Assim, você pode fazer uma pesquisa questionando se a pessoa foi alguma vez presa? O entrevistado pode dizer, não. Se a pergunta seguinte da pesquisa for: quantas vezes você foi preso? Neste caso, o participante da pesquisa já relatou que nunca havia sido preso. Esta segunda questão simplesmente não faz sentido. Para evitar que a frequência de distribuição desta variável seja computada de forma errônea, ou seja, o programa não pode considerar este tipo de padrão, da forma como se encontra, em sua estatística. Devendo ser feito um gerenciamento de dados.
  2. No exemplo dado, podemos considerar que a falta de dados em algumas variáveis pode significar uma possibilidade razoável de recuperação de informações válidas.
  3. Um dos passos posteriores no gerenciamento de dados é avaliar se você quer criar variáveis ​​secundárias. As variáveis ​​secundárias são variáveis que incluem informações de duas ou mais variáveis ​​primárias. Nós podemos criar variáveis ​​secundárias usando uma operação lógica ou matemática em duas ou mais variáveis.
  4. Por exemplo, suponhamos que queremos saber o número de cigarros que um indivíduo fuma por mês. Suponha que você tem uma variável que diz quantos cigarros que o indivíduo fuma por dia, e uma outra variável que diz quantos dias do mês que o indivíduo fumou. Faz sentido então criar uma variável que multiplica essas duas variáveis ​​e obtém um produto que representa o número de cigarros fumados por dia vezes o número de dias fumados por mês.
  5. Na base "savana", temos duas variáveis Diam_cm e H_com_m. Diam_cm é uma variável quantitativa que corresponde ao diâmetro em centímetro do tronco da árvore. H_com_m é uma variável quantitativa que corresponde a altura do tronco da árvore em metros.
  6. Neste caso, queremos saber a quantidade de madeira correspondente a uma árvore em metros cúbicos. Lembre-se que você deve declarar comandos matemáticos logo depois da etapa "DATA" em seu programa. Por exemplo, MULTIPLICA = Diam_cm * H_com_m;. Neste exercício, faça uso normal dos parênteses de seus cálculos nas declarações. Por exemplo, MULTIPLICA = (Diam_cm * H_com_m);. Para este exercício, tenha ciência da área de um círculo. Veja as transformações de metros cúbicos para centímetros cúbicos e vice-versa. Ah, não se esqueça de mudar o comando DATA new; set mydata.lajeado; para DATA new; set mydata.savana;.
  7. Para verificar se esta nova variável secundária foi criada de forma correta, vamos aprender um novo procedimento SAS. O procedimento "PROC" chamado "PRINT" o qual nos permite visualizar os dados para cada observação individualmente. Assim, após a etapa "DATA" e após a declaração PROC SORT;, na seção do programa, vamos adicionar a seguinte sintaxe: PROC PRINT; VAR seguido por uma lista de variáveis ​​que você gostaria de examinar para cada observação individual. Por exemplo, se quisermos ver se a nova variável "MULTIPLICA", é de fato o produto da multiplicação do diâmetro da árvore vezes a altura da árvore. Podemos incluir estas variáveis, de tal forma que o programa ficaria com a seguinte linha de comando: PROC PRINT; VAR Diam_cm H_com_m MULTIPLICA;. Lembre-se do ponto e vírgula no final, e depois de salvar (salve esse programa com outro nome) e executar o programa, verifique primeiro o log de erros, e depois os resultados. Para realizar o processo de impressão, a saída parece um pouco diferente. As linhas representam observações individuais semelhante ao conjunto de dados em si, e as colunas mostram os valores para as variáveis ​​específicas. Lembre-se que sempre que você está realizando um gerenciamento de dados, é importante encontrar uma maneira de verificar se há erros em cada passo do processo.

  1. Existem casos também em que o participante de uma pesquisa com questionário pode responder mais de uma resposta. Neste caso, da mesma forma, você deve gerenciar os dados para evitar que a frequência de distribuição da variável seja computada de forma errônea, ou seja, o programa não pode considerar este tipo de padrão, da forma como se encontra, em sua estatística.
  2. Depois de criar variáveis secundárias, você também pode considerar se alguma de suas variáveis ​​quantitativas ou variáveis ​​categóricas precisam ser agrupadas ou binariadas. Como exemplo, podemos optar que a variável quantitativa Dist_Agua da base "savana" seja categorizada em distância pequena, distância média e distância grande. Assim, ao invés de olhar para a distância de água como uma variável quantitativa, podemos querer comparar faixas de distância categoricamente. Poderíamos examinar a distância da água em categorias, e tomar algumas decisões. Por exemplo, esta poderia ser uma sintaxe que criaria uma variável categórica que divide a amostra em cerca de três grupos.
    1. IF DIST_AGUA LE 300 THEN DIST_AGUA_CAT = 1;
    2. ELSE IF DIST_AGUA LT 600 THEN DIST_AGUA_CAT = 2;
    3. ELSE DIST_AGUA_CAT = 3;
  3. Para escolher os pontos de corte, é interessante que você veja as percentagens das frequências de distribuição da variável Dist_Agua, de forma que você possa fazer uma divisão mais equitativa. Não se esqueça que para ver a frequência de distribuição da variável Dist_Agua, você deverá declarar o seguinte comando.
    1. PROC FREQ; TABLES Dist_Agua_CAT;

  1. Agora que você já viu um número de decisões diferentes que você pode utilizar para gerenciar dados, espero que você esteja pronto para assumir sua própria base de dados. Fazer a quantidade de gerenciamento de dados que você precisa para suas próprias variáveis de sua base de dados vai depender das variáveis ​​que você selecionar e das decisões que você quer fazer sobre elas. Talvez você opte por apenas gerenciar dados faltantes, ou talvez você pode precisar de mais gerenciamento. O gerenciamento de dados é uma parte do processo da pesquisa, que você pode e provavelmente irá retornar uma vez ou outra enquanto você aprende mais sobre sua pesquisa, proporcionando melhores tomadas de decisão.