Diseño de herramientas, tratamiento y análisis de datos.


Diseño de herramientas, tratamiento y análisis de datos.

Presentado por: Yefrin M. Chávez, Ing.

09 de octubre de 2010

Contenido

I-. ¿Porqué utilizar cuestionarios en la línea basal?. 3

II-. Cuestionario Cerrado. 3

III-. Cuestionario Abierto. 3

IV-. ¿Por qué emplear la encuesta de cuestionario en la línea basal?. 4

V-. Esquema general de encuesta de cuestionario. 4

VI-. Elaboración del cuestionario. 5

VI-. Procesamiento y plan de análisis de la información. 5

VII-. ¿Qué son los Missing Values?. 6

VIII-. Imputación por el método de medias no condicionadas. 6

IX-. Imputación por el método de medias condicionas para datos agrupados. 7

X-. Imputación por el método por regresión. 7

XI-. Consistencia de datos. 8

XI-. Codificación de datos. 8

XII-. Análisis de datos. 8

XIII-. Técnicas de análisis univariable. 8

XIV-. Pruebas estadísticas de análisis bivariable. 9

I-. ¿Porqué utilizar cuestionarios en la línea basal?

Las líneas de base, líneas medias o líneas finales se refieren a una caracterización responsable que se hace sobre una realidad de interés delimitada por los indicadores de referencia del programa que se pretende evaluar. Estos estudios son científicos y tratan sobre el estado de los indicadores que forma parte del resultado de un proyecto, en el caso de la línea basal son indicadores que miden como se encuentra algo antes de iniciar una intervención. Para nuestro caso se determinó luego de una exhaustiva revisión que muchos de los indicadores que proponía el estudio no estaban registrados y no se tenía registro alguno  en otros estudios dado que eran demasiado particulares para este estudio.

Por lo cual se elaboró un listado de que indicadores se podían inferir a partir de una encuesta, otros a partir de grupos focales y entrevistas y/o revisión de registros de otros entes.

La encuesta se diseño a partir de que esta herramienta fuera eficaz y eficiente en su utilización, como se conoce la encuesta de cuestionario es una herramienta de observación que permite cuantificar y comparar la información. Esta información se recopila entre una muestra representativa de la población objeto de evaluación. Por lo cual se diseño una muestra que cumpliera con las exigencias del ente contratante.

El cuestionario que se diseño es una lista de preguntas elaborada con el objetivo de obtener la información correspondiente a las preguntas que refieren a un indicador. A las personas encuestadas se les solicita que respondan directamente a éstas. Las encuestas suelen combinar dos tipos de cuestionario, el abierto y el cerrado, con un mayor peso de preguntas cerradas y algunas preguntas abiertas, más completas pero también más difíciles de tratar desde el punto de vista estadístico.

II-. Cuestionario Cerrado

En el cuestionario cerrado, las preguntas marcan al encuestado  una determinada forma de respuesta y una cantidad limitada de selección de respuestas. Los cuestionarios cerrados se utilizan para obtener información actual, valorar el acuerdo o el desacuerdo respecto de una propuesta, conocer la postura del encuestado respecto de una serie de juicios, caracterizar determinado bien, caracterizar a un servicio de a cuerdo a su frecuencia o para conocer si existe o no alguna práctica que interesa estudiar.

III-. Cuestionario Abierto

En el cuestionario abierto, la persona encuestada desarrolla su  respuesta, de la que el encuestador toma nota. En este caso, la encuesta de cuestionario se parece a una entrevista individual de tipo direccional. La pregunta abierta permite una respuesta libre, tanto en la forma como en la extensión. Como en las entrevistas que se realizaron en los grupos focales o actores claves en el contexto del estudio.

IV-. ¿Por qué emplear la encuesta de cuestionario en la línea basal?

En un estudio de línea de base una encuesta de cuestionario es la herramienta que mejor permite recopilar información entre la población con la posibilidad de comparar y cuantificar el peso de las distintas opiniones expresadas. Es de especial utilidad para averiguar el grado de satisfacción de los beneficiarios finales. El cuestionario cerrado tiene la ventaja de permitir el tratamiento estadístico de la información con un coste reducido. Sin embargo, existe la posibilidad de que, durante su utilización, el evaluador se dé cuenta de que algunas de las preguntas requieren un análisis más preciso.

V-. Esquema general de encuesta de cuestionario

En cuanto a las condiciones para la utilizar la encuesta de cuestionario a travez de entrevistas. Para redactar las preguntas se tuvo un conocimiento previo del contexto del programa de agua potable y saneamiento dentro de la MANKATITLAN y de las comunidades y evidentemente de los objetivos y del programa respecto a los beneficiarios.

En el caso de la preparación de la encuesta, se hizo a través de una muestra por lo cual se dispuso de una base mínima de información, y se comprobó  la posibilidad de acceder física y logísticamente a cada lugar.

Y para la aplicación del cuestionario, se localizó a un socio local adecuado en muchos de los casos gente del COCODE o de un comité, capaz de conducir de manera adecuada y segura los objetivos del estudio. También se observó y diseñó de acuerdo al tiempo que conllevaba realizar una entrevista y llenar la boleta, dado que esta variable es fundamental para organizar toda la fase de campo, el tiempo total promedio fue de alrededor de 22 min. a 30 min.

VI-. Elaboración del cuestionario

El primer paso como anteriormente mencionamos fue ¿Qué quiero preguntar?, una vez que se entendía esto y por ende ¿Qué busco al preguntar esto?, se hizo un escrutinio del primer borrador de preguntas ¿Son necesarias todas las preguntas? ¿Será suficiente hacer una solo pregunta para tener determinado indicador? Luego pasamos a la parte en la cual nos preguntábamos si la persona encuestada realmente podría responder una pregunta en específico, acá se desagregaron muchas de las preguntas del borrador, porque se consideró que no todas las preguntas eran fáciles de responder o en ocasiones se preguntó de otra manera, previo a la prueba piloto. La otra pregunta clave antes de ir a campo fue ¿La persona entrevistada aportará la información exacta?

El proceso de la elaboración de los cuestinarios en general para este estudio, se enfocaron en la exactitud de la información por parte de los informantes, luego de eso las preguntas se separaron de acuerdo a un orden lógico que permitiera al encuestador tanto como al entrevistado no perder el hilo de la entrevista, se formularon preguntas que resultasen claras, unívocas, neutras, precisas. Por úlitmo se separó por capítulos y en la versión 7 previo a ir a la prueba de campo, se evaluó  la eficacia del cuestionario, en donde se comprobó  la claridad de las preguntas, su facilidad de respuesta, la duración y fluidez del cuestionario y los problemas con los que podían enfrentarse los encuestadores. En ese punto se inició con la elaboración de los manuales tanto de los encuestadores, como de los supervisores de campo.

Entre las ventajas que se puedieron tener del estudio son

:

  1. Información cuantificada confiable
  2. Util para evaluar cambios
  3. Permitió encuestar a un gran número de beneficiarios
  4. Permite evaluar los resultados del programa de agua potable y saneamiento.

VI-. Procesamiento y plan de análisis de la información

El concepto general para procesar la información inicia luego de recolectar la información en el campo y llevarla a un lugar seguro para el registro en la base de datos, luego hacer la consistencia de datos, pasando por imputaciones sobre los missing values y determinando el grado y confiabilidad de los datos que se analizan. Esto es un análisis de completo de la ausencia o presencia de sesgo, de curtosis y otros estadísticos de referencia que permitan aseverar que la inferencia sobre la población general es precisa y tiene un error mínimo.

Realizar los pasos correctos para analizar la información, conlleva primero tratarlos de la mejor manera, esto nos permite garantizar que la información que  registró en las boletas este grabada en la base de datos en el mismo orden y que se pueda identificar de manera rápida y que estos puedan servir para hacer todo tipo de análisis sin perder la forma correcta de interpretación.

VII-. ¿Qué son los Missing Values?

Los “missing values” se refiere a los datos faltantes, estos son normales y a menudo se observan datos u observaciones aberrantes o estadísticamente poco probables, como podría suceder en las preguntas 8 y 9 de la boleta A1, en donde supongamos que en una vivienda las paredes son de lamina y en la pregunta 9 se afirma que el techo es de concreto. Resulta muy poco probable que esto suceda, no es un dato lógico, sin embargo el dato esta registrado de esa manera, por lo cual habrá que corregir, dado que físicamente no puede suceder eso dado que el peso del concreto no puede ser resistido por las paredes de lámina, Así como este ejemplo puede suceder con otros casos, y sin embargo estos datos son normales en todas las encuestas, solo que deben ser pocos. Algunas de las explicaciones para estos datos pueden ser; 1-. Fatiga de los encuestados; 2-. Desconocimiento de la información solicitada del encuestado; 3-. Rechazo de las personas a informar acerca de temas sensibles; 4-. Negativa de los hogares a participar en la investigación, entre las más comunes que se tiene experiencia en líneas de base similares.

Heitjan y Rubin en 1991, afirman que los missing values forman parte de un conjunto de observaciones  con características especiales que incluye a los datos agrupados, agregados, redondeados, censurados o truncados; es decir, a datos con información especial. En este caso se preveé que preguntas relacionadas con los ingresos familiares por ejemplo, tenga que someterse en algunas ocasiones a la imputación, dado lo sensible del tema, esto generalemte se hará a través del diseño de una ecuación que permita estimar de manera precisa el “missing value”, el mismo Rubin no recomienda imputar datos en situaciones en que la omisión en una o más variables alcance porcentajes superiores al 20%. Dado que esto significaría aumentar el error en la muestra en los indicadores en donde se pueda precisar esa determinada variable.

En este estudio se parte del supuesto que los datos faltantes siguen un patrón  completamente aleatorio, sin embargo para datos faltantes para la variable ingreso siguen un patrón MAR –Missing at random-, si la probabilidad de que existan omisiones dependen, por ejemplo, del nivel educativo de la persona, pero en cada categoría de escolaridad la falta de información no está relacionada con el ingreso. En la práctica esta hipótesis no puede ser comprobada, debido a que precisamente se desconoce el ingreso en algunas observaciones. Sin embargo la manera más precisa para tratarla es con los datos de escolaridad, dada su correlación en otros estudios más grandes.

Poe lo que en este estudio la manera en que se escogió hacer la imputación es con procedimientos de imputación ponderados, este procedimiento es similar al de post-estratificación, con la diferencia que para reponderar las observaciones se utilizan información de la muestra estudiada, en tanto que en la post-estratificación se recurre a datos exógenos provenientes de otras encuestas, censos o registros administrativos.

VIII-. Imputación por el método de medias no condicionadas

La sustitución de datos utilizando promedios es una vieja práctica entre investigadores de diversas disciplinas, a pesar de que por sus limitaciones teóricas no se considera un procedimiento apropiado. En su aplicación se asume que los datos faltantes siguen un patrón MCAR-Missing Completely at Random-, y ha sido ampliamente documentado que su aplicación afecta la distribución de probabilidad de la variable imputada, atenúa la correlación con el resto de las variables y subestima la varianza, entre otras cosas.

Por la manera en que se realiza la sustitución de los datos omitidos, la suma de cuadrados de las desviaciones de las observaciones respecto de la media permanece inalterada pero se incrementa el tamaño de muestra, lo cual origina que la varianza de la variable disminuya y se generen, en forma artificial, intervalos de confianza más estrechos.

Este método se realizará para la mayoría de preguntas en este estudio, excepto para los ingresos de la familia de la pregunta 38 y cuando el efecto de la media altere considerablemente la variable, si este no puede hacerse se procederá al siguiente que por medio de medias condicionadas en datos agrupados.

IX-. Imputación por el método de medias condicionas para datos agrupados

Una variante del procedimiento anterior consiste en formar categorías a partir de covariables correlacionadas con la variable de interés, e imputar los datos omitidos con observaciones provenientes de una submuestra que comparte características comunes.

Al igual que el procedimiento de medias, en este caso se asume que los datos faltantes siguen un patrón MCAR y existirán tantos promedios como categorías se formen, lo cual contribuye a atenuar los sesgos en cada celda pero de ninguna manera los elimina.

Se preveé que la mayoría de las variables lleguen a este punto de imputación, sin embargo como antes se mencionó, la pregunta 38 es complicada y el tratamiento es muy probable que se realice por el método por regresión

X-. Imputación por el método por regresión

Ante la presencia de un patrón de datos faltantes MCRA es posible utilizar modelos de regresión para imputar información en la variable Y, a partir de un grupo de covariables (X1,X2,…, Xp) correlacionadas, como el ejemplo del nivel de estudios y los ingresos familiares.

El procedimiento consiste en eliminar las observaciones con datos incompletos, y ajustar una ecuación de regresión para predecir los valores de que serán utilizados para sustituir los valores que faltan, de modo que el valor de se construye como una media condicionada de las covariables X’s.

Si el método se aplica por estrato (subgrupos), es necesario garantizar suficientes grados de libertad (observaciones completas por subgrupo). En este caso, cabe resaltar que el sesgo del estimador disminuye. Pero su uso es complicado, dada la asociación de las variables y el conocimiento para emplearlas, así como la tiempo y recursos para emplearlas en todas las variables.

XI-. Consistencia de datos

Se refiere a que los datos que están registrados en las boletas efectivamente estén registrados en el programa de captura de datos “en la base de datos”, y que efectivamente exista relación entre lo que se observó en campo y traducirlo de manera correcta a un caracteres dentro de la base de datos y que este pueda reflejar lo que se vio en campo.

Para ello en este estudio se decidió que se sacaría una muestra para los casi 78 mil registros de preguntas y las respuestas de cada uno de ellos para observar un error menor al 1%, lo cual nos garantiza que la trata posterior de los datos se hará con una buena relación y que estos podrán dar datos certeros.

XI-. Codificación de datos

Básicamente, la codificación consiste en la asignación de símbolos, ordinariamente numéricos, a las respuestas emitidas por los sujetos en cada una de las preguntas del cuestionario. La codificación de las preguntas cerradas y de las preguntas de elección múltiple no ofrece ninguna dificultad. En el primer caso, por ejemplo, se puede asignar un «uno» a la respuesta afirmativa y un «dos» a la negativa, un «uno» para la respuesta varón y un «dos» para la respuesta mujer, etc.; en las preguntas de elección múltiple se puede asignar números consecutivos a cada una de las alternativas ofrecidas.

XII-. Análisis de datos

Una vez subsanada las anteriores, se procederá a tratar los datos analizando las distribuciones de frecuencias de las variables, así como las medidas de tendencia central, de dispersión, asimetría y curtosis, que nos permitan transformar los estimadores en parámetros.

Los parámetros se estarán entregando en intervalos de confianza con un 97.5% de confiabilidad. Esto es hacer una inferencia con una estimación bastante confiable y precisa, de acorde a los supuestos estadísticos que se plantearon en el error de la muestra y son comparables a estudios más estrictos. Todas la variables se

XIII-. Técnicas de análisis

Técnicas de análisis univariable. En el nivel básico se incluyen las técnicas que estudian la medida y el comportamiento de una sola variable. Las técnicas que se empleen pueden ser utilizadas según se trabaje con variables cuantitativas o cualitativas (tanto dicotómicas como multirrespuesta)

Técnicas de análisis bivariable, que constituyen el conjunto de técnicas que estudian la relación de asociación o de dependencia de dos variables. Para la elección de la prueba estadística adecuada se tendrán en cuenta los siguientes aspectos:

– La escala de medida de la variable de respuesta y del factor de estudio.

– El carácter apareado o independiente de los datos.

– Las condiciones específicas de aplicación de cada prueba.

Y por último se contempla que en muchos casos el análisis multivariado, para el cual existen varias técnicas disponibles para hacerse, esto por supuesto depende de los indicadores de interés del estudio que se este trabajando y el nivel de análisis estadístico que se desee, además de la forma en que se hizo la imputación y la consistencia de datos.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s