Diseño de herramientas, tratamiento y análisis de datos.


Diseño de herramientas, tratamiento y análisis de datos.


Diseño de herramientas, tratamiento y análisis de datos.

Presentado por: Yefrin M. Chávez, Ing.

09 de octubre de 2010

Contenido

I-. ¿Porqué utilizar cuestionarios en la línea basal?. 3

II-. Cuestionario Cerrado. 3

III-. Cuestionario Abierto. 3

IV-. ¿Por qué emplear la encuesta de cuestionario en la línea basal?. 4

V-. Esquema general de encuesta de cuestionario. 4

VI-. Elaboración del cuestionario. 5

VI-. Procesamiento y plan de análisis de la información. 5

VII-. ¿Qué son los Missing Values?. 6

VIII-. Imputación por el método de medias no condicionadas. 6

IX-. Imputación por el método de medias condicionas para datos agrupados. 7

X-. Imputación por el método por regresión. 7

XI-. Consistencia de datos. 8

XI-. Codificación de datos. 8

XII-. Análisis de datos. 8

XIII-. Técnicas de análisis univariable. 8

XIV-. Pruebas estadísticas de análisis bivariable. 9

I-. ¿Porqué utilizar cuestionarios en la línea basal?

Las líneas de base, líneas medias o líneas finales se refieren a una caracterización responsable que se hace sobre una realidad de interés delimitada por los indicadores de referencia del programa que se pretende evaluar. Estos estudios son científicos y tratan sobre el estado de los indicadores que forma parte del resultado de un proyecto, en el caso de la línea basal son indicadores que miden como se encuentra algo antes de iniciar una intervención. Para nuestro caso se determinó luego de una exhaustiva revisión que muchos de los indicadores que proponía el estudio no estaban registrados y no se tenía registro alguno  en otros estudios dado que eran demasiado particulares para este estudio.

Por lo cual se elaboró un listado de que indicadores se podían inferir a partir de una encuesta, otros a partir de grupos focales y entrevistas y/o revisión de registros de otros entes.

La encuesta se diseño a partir de que esta herramienta fuera eficaz y eficiente en su utilización, como se conoce la encuesta de cuestionario es una herramienta de observación que permite cuantificar y comparar la información. Esta información se recopila entre una muestra representativa de la población objeto de evaluación. Por lo cual se diseño una muestra que cumpliera con las exigencias del ente contratante.

El cuestionario que se diseño es una lista de preguntas elaborada con el objetivo de obtener la información correspondiente a las preguntas que refieren a un indicador. A las personas encuestadas se les solicita que respondan directamente a éstas. Las encuestas suelen combinar dos tipos de cuestionario, el abierto y el cerrado, con un mayor peso de preguntas cerradas y algunas preguntas abiertas, más completas pero también más difíciles de tratar desde el punto de vista estadístico.

II-. Cuestionario Cerrado

En el cuestionario cerrado, las preguntas marcan al encuestado  una determinada forma de respuesta y una cantidad limitada de selección de respuestas. Los cuestionarios cerrados se utilizan para obtener información actual, valorar el acuerdo o el desacuerdo respecto de una propuesta, conocer la postura del encuestado respecto de una serie de juicios, caracterizar determinado bien, caracterizar a un servicio de a cuerdo a su frecuencia o para conocer si existe o no alguna práctica que interesa estudiar.

III-. Cuestionario Abierto

En el cuestionario abierto, la persona encuestada desarrolla su  respuesta, de la que el encuestador toma nota. En este caso, la encuesta de cuestionario se parece a una entrevista individual de tipo direccional. La pregunta abierta permite una respuesta libre, tanto en la forma como en la extensión. Como en las entrevistas que se realizaron en los grupos focales o actores claves en el contexto del estudio.

IV-. ¿Por qué emplear la encuesta de cuestionario en la línea basal?

En un estudio de línea de base una encuesta de cuestionario es la herramienta que mejor permite recopilar información entre la población con la posibilidad de comparar y cuantificar el peso de las distintas opiniones expresadas. Es de especial utilidad para averiguar el grado de satisfacción de los beneficiarios finales. El cuestionario cerrado tiene la ventaja de permitir el tratamiento estadístico de la información con un coste reducido. Sin embargo, existe la posibilidad de que, durante su utilización, el evaluador se dé cuenta de que algunas de las preguntas requieren un análisis más preciso.

V-. Esquema general de encuesta de cuestionario

En cuanto a las condiciones para la utilizar la encuesta de cuestionario a travez de entrevistas. Para redactar las preguntas se tuvo un conocimiento previo del contexto del programa de agua potable y saneamiento dentro de la MANKATITLAN y de las comunidades y evidentemente de los objetivos y del programa respecto a los beneficiarios.

En el caso de la preparación de la encuesta, se hizo a través de una muestra por lo cual se dispuso de una base mínima de información, y se comprobó  la posibilidad de acceder física y logísticamente a cada lugar.

Y para la aplicación del cuestionario, se localizó a un socio local adecuado en muchos de los casos gente del COCODE o de un comité, capaz de conducir de manera adecuada y segura los objetivos del estudio. También se observó y diseñó de acuerdo al tiempo que conllevaba realizar una entrevista y llenar la boleta, dado que esta variable es fundamental para organizar toda la fase de campo, el tiempo total promedio fue de alrededor de 22 min. a 30 min.

VI-. Elaboración del cuestionario

El primer paso como anteriormente mencionamos fue ¿Qué quiero preguntar?, una vez que se entendía esto y por ende ¿Qué busco al preguntar esto?, se hizo un escrutinio del primer borrador de preguntas ¿Son necesarias todas las preguntas? ¿Será suficiente hacer una solo pregunta para tener determinado indicador? Luego pasamos a la parte en la cual nos preguntábamos si la persona encuestada realmente podría responder una pregunta en específico, acá se desagregaron muchas de las preguntas del borrador, porque se consideró que no todas las preguntas eran fáciles de responder o en ocasiones se preguntó de otra manera, previo a la prueba piloto. La otra pregunta clave antes de ir a campo fue ¿La persona entrevistada aportará la información exacta?

El proceso de la elaboración de los cuestinarios en general para este estudio, se enfocaron en la exactitud de la información por parte de los informantes, luego de eso las preguntas se separaron de acuerdo a un orden lógico que permitiera al encuestador tanto como al entrevistado no perder el hilo de la entrevista, se formularon preguntas que resultasen claras, unívocas, neutras, precisas. Por úlitmo se separó por capítulos y en la versión 7 previo a ir a la prueba de campo, se evaluó  la eficacia del cuestionario, en donde se comprobó  la claridad de las preguntas, su facilidad de respuesta, la duración y fluidez del cuestionario y los problemas con los que podían enfrentarse los encuestadores. En ese punto se inició con la elaboración de los manuales tanto de los encuestadores, como de los supervisores de campo.

Entre las ventajas que se puedieron tener del estudio son

:

  1. Información cuantificada confiable
  2. Util para evaluar cambios
  3. Permitió encuestar a un gran número de beneficiarios
  4. Permite evaluar los resultados del programa de agua potable y saneamiento.

VI-. Procesamiento y plan de análisis de la información

El concepto general para procesar la información inicia luego de recolectar la información en el campo y llevarla a un lugar seguro para el registro en la base de datos, luego hacer la consistencia de datos, pasando por imputaciones sobre los missing values y determinando el grado y confiabilidad de los datos que se analizan. Esto es un análisis de completo de la ausencia o presencia de sesgo, de curtosis y otros estadísticos de referencia que permitan aseverar que la inferencia sobre la población general es precisa y tiene un error mínimo.

Realizar los pasos correctos para analizar la información, conlleva primero tratarlos de la mejor manera, esto nos permite garantizar que la información que  registró en las boletas este grabada en la base de datos en el mismo orden y que se pueda identificar de manera rápida y que estos puedan servir para hacer todo tipo de análisis sin perder la forma correcta de interpretación.

VII-. ¿Qué son los Missing Values?

Los “missing values” se refiere a los datos faltantes, estos son normales y a menudo se observan datos u observaciones aberrantes o estadísticamente poco probables, como podría suceder en las preguntas 8 y 9 de la boleta A1, en donde supongamos que en una vivienda las paredes son de lamina y en la pregunta 9 se afirma que el techo es de concreto. Resulta muy poco probable que esto suceda, no es un dato lógico, sin embargo el dato esta registrado de esa manera, por lo cual habrá que corregir, dado que físicamente no puede suceder eso dado que el peso del concreto no puede ser resistido por las paredes de lámina, Así como este ejemplo puede suceder con otros casos, y sin embargo estos datos son normales en todas las encuestas, solo que deben ser pocos. Algunas de las explicaciones para estos datos pueden ser; 1-. Fatiga de los encuestados; 2-. Desconocimiento de la información solicitada del encuestado; 3-. Rechazo de las personas a informar acerca de temas sensibles; 4-. Negativa de los hogares a participar en la investigación, entre las más comunes que se tiene experiencia en líneas de base similares.

Heitjan y Rubin en 1991, afirman que los missing values forman parte de un conjunto de observaciones  con características especiales que incluye a los datos agrupados, agregados, redondeados, censurados o truncados; es decir, a datos con información especial. En este caso se preveé que preguntas relacionadas con los ingresos familiares por ejemplo, tenga que someterse en algunas ocasiones a la imputación, dado lo sensible del tema, esto generalemte se hará a través del diseño de una ecuación que permita estimar de manera precisa el “missing value”, el mismo Rubin no recomienda imputar datos en situaciones en que la omisión en una o más variables alcance porcentajes superiores al 20%. Dado que esto significaría aumentar el error en la muestra en los indicadores en donde se pueda precisar esa determinada variable.

En este estudio se parte del supuesto que los datos faltantes siguen un patrón  completamente aleatorio, sin embargo para datos faltantes para la variable ingreso siguen un patrón MAR –Missing at random-, si la probabilidad de que existan omisiones dependen, por ejemplo, del nivel educativo de la persona, pero en cada categoría de escolaridad la falta de información no está relacionada con el ingreso. En la práctica esta hipótesis no puede ser comprobada, debido a que precisamente se desconoce el ingreso en algunas observaciones. Sin embargo la manera más precisa para tratarla es con los datos de escolaridad, dada su correlación en otros estudios más grandes.

Poe lo que en este estudio la manera en que se escogió hacer la imputación es con procedimientos de imputación ponderados, este procedimiento es similar al de post-estratificación, con la diferencia que para reponderar las observaciones se utilizan información de la muestra estudiada, en tanto que en la post-estratificación se recurre a datos exógenos provenientes de otras encuestas, censos o registros administrativos.

VIII-. Imputación por el método de medias no condicionadas

La sustitución de datos utilizando promedios es una vieja práctica entre investigadores de diversas disciplinas, a pesar de que por sus limitaciones teóricas no se considera un procedimiento apropiado. En su aplicación se asume que los datos faltantes siguen un patrón MCAR-Missing Completely at Random-, y ha sido ampliamente documentado que su aplicación afecta la distribución de probabilidad de la variable imputada, atenúa la correlación con el resto de las variables y subestima la varianza, entre otras cosas.

Por la manera en que se realiza la sustitución de los datos omitidos, la suma de cuadrados de las desviaciones de las observaciones respecto de la media permanece inalterada pero se incrementa el tamaño de muestra, lo cual origina que la varianza de la variable disminuya y se generen, en forma artificial, intervalos de confianza más estrechos.

Este método se realizará para la mayoría de preguntas en este estudio, excepto para los ingresos de la familia de la pregunta 38 y cuando el efecto de la media altere considerablemente la variable, si este no puede hacerse se procederá al siguiente que por medio de medias condicionadas en datos agrupados.

IX-. Imputación por el método de medias condicionas para datos agrupados

Una variante del procedimiento anterior consiste en formar categorías a partir de covariables correlacionadas con la variable de interés, e imputar los datos omitidos con observaciones provenientes de una submuestra que comparte características comunes.

Al igual que el procedimiento de medias, en este caso se asume que los datos faltantes siguen un patrón MCAR y existirán tantos promedios como categorías se formen, lo cual contribuye a atenuar los sesgos en cada celda pero de ninguna manera los elimina.

Se preveé que la mayoría de las variables lleguen a este punto de imputación, sin embargo como antes se mencionó, la pregunta 38 es complicada y el tratamiento es muy probable que se realice por el método por regresión

X-. Imputación por el método por regresión

Ante la presencia de un patrón de datos faltantes MCRA es posible utilizar modelos de regresión para imputar información en la variable Y, a partir de un grupo de covariables (X1,X2,…, Xp) correlacionadas, como el ejemplo del nivel de estudios y los ingresos familiares.

El procedimiento consiste en eliminar las observaciones con datos incompletos, y ajustar una ecuación de regresión para predecir los valores de que serán utilizados para sustituir los valores que faltan, de modo que el valor de se construye como una media condicionada de las covariables X’s.

Si el método se aplica por estrato (subgrupos), es necesario garantizar suficientes grados de libertad (observaciones completas por subgrupo). En este caso, cabe resaltar que el sesgo del estimador disminuye. Pero su uso es complicado, dada la asociación de las variables y el conocimiento para emplearlas, así como la tiempo y recursos para emplearlas en todas las variables.

XI-. Consistencia de datos

Se refiere a que los datos que están registrados en las boletas efectivamente estén registrados en el programa de captura de datos “en la base de datos”, y que efectivamente exista relación entre lo que se observó en campo y traducirlo de manera correcta a un caracteres dentro de la base de datos y que este pueda reflejar lo que se vio en campo.

Para ello en este estudio se decidió que se sacaría una muestra para los casi 78 mil registros de preguntas y las respuestas de cada uno de ellos para observar un error menor al 1%, lo cual nos garantiza que la trata posterior de los datos se hará con una buena relación y que estos podrán dar datos certeros.

XI-. Codificación de datos

Básicamente, la codificación consiste en la asignación de símbolos, ordinariamente numéricos, a las respuestas emitidas por los sujetos en cada una de las preguntas del cuestionario. La codificación de las preguntas cerradas y de las preguntas de elección múltiple no ofrece ninguna dificultad. En el primer caso, por ejemplo, se puede asignar un «uno» a la respuesta afirmativa y un «dos» a la negativa, un «uno» para la respuesta varón y un «dos» para la respuesta mujer, etc.; en las preguntas de elección múltiple se puede asignar números consecutivos a cada una de las alternativas ofrecidas.

XII-. Análisis de datos

Una vez subsanada las anteriores, se procederá a tratar los datos analizando las distribuciones de frecuencias de las variables, así como las medidas de tendencia central, de dispersión, asimetría y curtosis, que nos permitan transformar los estimadores en parámetros.

Los parámetros se estarán entregando en intervalos de confianza con un 97.5% de confiabilidad. Esto es hacer una inferencia con una estimación bastante confiable y precisa, de acorde a los supuestos estadísticos que se plantearon en el error de la muestra y son comparables a estudios más estrictos. Todas la variables se

XIII-. Técnicas de análisis

Técnicas de análisis univariable. En el nivel básico se incluyen las técnicas que estudian la medida y el comportamiento de una sola variable. Las técnicas que se empleen pueden ser utilizadas según se trabaje con variables cuantitativas o cualitativas (tanto dicotómicas como multirrespuesta)

Técnicas de análisis bivariable, que constituyen el conjunto de técnicas que estudian la relación de asociación o de dependencia de dos variables. Para la elección de la prueba estadística adecuada se tendrán en cuenta los siguientes aspectos:

– La escala de medida de la variable de respuesta y del factor de estudio.

– El carácter apareado o independiente de los datos.

– Las condiciones específicas de aplicación de cada prueba.

Y por último se contempla que en muchos casos el análisis multivariado, para el cual existen varias técnicas disponibles para hacerse, esto por supuesto depende de los indicadores de interés del estudio que se este trabajando y el nivel de análisis estadístico que se desee, además de la forma en que se hizo la imputación y la consistencia de datos.

Estudios para medir indicadores


Las líneas de base, líneas medias o líneas finales se refieren a una caracterización responsable que se hace sobre una realidad de interés delimitada por los indicadores de referencia del programa que se pretende evaluar. Es decir que esta es una herramienta imprescindible para el control, supervisión y evaluación de nuestros indicadores o de un programa completo.

Estos estudios son científicos y tratan sobre el estado de los indicadores que forma parte del resultado de un proyecto, en el caso de la línea basal son indicadores que miden como se encuentra algo antes de iniciar una intervención, la línea media se refiere a supervisar y controlar que los mismos indicadores que se eligieron al principio del proyecto se comporten de acuerdo a lo planificado, si esto no es así, nos da la posibilidad de redireccionar la intervención y llegar al resultado esperado, mientras tanto una línea final se encarga de evaluar el resultado de la intervención, por lo que se evalúan los mismo indicadores que se midieron al principio. Esto nos brinda la oportunidad de conocer de manera precisa el avance o retroceso de un indicador o de una batería de indicadores.

Comúnmente en este tipo de estudios observacionales se evalúan más de un indicador y por lo tanto se forma una batería de variables a medir, por ejemplo si necesito saber sobre el indicador “Estado del funcionamiento del sistema de agua de la comunidad de Santa Maria” por citar tres variables que deben medir serían:

  1. Cantidad de viviendas conectadas
  2. Cantidad de demanda de agua
  3. Cantidad de usuarios satisfechos

Por lo tanto el primero se deberá estudiar a través del padrón de agua que registre ya sea la municipalidad de Santa María o el comité de agua que tenga a su cargo el sistema. En teoría sabríamos la cantidad de viviendas conectadas. Sin embargo si necesitamos saber la candidad de agua demandada podríamos fácilmente venir y ubicar a Santa María en la categoría de municipio, aldea, caserío u otro, para determinar la cantidad de agua por habitante y estimar por medio de un estudio por muestreo la cantidad de personas que viven por vivienda y determinar la cantidad correcta de la demanda.

Por último se deberá determinar si los usuarios actuales están o no satisfechos con el sistema de agua para ello, se deberá hacer un estudio en base a una muestra, porque seguramente el número de beneficiarios son muchos y se necesitaría un censo y muchos más recursos para asegurarnos tener el dato preciso, sin embargo este dato podría incorporarse con una serie de preguntas a una encuesta en el estudio de muestreo que anteriormente nos ayudaría para saber a ciencia cierta el número de personas por vivienda.

En definitiva para realizar una línea base, media o final, deben incluirse varias metodologías para recolectar toda la información que los indicadores requieren. Se trata de dar confiabilidad y exactitud acerca de lo que hablamos y decimos sobre lo que estamos viendo.descarga (2)


Determinación del tamaño de muestra

Anteriormente diferenciamos el muestreo por conglomerados y uno por estratos, es recomendable,  si percibimos que los conglomerados o la estratificación, si ambos pueden producir un error de estimación más pequeño que el que generaría un muestreo simple aleatorio deberíamos emplear cualquiera de estos. Esta afirmación es particularmente cierta si las mediciones dentro de los estratos son homogéneas. O bién, si se pueden obtener estimaciones de parámetros poblacionales para subgrupos de la población. Los subgrupos deben de ser entonces conglomerados o estratos identificables. 

Para determinar el tamaño adecuado de la muestra primero debe saber cuál es su indicador clave, partiendo de eso el trabajo se simplifica, porque ahora ya sabemos que queremos, los demás indicadores pueden tener similar o más o menos representatividad, pero en definitiva el indicador que más nos interesa si tendrá el tamaño adecuado. Supongamos entonces que lo que realmente quieren es un indicador que se adapta a las características que anteriormente describí y que dado el contexto de la población que se  quiere estudiar nos confiere que el tipo de muestreo a utilizar es el de estratos. Entonces deberá:

  1. Conocer indicador clave (en base
  2. Definir el tipo de muestreo a realizar (en base a recursos y otros factores)
  3. Si decide que desea estratificar por medio de la variación que hay en cada estrato, definitivamente deberá hacer una prueba piloto, a este tipo se le conoce como “muestreo aleatorio estratificado con afijación de Neyman”que sería lo más recomendado dado la precisión. Este método necesita una prueba piloto o de datos de anteriores estudios o censos del lugar de interés y del indicador clave. Como consejo y desde mi punto de vista este debería elegir, sin embargo si tiene los recursos limitados, entonces deberá emplear el “muestreo aleatorio estratificado en base a solo al peso de cada estrato”, ambos con posterior selección de una muestra irrestrictamente al azar en cada estrato.

Lo más fácil para estratificar es usar esta ecuación:

Ecuación para determinar el tamaño adecuado de una muestra probabilística por medio de estratos

Ecuación para determinar el tamaño adecuado de una muestra probabilística por medio de estratos

Acá n es el tamaño de la muestra, N el tamaño de la población, Ni el tamaño de cada estrato, Si la desviación estándar de cada estrato, β el nivel de precisión de la muestra.

                          4-. Luego deberá dividir la muestra en cada estrato según su tamaño.

En cuanto a la metodología de campo que pueden usar varias técnicas para recolectar información, teniendo en cuenta siempre que debe ser aleatorio y no puede hacerlo de manera sistemática. Cuando se sistematiza el proceso se tiende a errar porque en algunas poblaciones el error sigue la misma directriz, por lo que se recomienda siempre hacerlo al azar, para reducir dicho error.

¿Conglomerados o Estratos?


Muestreo por conglomerados o por estratos en encuestas

Muestreo por conglomerados o por estratos en encuestas

Esto es parte de lo que tiene que saber para determinar el tipo de muestreo a utilizar y por ende determinar el tamaño de muestra correcta.

 Bien la diferencia entre usar un muestreo de conglomerados o uno estratificado, radica en la homogeneidad como factor principal pero digamos que tiene un peso ponderado, porque también influyen otros factores como los recursos disponibles para la investigación (tiempo, capacidad de análisis, dinero, ubicación geográfica entre otros). ¿Ya verán cuál les conviene usar?

 El muestreo estratificado resulta de crear estratos lo más homogéneos internamente y heterogéneos entre si, un ejemplo clásico sería por ejemplo estratificar por sexo. Ecá verán que los hombres nos parecemos mucho pero un hombre de 10 años no es igual a un hombre de 76 años, igual sucedería si se quiere comparar a las mujeres, pero esto solo es cierto si la variable a medir por ejemplo es la estatura, la masa o incluso el nivel de hormonas que tenemos. Sin embargo deja de funcionar en casos por ejemplo cuando la variable a medir es el tiempo de digestión o incluso el ritmo cardíaco  o la capacidad de un hombre o una mujer de ser presidente, como ejemplos.

 En el caso del muestreo por conglomerados la homogeneidad se va a dar cuando los conglomerados se parecen entre si, pero dentro hay mucha más variación. Por ejemplo, si pretendemos saber como variable de respuesta el nivel de infestación de gusanos en un grupo de manzanas, por ejemplo, los conglomerados serían los árboles, todos se parecen entre sí, pero el nivel de variación entre una manzana y otra va a variar de acuerdo a las larvas que estén en cada manzana.

 En conclusión, utilizamos el muestreo estratificado cuando la variación interna de cada estrato es pequeña, pero la variación entre los estratos es grande, cosa contraria sucede con el muestreo por conglomerados. Digamos que  como investigador por medio de una encuesta a una madre quiero calcular la cantidad de zanahoria (en onzas) que come un bebé de 3 meses y también la de un niño de 2 años, entonces recomendaría utilizar el muestreo por estratificación, porque evidentemente todos los niños entre la edad de 3 meses van a comer casi las mismas cantidades de zanahoria digamos unas 2 onzas por ejemplo, porque el tamaño de los bebés  y de los estómagos y la capacidad de comer es “esa”, en cambio un niño de 2 años es más grande, por lo que va a comer más pero esencialmente y comparado con niños de la misma edad no va a variar mucho,  esto por supuesto considerando condiciones de igualdad.

 Al final la decisión es del investigador, en este caso de ustedes, deben elegir entre la precisión y exactitud de la investigación, pero esta a veces no puede realizarse dado a los recursos con los que cuenta para la investigación, un estudio  por estratos es más preciso y exacto, pero más caro (si todos los recursos los cuantificamos en unidades monetarias) comparado a uno por conglomerados, porque en el primero, en cada estrato hacemos una muestra y en el de conglomerados primero hacemos una muestra de los conglomerados y luego agarramos un número fijo de unidades a muestrear en un conglomerado.

 Por otra parte, antes de decidir el tipo de muestreo a usar, primero deberá determinar el indicador clave de la investigación, porque para cada indicador el tamaña de la muestra será diferente, esto es relevante porque en la práctica esto no se puede hacer, es decir no se puede tener una encuesta con una muestra de 1000 personas para el indicador “X” y una encuesta con un muestra de 1300 para el indicador “Y”¡Se imagina!, entonces deberá elegir de acuerdo a la relevancia que su estudio le pide o bien,  deberá seleccionar un indicador de acuerdo a:

  1.  Habrá que seleccionar dos o tres poblaciones meta que comprenden pequeños porcentajes de la población total. Normalmente, estos grupos meta no deben ser más reducidos que grupos de edad de 1 año, ni más amplios que grupos de edad de 5 años.
  2. También se tienen que revisar los indicadores importantes con base en estos grupos, ignorando indicadores que tienen prevalencia muy baja (menos de 5%) o muy alta (más de 50%).
  3. En general, cuando elijan un indicador que tenga una cobertura relativamente baja, alrededor de 15 o 20%, para poblaciones meta que representan de 10 a 15% de la población. Para poblaciones meta que representan menos de 5% de la población, elijan un indicador que tenga una cobertura levemente superior, más de 20%, pero menos de 50%.
  4. Entre los indicadores de cobertura deseablemente baja, no elijan un indicador que ya es aceptablemente bajo, porque esto va a incrementar el tamaño de la muestra y por lo tanto cuando determinen el tamaño adecuado de su muestra este va ser muy grande y por ende inflará los costos.

 Bien, ahora que ya eligieron su indicador clave, ya podrán decidir qué tipo de muestreo utilizar. Evidentemente cuando sepan esto, calculamos el tamaño de la muestra. En general, calcular una muestra por conglomerados es más difícil porque lleva más datos, pero es más barato en términos monetarios, pero se usa poco dado que en Guatemala no tenemos instituciones fuertes que tengan estadísticas confiables, además porque un dato es orbitantemente difícil de conseguir y se le denomina efecto de diseño –deff- .

 Por supuesto que encontrarán a personas que le dirán que el muestreo por conglomerados es fácil de usar y en efecto es fácil de usar con datos inventados o asumidos, sin embargo, si pretende hacer un estudio con la mayor exactitud y precisión posible deberán saber el deff y este solo lo usa la gente que tiene mucha experiencia y es experta en determinado tema y además tiene datos para calcular el –deff-.

________________________________________________

[1] Consullta personal M. Sc. Marino Barrientos García

[2] Consulta personal M. Sc. Victor Manuel Cajas

[3] Consulta personal Ph. D. Marco Tulio Aceituno

Gracias por leer


 

25 de julio de 2013

 

 

¡Oh Jaemmy! No quiero quitarte mucho tiempo porque sé que últimamente estas muy ocupada, por lo cual quiero ser muy breve. Hace un rato cuando te llamé solo quería darte unos chocolates que había comprado para ti. Sin embargo el tono de voz que te oí, me hizo pensar en que quizá esté pasando el límite de tu privacidad y por lo tanto molestarte, nunca lo pretendí y si lo hice, solo espero que sepas comprender. Aún así espero que no tengas problemas con ello, te mandé una solicitud de amistad a facebook y pienso retirártela, también la de twitter, espero que no irrumpiera en tu privacidad y ya no lo haré, tanto en facebook como en twitter se pueden bloquear a los usuarios, no tengas pena de hacerlo conmigo, yo comprenderé.

Y bueno, en realidad te escribo solo porque quiero agradecerte mucho que aceptaras mis cartas, ojalá las hayas podido leer, las tres que te di y las otras tres que están publicadas en mi blog: yefrin.wordpress.com las hice pensando en ti, también escribí hace unos años que “agosto es el más bonito del año” sé que también crees en ello y sé porque, si te interesa saber porque me gusta a mí, lo puedes consultar allí -aunque allí no te había conocido- en su momento me pareció que fue oportuno escribir aquello. En fin, estas cartas fueron el fiel reflejo de lo que pienso. Y como ya he dicho, ante la negativa de una respuesta, doy por hecho que no quieres que te pretenda, lo cual es muy triste para mí, pero entiendo.

Por último quería pedirte que nunca dejes de sonreír, eres muy guapa y la verdad de todo tu sonrisa embellece los días, no tengo ningún tipo de duda que tomaste la mejor decisión, espero que te vaya bien y si en alguna ocasión sientes una rara presencia a tu rededor, créeme seré yo, quien estaré pensando en ti. Hace unos días le mencionaba a una amiga que aunque no puedo asegurar nada, ni puedo ver el futuro, si recuerdo las palabras que mencionó Julio César en un discurso antes de una batalla épica “nadie sabe que nos depara el día de mañana. Solo sabemos que unos saldrán victoriosos y otros derrotados. Unos vivirán y otros han de morir. De modo que si volvemos a vernos, sonreiremos. Y, si no, esta despedida habrá estado bien hecha” espero de verdad que estés bien y seas feliz y no olvides sonreír.

 

                                                                        Con cariño Yefrin.