INFERENCIA ESTADÍSTICA Estimación Prueba de Hipótesis muestra Parámetro Población Estimador ˆ Estadístico calculado en la muestra Teoría de Probabilidad MUESTREO INSTRUMENTO DE GRAN VALIDEZ CON EL CUAL SE SELECCIONAN LAS UNIDADES REPRESENTATIVAS DE LA POBLACIÓN PARA CONSTITUIR LA MUESTRA, A PARTIR DE LOS CUALES SE OBTENDRÁN LOS DATOS QUE PERMITIRAN REALIZAR INFERENCIAS ACERCA DE LA POBLACION. TIPOS DE MUESTRA SE DETERMINAN GENERALMENTE CON BASE EN LAS NECESIDADES DEL INVESTIGADOR SIN REEMPLAZAMIENTO ALEATORIO O PROBABILÍSTICO SIMPLE CON REEMPLAZAMIENTO RESTRINGIDOS MUESTREO AFIJACIÓN SISTEMÀTICO CONGLOMERADOS MIXTO DIRIGIDO NO ALEATORIO ESTRATIFICADO POR CUOTAS CONVENIENCIA IGUAL PROPORCIONAL ÓPTIMA ALEATORIO SIMPLE • ES AQUEL EN EL CUAL TODOS LOS ELEMENTOS QUE CONSTITUYEN LA POBLACION A MUESTREAR, TIENEN LA MISMA PROBABILIDAD DE SER SELECCIONADOS. Ejemplo: En 50 papeles escribimos 50 nombres de personas que se encuentran en un recinto, luego introducimos los papeles doblados en un sombrero y con los ojos vendados se procede a sacar 10 de ellos que serán premiados. Sin Reemplazamiento Con reemplazamiento Una vez seleccionada la unidad esta no vuelve hacer seleccionada. Cuando una unidad de muestreo es extraída de una población finita y después de registrar su o sus características se vuelve a dicha población antes de extraer la siguiente unidad. ESTRATIFICADO • CONSISTE EN DIVIDIR LA POBLACIÓN EN GRUPOS DE SIMILARES CARACTERÍSTICAS LLAMADOS ESTRATOS Ejemplo Las personas de ciertas clases sociales son generalmente parecidas entre sí, en lo que refiere a educación, ingresos, cultura, costumbres, actitud hacia el trabajo etc. Afijación igual: La muestra se distribuye igualmente en todos los estratos Afijación proporcional: Cuando es proporcional al tamaño poblacional del mismo. Afijación óptima: Varianza mínima para un tamaño muestral “n” fijo. SISTEMÁTICO • No se requiere tabla de números aleatorios, ya que se hace el muestreo con una lista miembros de la población por intervalos fijos. • Cuando se emplea este tipo de muestreo se incluye cada enésimo miembro de una población, en una muestra de ella. Ejemplo: Para ilustrar, al sacar una muestra de la población de 10000 amas de casa de cierta región podríamos organizar una lista de ellas, tomar cada décimo nombre de la lista y presentar una lista de 1000 amas de casa. CONGLOMERADO • PROCEDIMIENTO DE DIVIDIR LA POBLACIÓN EN GRUPOS HETEROGENEOS DENTRO DE LOS GRUPOS PERO HOMOGENEOS ENTRE GRUPOS Ejemplo: En los archivadores de un colegio, cada archivador cuenta con 6 cajones y en cada uno se encuentran las carpetas que contienen las hojas de vida de cada estudiante que integra la población del colegio. Cada cajón puede considerarse como un conglomerado. MIXTO • CUANDO EN UN PLAN DE MUESTREO SE REQUIERE LA APLICACIÓN DE 2 O MÁS MÉTODOS BÁSICOS DE MUESTREO NO ALEATORIO DIRIGIDO CONSISTE EN DEJAR A JUICIO DEL INVESTIGADOR, LA SELECCIÓN DE LAS UNIDADES, QUE CONSIDEREN REPRESENTATIVAS, VALIENDOSE PARA ELLO DE EXPERIENCIAS. POR CUOTAS ES UTILIZADO CUANDO SE DESEA TENER UN CONOCIEMIENTO SOBRE LA OPINIÓN DE UN GRUPO DE CONSUMIDORES POTENCIALES, SOBRE UN DETERMINADO PRODUCTO. CONVENIENCIA LA MUESTREA CORRESPONDE A UNA FRACCIÓN O SEGMENTO DE LA POBLACION, LA CUAL A ASU VEZ PRODUCE RESULTADOS MUY SESGADOS DEBIDO A LA ESCASA REPRESENTATIVIDAD QUE PUEDE PRESENTAR DICHO SEGMENTO Teorema del límite central Si se toma una muestra aleatoria de n observaciones de una población normal con media y variancia 2, la media muestral tiene una distribución normal con media y variancia 2/n. Si se toma una muestra aleatoria de n observaciones de una población con distribución desconocida, la media muestral es aproximadamente normal con media y variancia 2/n cuando n es grande. Teorema del límite central: Si X es la media de una muestra aleatoria de tamaño n que se toma de una población con media y variancia finita 2 , entonces la forma límite de la distribución de X conforme n , es la distribución normal N( , 2/n). ESTIMACIÓN Comúnmente, se recolectan datos para obtener información que permita al investigador estimar el valor de alguna característica poblacional tal como la media poblacional μ, o la proporción poblacional . Un solo número Un rango de valores posibles estimación puntual Estimación por intervalo Una estimación puntual de una característica poblacional es un número que se basa en datos muestrales y representa un valor plausible de la característica. Una estimación puntual de algún parámetro poblacional es un valor único ˆ del estadístico ˆ . Ejemplos: x es un estimador puntual de s2 es un estimador puntual de 2 Estimación por intervalos de confianza Estimación por intervalo: Ofrece un intervalo de valores razonables dentro del cual se pretende que esté el parámetro de interés, en este caso la media poblacional, con un cierto grado de confianza. Asociado con el intervalo de confianza se encuentra un nivel de confianza que provee información acerca de cuánta "confianza" podemos tener en el método utilizado para construir el intervalo. Por ejemplo, si se construye un intervalo de confianza del 95% se estaría utilizando un método que es exitoso el 95% de las veces. Por lo tanto, un intervalo de confianza es simplemente un rango de valores en el que nosotros confiamos que se contenga el parámetro poblacional(Altman,1991) Intervalo de confianza de , conocido 1.00 2.00 3.00 4.00 10 12 14 16 Intervalo de confianza del 95% 18 20 P( ˆ - k ˆ + k) = 1 - ˆ -k ˆ ˆ +k Si se selecciona una muestra de tamaño n de una población normal o Si n es lo suficientemente grande, De acuerdo con el teorema del límite central, la media muestral tiene una distribución (aproximadamente) Normal con media y variancia 2/n. Si x es la media de una muestra aleatoria de tamaño n de una población con variancia 2, el intervalo de confianza de (1-) % para es: P ( x - z < < x + z ) = 1 - n n donde z es el valor de z a la derecha del cual se tiene un área de . X error x - z n x x - z Si es realmente el valor central del intervalo, X estima a sin error Si es realmente el valor central del intervalo, X estima a sin error n Intervalo de confianza bilaterales de , ( conocido) Coeficiente de confianza (1-) 0,90 0,95 0,99 0,10 0,05 0,01 z / 2 Límite inferior de confianza (LIC) 1,645 x 1,645 1,960 x 1,960 2,580 x 2,580 n n n Límite superior de confianza (LSC) x 1,645 x 1,960 x 2,580 n n n Cuando n ≥ 30 y no se conoce , se reemplaza en la fórmula por s Intervalo de confianza unilaterales de , conocido Coeficiente de confianza (1-) 0,90 0,10 0,95 0,99 0,05 0,01 z 1,28 1,645 2,33 Límite inferior de confianza (LIC) x 1,28 x 1,645 x 2,33 n n n Límite superior de confianza (LSC) x 1,28 x 1,645 x 2,33 n n n Cuando n ≥ 30 y no se conoce , se reemplaza en la fórmula por s Problema Se sabe que la exposición prolongada al asbesto es un riesgo sanitario. El artículo “The acute effects of chrysolite asbestos exposure on luna function” (Environ. Research, 1978, pp.360-372) reporta resultados sobre un estudio hecho con base en una muestra de trabajadores de la construcción, que habían estado expuestos al asbesto durante períodos prolongados. Entre la información dada en el artículo se encontraron los siguientes valores de respuesta pulmonar (cm3/cm H2O) por cada uno de 32 sujetos, 8 meses después del período de exposición. (La respuesta pulmonar es una medida de la elasticidad de los pulmones, es decir, eficiencia al inhalar y exhalar). Problema 197.9 180.8 184.8 189.8 194.8 200.2 201.9 206.9 207.2 208.4 226.3 227.7 228.5 232.4 239.8 258.6 201.3 217.4 206.8 199.3 217.6 197.4 202.4 205.5 196.8 222.3 231.4 248.4 239.8 244.3 198.9 210.9 a) Construya un gráfico de caja para este grupo de datos. b) ¿Es factible que estas observaciones maestrales se hayan seleccionado de una distribución normal? c) Calcule un intervalo de confianza de 95% (bilateral) para el verdadero promedio de respuesta pulmonar, después de tal exposición. d) Si un trabajo de investigación realizado reportó que la respuesta pulmonar media de la población no expuesta es de 240 cm3/cm H2O. ¿Están los trabajadores expuestos con algún problema pulmonar? Problema Respuesta pulmonar (cm3/cm H2O) Media Error típico 212,39 3,34 Mediana 207,05 Moda #N/A Desviación estándar Varianza de la muestra 18,88 356,54 Rango 77,80 Mínimo 180,80 Máximo 258,60 Cuenta 32,00 Problema Diagrama de caja 270 Mínimo 180,8 260 Q1 199,2 250 Q2 = Mediana 207,1 Q3 226,7 220 Máximo 258,6 210 Barreras RI 240 230 200 27,5 Q1-1,5 RI 158,0 Q3+1,5 RI 267,8 190 180 170 160 150 N= 32 Capacidad Pulmonar Problema Respuesta Pulmonar 12 10 10 9 8 6 6 4 3 3 2 1 0 182,5 197,5 Capacidad Pulmonar 212,5 227,5 242,5 257,5 Frecuencia Tallo & 3,00 6,00 10,00 3,00 4,00 3,00 2,00 1,00 18 19 20 21 22 23 24 25 . . . . . . . . Hoja 049 467789 0112566789 077 2678 129 48 8 Ancho de tallo: 10,00 Cada hoja: 1 caso(s) Problema Intervalo de confianza del 95% para la verdadera capacidad pulmonar media Datos necesarios: Media ( x ): 212,39 Desvío estándar (s): 18,88 n: 32 z/2: 1,96 250 240 LIC x 1,96 s n 212,39 1.96 LSC 95% IC Capacidad Pulmonar 230 18,88 32 220 208,85 210 200 N= x 1,96 s n 212,39 1.96 18,88 32 32 Capacidad Pulmonar 218,94 (208,85 ; 218,94) Intervalo de confianza para p (muestras grandes) Si pˆ es la proporción de éxitos en una q 1 p muestra aleatoria de tamaño n y , un intervalo de confianza de (1-)% para el parámetro binomial p está dado por pˆ z / 2 pˆ qˆ n p pˆ z / 2 pˆ qˆ n Donde z/2 es el valor de z que deja un área de /2 a la derecha Problema Se seleccionó una muestra aleatoria de 487 mujeres no fumadoras de peso normal (índice de masa corporal entre 19.8 y 26.0) que dieron a luz en un gran centro médico metropolitano (“The effects of cigarette smoking and gestational weight change on birth outcomes in obses and normal-wight women”, AMER.J. of Public Health 1997, pp. 591-596). Se determinó que en el 7.2% de esos nacimientos resultaron niños de bajo peso al nacer, con menos de 2500 g. Calcule un intervalo de confianza del 95% para la verdadera proporción de nacimientos que dan como resultado niños de bajo peso al nacer. Problema Queremos obtener un intervalo de confianza del 95% para la verdadera proporción de nacimientos que dan como resultado niños de bajo peso al nacer. pˆ qˆ pˆ qˆ p z p p z ˆ ˆ /2 /2 n n La fórmula a utilizar es: Los datos del problema son: ˆ = 0,072 p n=487 Confianza 95% z/2= 1,96 pˆ z / 2 pˆ qˆ n 0,072 1,96 ˆ 1 p ˆ = 1- 0,072 = 0,928 q 0, 072*0, 928 487 0,072 0,023 El intervalo de confianza calculado es (0,049 ; 0,095) Pruebas de Hipótesis Objetivo: Comprobar cierta información sobre algún parámetro de la población a partir de los datos obtenidos en una muestra. Diseño: La hipótesis nula H0: = 0 La hipótesis alternativa H1: 0 H1: > 0 H1: < 0 Errores Tipo I y Tipo II Situaciones posibles al probar una hipótesis estadística H0 es verdadera H0 es falsa Aceptar H0 Decisión correcta Error tipo II Rechazar H0 Error tipo I Decisión correcta = Probabilidad (error tipo I) = Probabilidad (error tipo II) 1 - = Potencia de la prueba Para una media con conocido Hipótesis nula: = 0 Estadístico de prueba Hipótesis alternativa H1 x 0 z0 n Criterio de Rechazo 0 |z0| > z/2 > 0 z0 > z < 0 z0 < - z Para una media Criterio de Rechazo Hipótesis alternativa H1 |z0| > z/2 0 Rechazo H0 Rechazo H0 Acepto H0 z / 2 z / 2 Para una media Hipótesis alternativa H1 Criterio de Rechazo z0 <- z < 0 Rechazo H0 Acepto H0 z Para una media Hipótesis alternativa H1 > 0 Criterio de Rechazo z0 > z Rechazo H0 Acepto H0 z Pruebas de hipótesis – Problema Capacidad pulmonarParámetro de interés: Respuesta pulmonar media. Hipótesis nula, H0: µ0=240 cm3/cm H2O Hipótesis alternativa, H1: µ0≠240 cm3/cm H2O = 0,05, z/2 = 1,96 Estadístico de prueba: n=32, desconocido, z obs Región de rechazo: como H1 es 0 Se rechaza H0 si zobs > 1,96 o bien si zobs < -1,96 x 0 s n Pruebas de hipótesis – Problema Capacidad pulmonar- Parámetro de interés: Respuesta pulmonar media poblacional. Hipótesis nula, H0: µ0=240 cm3/cm H2O Hipótesis alternativa, H1: µ0≠240 cm3/cm H2O Cálculos: z obs x 0 s n 212,39 240 18,88 32 8,27 Conclusión: Como Zobs = -8,27 < -1,96, se rechaza H0 y se concluye que los trabajadores expuestos presentan problemas pulmonares, es decir tienen su respuesta pulmonar significativamente disminuida respecto de los no expuestos Para una proporción (muestra grande) Hipótesis nula: p = p0 Estadístico de prueba Hipótesis alternativa H1 z0 x np 0 np 0 q0 Criterio de Rechazo p = p0 |z0| > z/2 p > p0 z0 > z p < p0 z0 < - z Pruebas de hipótesis –Procedimiento generalSecuencia de pasos que es recomendable seguir al aplicar la metodología de prueba de hipótesis. Del contexto del problema, identificar el parámetro de interés Establecer la hipótesis nula, H0 Especificar una apropiada hipótesis alternativa, H1 Seleccionar el nivel de significancia, Establecer un estadístico de prueba apropiado Establecer una región de rechazo para el estadístico Calcular todas las cantidades muestrales necesarias, sustituirlas en al ecuación del estadístico de prueba, y calcular el valor correspondiente. Decidir si debe o no rechazar H0 y notificar esto en el contexto del problema. Valor p: es la probabilidad de obtener, cuando H0 es verdadera, un valor de la estadística de prueba tan extremo o más (en la dirección adecuada) que el valor calculado en realidad RELACIÓN ENTRE INTERVALO DE CONFIANZA Y TEST DE HIPÓTESIS Si el intervalo de confianza (1 - ) % (bilateral) pone a contiene al valor de la media que se prueba (test de hipótesis con una alternativa bilateral) entonces no se rechaza la hipótesis nula a un nivel de significación
© Copyright 2024