Descargar

INFERENCIA ESTADÍSTICA
Estimación
Prueba de Hipótesis
muestra
Parámetro
Población
Estimador
ˆ
Estadístico calculado en la muestra
Teoría de
Probabilidad
MUESTREO
INSTRUMENTO DE GRAN VALIDEZ CON EL CUAL SE
SELECCIONAN LAS UNIDADES REPRESENTATIVAS
DE LA POBLACIÓN PARA CONSTITUIR LA MUESTRA,
A PARTIR DE LOS CUALES SE OBTENDRÁN LOS
DATOS QUE PERMITIRAN REALIZAR INFERENCIAS
ACERCA DE LA POBLACION.
TIPOS DE MUESTRA
 SE DETERMINAN GENERALMENTE CON BASE EN LAS
NECESIDADES DEL INVESTIGADOR
SIN REEMPLAZAMIENTO
ALEATORIO
O
PROBABILÍSTICO
SIMPLE
CON REEMPLAZAMIENTO
RESTRINGIDOS
MUESTREO
AFIJACIÓN
SISTEMÀTICO
CONGLOMERADOS
MIXTO
DIRIGIDO
NO ALEATORIO
ESTRATIFICADO
POR CUOTAS
CONVENIENCIA
IGUAL
PROPORCIONAL
ÓPTIMA
ALEATORIO SIMPLE
• ES AQUEL EN EL CUAL TODOS LOS
ELEMENTOS QUE CONSTITUYEN LA
POBLACION A MUESTREAR, TIENEN LA
MISMA
PROBABILIDAD
DE
SER
SELECCIONADOS.
Ejemplo:
En 50 papeles escribimos 50 nombres de
personas que se encuentran en un recinto,
luego introducimos los papeles doblados en
un sombrero y con los ojos vendados se
procede a sacar 10 de ellos que serán
premiados.
Sin Reemplazamiento
Con reemplazamiento
Una vez seleccionada la unidad esta
no vuelve hacer seleccionada.
Cuando una unidad de muestreo es
extraída de una población finita y
después de registrar su o sus
características se vuelve a dicha
población antes de extraer la
siguiente unidad.
ESTRATIFICADO
• CONSISTE EN DIVIDIR LA POBLACIÓN EN
GRUPOS DE SIMILARES CARACTERÍSTICAS
LLAMADOS ESTRATOS
Ejemplo
Las personas de ciertas clases sociales son generalmente parecidas
entre sí, en lo que refiere a educación, ingresos, cultura, costumbres,
actitud hacia el trabajo etc.
 Afijación igual: La muestra se distribuye igualmente en todos los
estratos
 Afijación proporcional: Cuando es proporcional al tamaño
poblacional del mismo.
 Afijación óptima: Varianza mínima para un tamaño muestral “n” fijo.
SISTEMÁTICO
• No se requiere tabla de números aleatorios, ya
que se hace el muestreo con una lista miembros
de la población por intervalos fijos.
• Cuando se emplea este tipo de muestreo se
incluye cada enésimo miembro de una
población, en una muestra de ella.
Ejemplo:
Para ilustrar, al sacar una muestra de la población de 10000
amas de casa de cierta región podríamos organizar una lista de
ellas, tomar cada décimo nombre de la lista y presentar una lista
de 1000 amas de casa.
CONGLOMERADO
• PROCEDIMIENTO DE DIVIDIR LA POBLACIÓN EN
GRUPOS HETEROGENEOS DENTRO DE LOS
GRUPOS PERO HOMOGENEOS ENTRE GRUPOS
Ejemplo:
En los archivadores de un
colegio, cada archivador cuenta
con 6 cajones y en cada
uno se encuentran las carpetas que
contienen las hojas de vida de cada
estudiante que integra la
población del colegio.
Cada cajón
puede considerarse como
un conglomerado.
MIXTO
• CUANDO EN UN PLAN DE MUESTREO SE
REQUIERE LA APLICACIÓN DE 2 O MÁS
MÉTODOS BÁSICOS DE MUESTREO
NO ALEATORIO DIRIGIDO
 CONSISTE EN DEJAR A JUICIO DEL
INVESTIGADOR, LA SELECCIÓN DE LAS
UNIDADES, QUE CONSIDEREN
REPRESENTATIVAS, VALIENDOSE PARA ELLO DE
EXPERIENCIAS.
POR CUOTAS
 ES UTILIZADO CUANDO SE DESEA TENER UN
CONOCIEMIENTO SOBRE LA OPINIÓN DE UN GRUPO
DE CONSUMIDORES POTENCIALES, SOBRE UN
DETERMINADO PRODUCTO.
CONVENIENCIA
 LA MUESTREA CORRESPONDE A UNA FRACCIÓN O
SEGMENTO DE LA POBLACION, LA CUAL A ASU VEZ
PRODUCE RESULTADOS MUY SESGADOS DEBIDO A
LA ESCASA REPRESENTATIVIDAD QUE PUEDE
PRESENTAR DICHO SEGMENTO
Teorema del límite central
 Si se toma una muestra
aleatoria de n observaciones
de una población normal
con media  y variancia  2,
la media muestral tiene una
distribución normal con
media  y variancia 2/n.
Si se toma una muestra aleatoria de
n observaciones de una población con
distribución desconocida,
la
media
muestral
es
aproximadamente normal con media
 y variancia 2/n cuando n es
grande.
Teorema del límite central:
Si X es la media de una muestra aleatoria de tamaño
n que se toma de una población con media  y
variancia finita  2 , entonces la forma límite de la
distribución de X conforme
n  , es la distribución normal N( , 2/n).
ESTIMACIÓN
Comúnmente, se recolectan datos para obtener información
que permita al investigador estimar el valor de alguna
característica poblacional tal como la media poblacional μ,
o la proporción poblacional .
Un solo número
Un rango de valores posibles
estimación puntual
Estimación por intervalo
Una estimación puntual de una característica poblacional es
un número que se basa en datos muestrales y representa
un valor plausible de la característica.
Una estimación puntual de algún parámetro
poblacional  es un valor único ˆ del
estadístico ˆ .
Ejemplos: x es un estimador puntual de 
s2 es un estimador puntual de  2
Estimación por intervalos de confianza
Estimación por intervalo:
Ofrece un intervalo de valores razonables dentro del cual
se pretende que esté el parámetro de interés, en este
caso la media poblacional, con un cierto grado de
confianza.
Asociado con el intervalo de confianza se encuentra un nivel
de confianza que provee información acerca de cuánta
"confianza" podemos tener en el método utilizado para
construir el intervalo.
Por ejemplo, si se construye un intervalo de
confianza del 95% se estaría utilizando un
método que es exitoso el 95% de las veces.
Por lo tanto, un intervalo de confianza es
simplemente un rango de valores en el que
nosotros confiamos que se contenga el parámetro
poblacional(Altman,1991)
Intervalo de confianza de ,  conocido

1.00
2.00
3.00
4.00
10
12
14
16
Intervalo de confianza del 95%
18
20
P( ˆ - k    ˆ + k) = 1 - 

ˆ
-k
ˆ
ˆ
+k
Si se selecciona una muestra de tamaño n de una población
normal o
Si n es lo suficientemente grande,
De acuerdo con el teorema del límite central, la media
muestral tiene una distribución (aproximadamente) Normal
con media  y variancia  2/n.
Si x es la media de una muestra aleatoria de tamaño n
de una población con variancia 2, el intervalo de
confianza de (1-) % para  es:


P ( x - z
<  < x + z ) = 1 - 
n
n
donde z es el valor de z a la derecha del cual se tiene
un área de .
X
error
x - z

n

x
x - z
Si  es realmente el valor central del intervalo,
X estima a  sin error
Si  es realmente el valor central del intervalo,
X estima a  sin error

n
Intervalo de confianza bilaterales de ,
( conocido)
Coeficiente de
confianza
(1-)
0,90
0,95
0,99

0,10
0,05
0,01
z / 2
Límite inferior de
confianza
(LIC)
1,645
x  1,645
1,960
x  1,960
2,580
x  2,580

n

n

n
Límite superior de
confianza
(LSC)
x  1,645
x  1,960
x  2,580

n

n

n
Cuando n ≥ 30 y no se conoce , se reemplaza en la fórmula  por s
Intervalo de confianza unilaterales de
,  conocido
Coeficiente de
confianza
(1-)

0,90
0,10
0,95
0,99
0,05
0,01
z
1,28
1,645
2,33
Límite inferior de
confianza
(LIC)
x  1,28
x  1,645
x  2,33

n

n

n
Límite superior de
confianza (LSC)
x  1,28
x  1,645
x  2,33

n


n
n
Cuando n ≥ 30 y no se conoce , se reemplaza en la fórmula  por s
Problema
Se sabe que la exposición prolongada al asbesto es un riesgo
sanitario.
El artículo “The acute effects of chrysolite asbestos exposure
on luna function” (Environ. Research, 1978, pp.360-372)
reporta resultados sobre un estudio hecho con base en una
muestra de trabajadores de la construcción, que habían estado
expuestos al asbesto durante períodos prolongados.
Entre la información dada en el artículo se encontraron los
siguientes valores de respuesta pulmonar (cm3/cm H2O) por
cada uno de 32 sujetos, 8 meses después del período de
exposición.
(La respuesta pulmonar es una medida de la elasticidad de
los pulmones, es decir, eficiencia al inhalar y exhalar).
Problema
197.9 180.8 184.8 189.8 194.8 200.2 201.9 206.9
207.2 208.4 226.3 227.7 228.5 232.4 239.8 258.6
201.3 217.4 206.8 199.3 217.6
197.4 202.4 205.5
196.8 222.3 231.4 248.4 239.8 244.3 198.9 210.9
a) Construya un gráfico de caja para este grupo de datos.
b) ¿Es factible que estas observaciones maestrales se hayan
seleccionado de una distribución normal?
c) Calcule un intervalo de confianza de 95% (bilateral) para el verdadero
promedio de respuesta pulmonar, después de tal exposición.
d) Si un trabajo de investigación realizado reportó que la respuesta
pulmonar media de la población no expuesta es de 240 cm3/cm H2O.
¿Están los trabajadores expuestos con algún problema pulmonar?
Problema
Respuesta pulmonar (cm3/cm H2O)
Media
Error típico
212,39
3,34
Mediana
207,05
Moda
#N/A
Desviación estándar
Varianza de la muestra
18,88
356,54
Rango
77,80
Mínimo
180,80
Máximo
258,60
Cuenta
32,00
Problema
Diagrama de caja
270
Mínimo
180,8
260
Q1
199,2
250
Q2 = Mediana
207,1
Q3
226,7
220
Máximo
258,6
210
Barreras
RI
240
230
200
27,5
Q1-1,5 RI
158,0
Q3+1,5 RI
267,8
190
180
170
160
150
N=
32
Capacidad Pulmonar
Problema
Respuesta Pulmonar
12
10
10
9
8
6
6
4
3
3
2
1
0
182,5
197,5
Capacidad Pulmonar
212,5
227,5
242,5
257,5
Frecuencia
Tallo &
3,00
6,00
10,00
3,00
4,00
3,00
2,00
1,00
18
19
20
21
22
23
24
25
.
.
.
.
.
.
.
.
Hoja
049
467789
0112566789
077
2678
129
48
8
Ancho de tallo: 10,00
Cada hoja:
1 caso(s)
Problema
Intervalo de confianza del 95% para la verdadera capacidad pulmonar media
Datos necesarios:
Media ( x ):
212,39
Desvío estándar (s):
18,88
n: 32
z/2: 1,96
250
240
LIC
x  1,96
s
n
 212,39  1.96
LSC
95% IC Capacidad Pulmonar
230
18,88
32
220
 208,85
210
200
N=
x  1,96
s
n
 212,39  1.96
18,88
32
32
Capacidad Pulmonar
 218,94
(208,85 ; 218,94)
Intervalo de confianza para p
(muestras grandes)
Si pˆ es la proporción de éxitos en una


q

1

p
muestra aleatoria de tamaño n y
,
un intervalo de confianza de (1-)% para el
parámetro binomial p está dado por
pˆ  z / 2
pˆ qˆ
n
 p  pˆ  z / 2
pˆ qˆ
n
Donde z/2 es el valor de z que deja un área
de /2 a la derecha
Problema
Se seleccionó una muestra aleatoria de 487 mujeres no
fumadoras de peso normal (índice de masa corporal entre 19.8 y
26.0) que dieron a luz en un gran centro médico metropolitano
(“The effects of cigarette smoking and gestational weight change
on birth outcomes in obses and normal-wight women”, AMER.J. of
Public Health 1997, pp. 591-596).
Se determinó que en el 7.2% de esos nacimientos resultaron
niños de bajo peso al nacer, con menos de 2500 g.
Calcule un intervalo de confianza del 95% para la verdadera
proporción de nacimientos que dan como resultado niños de bajo
peso al nacer.
Problema
Queremos obtener un intervalo de confianza del 95% para la
verdadera proporción de nacimientos que dan como resultado niños
de bajo peso al nacer.
pˆ qˆ
pˆ qˆ
p

z

p

p

z
ˆ
ˆ
 /2
 /2
n
n
La fórmula a utilizar es:
Los datos del problema son:
ˆ = 0,072
p
n=487
Confianza 95% z/2= 1,96
pˆ  z / 2
pˆ qˆ
n
 0,072  1,96
ˆ 1  p
ˆ = 1- 0,072 = 0,928
q
0, 072*0, 928
487
 0,072  0,023
El intervalo de confianza calculado es
(0,049 ; 0,095)
Pruebas de Hipótesis
Objetivo:
Comprobar cierta información
sobre algún parámetro de la
población a partir de los datos
obtenidos en una muestra.
Diseño:
La hipótesis nula
H0:  = 0
La hipótesis alternativa
H1:   0
H1:  > 0
H1:  < 0
Errores Tipo I y Tipo II
Situaciones posibles al probar
una hipótesis estadística
H0 es verdadera
H0 es falsa
Aceptar H0
Decisión correcta
Error tipo II
Rechazar H0
Error tipo I
Decisión correcta
 = Probabilidad (error tipo I)
 = Probabilidad (error tipo II)
1 -  = Potencia de la prueba
Para una media con  conocido
Hipótesis nula:  = 0
Estadístico de prueba
Hipótesis alternativa H1
x  0
z0 

n
Criterio de Rechazo
 0
|z0| > z/2
 > 0
z0 > z
 < 0
z0 < - z
Para una media
Criterio de Rechazo
Hipótesis alternativa H1
|z0| > z/2
 0
Rechazo H0
Rechazo H0
Acepto H0
 z / 2
z / 2
Para una media
Hipótesis alternativa H1
Criterio de Rechazo
z0 <- z
 < 0
Rechazo H0
Acepto H0
 z
Para una media
Hipótesis alternativa H1
 > 0
Criterio de Rechazo
z0 > z
Rechazo H0
Acepto H0
z
Pruebas de hipótesis
– Problema Capacidad pulmonarParámetro de interés: Respuesta pulmonar media.
Hipótesis nula,
H0: µ0=240 cm3/cm H2O
Hipótesis alternativa, H1: µ0≠240 cm3/cm H2O
 = 0,05, z/2 = 1,96
Estadístico de prueba: n=32,  desconocido, z obs 
Región de rechazo: como H1 es  0
Se rechaza H0 si zobs > 1,96 o bien si zobs < -1,96
x  0
s
n
Pruebas de hipótesis
– Problema Capacidad pulmonar-
Parámetro de interés: Respuesta pulmonar media poblacional.
Hipótesis nula,
H0: µ0=240 cm3/cm H2O
Hipótesis alternativa, H1: µ0≠240 cm3/cm H2O
Cálculos:
z obs 
x  0
s
n

212,39  240
18,88
32
 8,27
Conclusión:
Como Zobs = -8,27 < -1,96, se rechaza H0 y se concluye que
los trabajadores expuestos presentan problemas pulmonares,
es decir tienen su respuesta pulmonar significativamente
disminuida respecto de los no expuestos
Para una proporción (muestra grande)
Hipótesis nula: p = p0
Estadístico de prueba
Hipótesis alternativa H1
z0 
x  np 0
np 0 q0
Criterio de Rechazo
p = p0
|z0| > z/2
p > p0
z0 > z
p < p0
z0 < - z
Pruebas de hipótesis –Procedimiento generalSecuencia de pasos que es recomendable seguir al aplicar la
metodología de prueba de hipótesis.
Del contexto del problema, identificar el parámetro de interés
Establecer la hipótesis nula, H0
Especificar una apropiada hipótesis alternativa, H1
Seleccionar el nivel de significancia, 
Establecer un estadístico de prueba apropiado
Establecer una región de rechazo para el estadístico
Calcular todas las cantidades muestrales necesarias, sustituirlas en
al ecuación del estadístico de prueba, y calcular el valor
correspondiente.
Decidir si debe o no rechazar H0 y notificar esto en el contexto del
problema.
Valor p: es la probabilidad de obtener,
cuando H0 es verdadera, un valor de la
estadística de prueba tan extremo o más (en
la dirección adecuada) que el valor calculado
en realidad
RELACIÓN ENTRE INTERVALO DE CONFIANZA
Y TEST DE HIPÓTESIS
Si el intervalo de confianza (1 -  ) % (bilateral)
 pone a
contiene al valor de la media que se
prueba (test de hipótesis con una alternativa
bilateral) entonces no se rechaza la hipótesis nula
a un nivel de significación 