Download Report

Breve manual de Bioestad´ıstica
para las Ciencias de la Salud
Jes´
us Montanero Fern´
andez, Mayo 2015
´Indice general
I
Estad´ıstica Descriptiva
1. Estudio de una variable
1.1. Tablas de frecuencias . . . . . . .
1.2. Representaci´on gr´afica . . . . . .
1.3. Valores t´ıpicos . . . . . . . . . . .
1.3.1. Medidas de centralizaci´on
1.3.2. Medidas de posici´on . . .
1.3.3. Medidas de dispersi´on . .
1.3.4. Medidas de forma . . . . .
9
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
13
17
17
19
20
22
2. Relaci´
on entre variables num´
ericas
2.1. Relaci´on entre dos variables num´ericas . . . . . . . . .
2.2. Diagrama de dispersi´on . . . . . . . . . . . . . . . . . .
2.2.1. Diagrama de dispersi´on simple . . . . . . . . . .
2.2.2. Diagrama de dispersi´on matricial . . . . . . . .
2.3. Coeficientes de correlaci´on y determinaci´on . . . . . . .
2.4. Regresi´on lineal . . . . . . . . . . . . . . . . . . . . . .
2.4.1. Regresi´on lineal m´
ultiple . . . . . . . . . . . . .
2.4.2. Regresi´on no lineal . . . . . . . . . . . . . . . .
2.5. Relaci´on entre una variable num´erica y otra cualitativa
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
29
29
30
30
31
32
35
39
40
42
.
.
.
.
.
.
.
.
.
.
.
49
49
49
51
52
53
55
56
57
58
59
60
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3. Relaci´
on entre variables cualitativas
3.1. Estudio general de las tablas de contingencia . . . . .
3.1.1. Tabla de contingencia . . . . . . . . . . . . . .
3.1.2. Diagrama de barras agrupadas . . . . . . . . .
3.1.3. Coeficiente de contingencia C de Pearson . . .
3.1.4. Tablas 2 × 2. Coeficiente φ . . . . . . . . . . .
3.2. Factores de riesgo . . . . . . . . . . . . . . . . . . . .
3.2.1. Tipos de dise˜
nos . . . . . . . . . . . . . . . .
3.2.2. Medidas de riesgo . . . . . . . . . . . . . . . .
3.3. Diagn´ostico Cl´ınico . . . . . . . . . . . . . . . . . . .
3.3.1. L´ımites de normalidad . . . . . . . . . . . . .
3.3.2. Fiabilidad de un procedimiento de diagn´ostico
II
Inferencia Estad´ıstica
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
65
4. Introducci´
on a la Inferencia Estad´ıstica
67
4.1. Par´ametros poblacionales y muestrales . . . . . . . . . . . . . . . . . . . . . . . 67
4.2. Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.3. Estimaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3
4.4. Contraste de hip´otesis . . . . . . . . . . . . . . . .
4.4.1. El test de Student como ejemplo . . . . . .
4.4.2. Tests param´etricos vs tests no param´etricos
4.4.3. Pruebas de normalidad . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
5. M´
etodos de Inferencia Estad´ıstica
5.1. El problema de correlaci´on-regresi´on . . . . . . . . . . .
5.1.1. Test de correlaci´on . . . . . . . . . . . . . . . . .
5.1.2. Regresi´on m´
ultiple . . . . . . . . . . . . . . . . .
5.2. Relaci´on entre dos variables cualitativas . . . . . . . . .
5.3. Comparaci´on de medias . . . . . . . . . . . . . . . . . .
5.3.1. Test de Student(1) para muestras relacionadas . .
5.3.2. Test de Student(2) para muestras independientes
5.3.3. Anova de una v´ıa . . . . . . . . . . . . . . . . . .
5.4. Otras t´ecnicas m´as avanzadas . . . . . . . . . . . . . . .
5.4.1. An´alisis de la covarianza y anova de dos v´ıas . . .
5.4.2. Regresi´on log´ıstica . . . . . . . . . . . . . . . . .
5.4.3. An´alisis de supervivencia . . . . . . . . . . . . . .
III
Tutorial SPSS
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
71
73
75
76
.
.
.
.
.
.
.
.
.
.
.
.
79
79
79
80
81
83
83
84
85
87
88
90
91
95
Introducci´
on
Este volumen pretende ser un breve manual de iniciaci´on a la Estad´ıstica. En principio,
est´a concebido como apoyo en la docencia de las asignaturas correspondientes a la materia de
Bioestad´ıstica en el Grado de Enfermer´ıa, aunque puede resultar tambi´en u
´til para alumnos
que cursan estudios en cualquier titulaci´on relacionada con las Ciencias de la Salud.
Es un hecho notorio que la Estad´ıstica es demandada por diversas ramas del saber: la
Econom´ıa, las Ciencias Sociales en general, la F´ısica, la Qu´ımica, la Biolog´ıa y la Medicina.
Entendemos por Bioestad´ıstica a la variedad de la Estad´ıstica vinculada a estas dos u
´ltimas
ramas, aunque en nuestro caso nos centraremos mayormente en la sanitaria.
La demanda de la Estad´ıstica por parte de las Ciencias de la Salud viene motivada por la
enorme incertidumbre que presentan los fen´omenos estudiados y que, lejos de reducirse, parece
incrementarse a medida que se profundiza en la investigaci´on. De ah´ı que sea necesario dise˜
nar
t´ecnicas de recogida y tratamiento de datos, con la idea de extraer la mayor informaci´on posible acerca del fen´omeno a estudiar. ¿C´omo recoger los datos y c´omo tratarlos? La respuesta a
esta pregunta es la Estad´ıstica. La siguiente definici´on de Estad´ıstica es debida a Barlett: “La
Estad´ıstica es la Ciencia que nos indica el proceso a seguir en el tratamiento de la informaci´
on
en aquellas circunstancias que envuelve la incertidumbre”. En este modesto manual nos aventuramos con otra: la Estad´ıstica debe entenderse como la metodolog´ıa a seguir para aprender
de las observaciones con el objetivo de explicar los diferentes fen´omenos (biom´edicos en
nuestro caso) excluyendo en lo posible el concepto de azar.
Aunque teor´ıas cient´ıficas vigentes nos disuaden de buscar explicaciones meramente determinidstas de los fen´omenos observables, nos resulta u
´til expresarlos como una composici´on de
una parte determinista y otra sujeta a una incertidumbre (llam´emosla azar) que pretendemos
acotar de la mejor manera posible. En el contexto de las Ciencias de la Salud se precisa pues
de la Bioestad´ıstica cada vez que pretendamos determinar las causas de un fen´omeno biom´edico, salvo un mayor o menor grado de incertidumbre que desear´ıamos eliminar. Estudiemos
primeramente cuatro nociones elementales:
Conceptos b´
asicos
Poblaci´
on: es el objeto del estudio. Se trata de un concepto bastante abstracto y pocas veces
bien definido aunque, en el caso de las Ciencias de la Salud, se suele identificar normalmente
con la acepci´on com´
un del t´ermino, es decir, un amplio colectivo de individuos.
Car´
acter y variable: sobre la poblaci´on se estudiar´an uno o varios caracteres. No daremos
una definici´on de car´acter sino que lo entenderemos como una noci´on com´
un. Son ejemplos de
caracteres el sexo, la edad, el peso, la talla, el nivel de colesterol, etc. La expresi´on de un car´acter
en cada individuo da lugar a una funci´on o aplicaci´on matem´atica que, en este contexto, se
denomina variable estad´ıstica. Se nombra as´ı porque en un ambiente de incertidumbre toma
distintos valores sin que sepamos bien por qu´e. Seg´
un la forma en que expresan los respectivos
caracteres, las variables se clasifican en dos categor´ıas fundamentales:
5
´INDICE GENERAL
6
Cuantitativas o num´ericas: se dice que una variable es cuantitativa cuando mide num´ericamente el car´acter respecto a una unidad de referencia. Son ejemplos de variables cuantitativas la edad medida en a˜
nos, la concentraci´on de colesterol medida en mg/mm, o la
temperatura medida en grados Celsius, la estatura medida en cm, etc.
Cualitativas: se dice que una variable es cualitativa cuando no expresa un car´acter de
forma num´erica sino que distingue entre varias categor´ıas. Son ejemplos de variables
cualitativas el diagn´ostico de un individuo si distinguimos entre sano o enfermo, el tipo
de tratamiento que se va aplicar a un individuo en un ensayo cl´ınico, el grupo sangu´ıneo,
etc.
Simplificando al m´aximo podr´ıamos afirmar que, en un estudio riguroso y en el contexto de
las Ciencias de la Salud, las variables num´ericas se corresponden con mediciones de ciertos
caracteres mientras que las variables cualitativas se asocian mayormente a decisiones humanas.
Desde ese punto de vista, la categorizaci´on de variables num´ericas como, por ejemplo, expresar
la edad no en funci´on de los a˜
nos que se tiene sino respecto a unos intervalos fijados con
anterioridad (de 21 a 30, de 31 a 40, etc) s´olo puede entenderse con una p´erdida de informaci´on.
Adem´as, la elecci´on de los intervalos, que resulta trascendental, suele basarse bien en una
justificaci´on meramente est´etica o bien en el hecho de que otros, con una supuesta autoridad
profesional, los han utilizado con anterioridad. Hay que tener muy presente que, aunque a veces
necesitemos apoyarnos en el principio de autoridad, cuanto m´as lo hagamos m´as nos alejaremos
del rigor matem´atico.
Incidiendo en este tipo de pol´emica, podemos mencionar una tercera categor´ıa que en rigor
pertenece a la segunda pero que en la pr´actica puede recibir el tratamiento estad´ıstico de
la primera. Se trata de las variables ordinales, que expresan un car´acter cualitativo mediante
categor´ıas que presentan un orden o gradaci´on natural. Son ejemplos de variables ordinales
el grado de una enfermedad (nulo, leve, moderado, severo) o el nivel de dolor de un paciente
(bajo, medio, alto). Lo usual es asigna un valor num´erico a dichos niveles empezando por 0
o´ 1 y siguiendo el orden natural. As´ı podemos obtener por ejemplo las escala de dolor EVA.
Cuando se hace uso de una variable de este tipo es necesario que dicha escala est´e validada,
aunque debemos tener presente que dicha validaci´on depende en gran medida del mencionado
principio de autoridad. El programa SPSS denomina nominales a las variables cualitativas puras
para distinguirlas de estas u
´ltimas y, con el mismo fin, denomina de escala a las cuantitativas
puras. Es decir, distingue entre variables nominales, ordinales y de escala. En la pr´actica esta
distinci´on tiene escasa trascendencia porque las variables ordinales acaban trat´andose a todos
los efecto como num´ericas o como cualitativas.
Ejercicio 1. Indica otras tres variables nominales, tres ordinales y tres cuantitativas.
Muestra: ya hemos dicho que sobre una poblaci´on se va a estudiar un cierto car´acter que
dar´a lugar a una variable, den´otese por X, y que la poblaci´on suele ser demasiado grande. Ello
nos obliga a contentarnos con estudiar el car´acter sobre un subconjunto de n individuos de la
poblaci´on. De dicho subconjunto se dice que es una muestra de tama˜
no n. Podemos entender
por muestra tanto a los n individuos como a los n datos correspondientes a la medici´on de la
variable. En todo caso, la letra n queda reservada para denotar el tama˜
no de muestra.
Tipos de estudios
Como ya hemos comentado, nuestro objetivo final es determinar las causas o consecuencias
de un determinado fen´omeno biom´edico, lo cual nos conduce a relacionar las variables que
intervienen en dicho fen´omeno. Esto puede dar lugar a una amplia casu´ıstica seg´
un la naturaleza (cualitativa o cuantitativa) y cantidad de las mismas. Si imponemos una restricci´on a la
´INDICE GENERAL
7
cantidad y nos restringimos al estudio con dos variables, podemos distinguir en una primera
ronda tres posibilidades:
Relaci´on cuantitativa ↔ cuantitativa
Relaci´on cualitativa ↔ cualitativa
Relaci´on cuantitativa ↔ cualitativa
Ejercicio 2. Se pretende estudiar si existe relaci´on entre el sexo y la estatura. ¿A cu´al de los
tres tipos de estudio nos estamos refiriendo? ¿Puedes indicar al memos dos ejemplos de cada
tipo?
Fases del proceso estad´ıstico
En el proceso estad´ıstico podemos distinguir tres fases:
1. Muestreo: selecci´on de la muestra que se analizar´a.
2. Descriptiva: an´alisis particular de los datos de la muestra seleccionada.
3. Inferencia: estudio de la posible generalizaci´on de los resultados obtenidos en la muestra
al global de la poblaci´on.
En la primera y tercera fase es fundamental el concurso del C´alculo de Probabilidades. Esto
es as´ı porque, en rigor, s´olo a partir de una muestra seleccionada aleatoriamente es posible
obtener una extrapolaci´on al global de la poblaci´on de la que procede, que en tal caso se
efectuar´a en t´erminos probabil´ısticos.
Estudio estadístico
Figura 1: Esquema del proceso estad´ıstico
Muestra
Muestreo
Población
Probabilidad
Inferencia
Descriptiva
Descripción
Iniciación a la Investigación en Ciencias de la Salud
Nuestra intenci´on es completar el esquema desde un punto de vista b´asico, lo cual da lugar a
tres tipos de problemas seg´
un hemos indicado antes, aunque pueden ampliarse si se introducen
m´as variables en el estudio. No obstante, en la primera parte del manual nos limitaremos a
un estudio de la relaci´on entre variables desde un punto de vista meramente descriptivo, es
decir, sin a´nimo de extrapolar los resultados al global de la poblaci´on. Se trata pues de una
Estad´ıstica Descriptiva para varias variables (fundamentalmente dos). No obstante y con un
8
´INDICE GENERAL
car´acter meramente preliminar, debemos aprender a describir una u
´nica variable de manera
aislada (cap´ıtulo 1).
La extrapolaci´on de estos resultados al global de la poblaci´on, es decir, la Inferencia Estad´ıstica, as´ı como unas nociones m´ınimas de probabilidad y muestreo, se abordan en la segunda
parte.
Algunas consideraciones de car´
acter did´
actico
La exposici´on de la materia es heterodoxa. Estamos dispuestos a asumir diversas inconsistencias que, desde un punto de vista formal, conlleva esta transgresi´on en aras de facilitar al
alumno el estudio de la Estad´ıstica a nivel b´asico. Concretamente, el concepto de probabilidad se trata fundamentalmente en el cap´ıtulo 4 y a un nivel intuitivo, aunque, realmente, el
concepto ya se adelanta en la primera parte (por ejemplo, en el u
´ltimo apartado de la secci´on
3.3). Nuestra experiencia nos hace entender que un tratamiento riguroso de este concepto es
contraproducente cuando el objetivo es que el alumno aprenda a manejar por s´ı mismo los
m´etodos de an´alisis de datos m´as utilizados en las Ciencias de la Salud.
Como hemos dicho, los m´etodos de Inferencia Estad´ıstica se estudian en un mismo cap´ıtulo, el quinto, donde se muestra mayor inter´es por clasificarlas que por describirlas de manera
exhaustiva. Optamos por esta disposici´on en virtud del papel preponderante que desempe˜
nan
los programas estad´ısticos en el proceso al que se someten los datos. A d´ıa de hoy y para un
usuario de la Estad´ıstica, saber qu´e t´ecnica debemos aplicar y c´omo se interpretan los resultados obtenidos priman sobre los detalles t´ecnicos y c´alculos num´ericos de los procedimientos
utilizados. Es claro que lo ideal ser´ıa dominar todos los aspectos, pero el hecho es que el tiempo
que se asigna a esta materia es limitado y nos hemos decantado por lo primero. El alumno que
pretenda llevar a cabo estudios estad´ısticos de mayor envergadura o entender con mayor rigor
los m´etodos aqu´ı descritos deber´a ampliar su formaci´on. En la bibliograf´ıa indicamos materiales
diversos que pueden ser de utilidad en tal caso.
Por u
´ltimo, se hace referencia en el cap´ıtulo 5 a diversos archivos tipo SPSS que est´an a
disposici´on de los alumnos de la UEx. El SPSS es el software estad´ıstico utilizado en nuestro caso por dos razones: primero, porque resulta muy sencillo de manejar; segundo, porque
esta universidad tiene contratada una licencia para su uso. Por ello, hemos incluido una tercera parte que, a modo de tutorial, recoge algunas capturas de pantallas relacionadas con el
men´
u de SPSS. Tambi´en conviene informar a quien no disponga de dicho programa que podemos ejecutar todos los m´etodos estad´ısticos que estudiamos aqu´ı de una forma muy similar
mediante el paquete Rcomander del programa R, que puede descargarse gratuitamente desde
http://www.r-project.org/. En definitiva, a d´ıa de hoy ya no tiene sentido hacer estad´ıstica
sin un programa adecuado.
Parte I
Estad´ıstica Descriptiva
9
Cap´ıtulo 1
Estudio de una variable
En un sentido muy amplio, la Estad´ıstica Descriptiva es la parte o fase de la Estad´ıstica
dedicada a la descripci´on (entendemos por descripci´on la clasificaci´on, representaci´on gr´afica
y resumen) de un conjunto de n datos. En un contexto m´as general esos n datos constituir´an
una muestra de tama˜
no n extra´ıda de una poblaci´on y la descripci´on de dicha muestra habr´a
de completarse posteriormente con una inferencia o generalizaci´on al total de la poblaci´on.
El presente cap´ıtulo se dedica a la descripci´on de una variable mientras que los dos siguientes abordan el estudio correlativo de dos variables. En todo caso distinguiremos entre la
clasificaci´on de los datos en tablas, la representaci´on gr´afica y el c´alculo de par´ametros que resuman la informaci´on. A su vez, los estudios tendr´an diferentes caracter´ısticas variantes seg´
un
la naturaleza de las variables implicadas.
1.1.
Tablas de frecuencias
La construcci´on de tablas de frecuencias ha sido hasta hace bien poco la fase preliminar
a cualquier estudio descriptivo, utiliz´andose como medio para la elaboraci´on de gr´aficos y el
c´alculo de valores t´ıpicos. Hoy en d´ıa no se entiende el proceso estad´ıstico sin el concurso de
un programa inform´atico que facilita autom´aticamente los gr´aficos y c´alculos deseados, de ah´ı
que las tablas de frecuencia hayan perdido cierto protagonismo.
Una tabla de frecuencias b´asica es el resultado de un recuento, es decir, consiste en determinar qu´e valores concretos se dan en la muestra y con qu´e frecuencia. Se denomina tambi´en
distribuci´on de frecuencias. Veamos una serie de sencillos ejemplo para distintos tipos de variables.
Ejemplo 1: variable cualitativa. En estudio sobre
el grupo sangu´ıneo realizado con n = 6313 individuos se
obtuvo la siguiente tabla de frecuencias:
Grupo i
0
A
B
AB
Total
fi
2892
2625
570
226
6313
Esta tabla puede completarse con una columna donde queden reflejadas las correspondientes
proporciones:
11
CAP´ITULO 1. ESTUDIO DE UNA VARIABLE
12
Grupo i
0
A
B
AB
Total
fi
2892
2625
570
226
6313
pˆi
0,458
0,416
0,090
0,036
1
Los t´erminos fi y pˆi hacen referencia, respectivamente, a los conceptos de frecuencia y proporci´on y se denominan com´
unmente frecuencia absoluta y frecuencia relativa. La frecuencia relativa se expresa en ocasiones mediante un porcentaje, de manera que en nuestro caso tendr´ıamos
45.8 %, 41.6 %, 9.0 % y 3.6 %. El s´ımbolo ∧ que encontramos encima de pi hace referencia al
hecho de que la proporci´on es relativa a la muestra, en contraposici´on con el estudio poblacional
o probabil´ıstico que abordaremos en cap´ıtulos posteriores.
Ejercicio 3. Si repiti´eramos el estudio con otra muestra diferente pero de un tama˜
no similar,
¿cabr´ıa esperar una distribuci´on de frecuencias similar? ¿Por qu´e?
Ejemplo 2: variable cuantitativa. Las edades en a˜
nos en un
grupo de n = 25 estudiantes universitarios son las siguientes: 23,
21, 18, 19, 20, 18, 23, 21, 18, 20, 19, 22, 18, 19, 19, 18, 23, 22, 19,
22 , 21, 18, 24, 24, 20.
Al contrario que en el ejemplo anterior, los datos que obtenemos son num´ericos. Se denotar´a
por x1 el primero de ellos seg´
un el orden en que nos llegan los datos, es decir, en nuestro caso
x1 = 23. As´ı se denotar´a x2 = 21 y sucesivamente hasta llegar a x25 = 20. Para organizar esta
informaci´on debemos considerar el valor m´as peque˜
nos que aparece, en nuestro caso 18. Dicho
valor se denotar´a en lo sucesivo por x1 . Se contabilizar´a el n´
umero de ocasiones en las que se
presenta, el cual ser´a su frecuencia absoluta y se denotar´a por f1 , que en nuestro caso es 6; el
segundo valor es x2 = 19, que aparece f2 = 5 veces y as´ı sucesivamente hasta llegar a x7 = 24
que aparece f7 = 2 veces. En total tenemos n = 25 datos que se distribuyen entre k = 7 valores
diferentes. As´ı pues, obtenemos la siguiente tabla de frecuencias absolutas a la que a˜
nadimos
las frecuencias relativas:
xi
18
19
20
21
22
23
24
Total
fi
6
5
3
3
3
3
2
25
pˆi
0.24
0.20
0.12
0.12
0.12
0.12
0.08
1
La suma de sus respectivas frecuencias absolutas debe ser igual al n´
umero total de datos.
An´alogamente, la suma de sus frecuencias relativas ha de ser igual a 1:
k
X
i=1
fi = n
k
X
pˆi = 1
i=1
N´otese que, al tratarse de datos num´ericos, existe un orden preestablecido en los mismos, cosa
que no suced´ıa en el ejemplo anterior. Eso nos permite construir otra columna, la de frecuencias
´ GRAFICA
´
1.2. REPRESENTACION
13
absolutas acumuladas, donde se anota, para cada valor xj , el n´
umero Fj total de datos menores
o iguales al mismo, es decir,
j
X
Fj =
fi
i=1
A esta columna puede a˜
nad´ırsele la de frecuencias relativas acumuladas que resulta de dividir
las anteriores por el n´
umero total de datos. Cuando no se utilizaban programas estad´ısticos
estas u
´ltimas columnas eran de utilidad en el c´alculo de la mediana.
Hi = Fi /n
xi
18
19
20
21
22
23
24
Total
1.2.
fi
6
5
3
3
3
3
2
25
pˆi
0.24
0.20
0.12
0.12
0.12
0.12
0.08
1
Fi
6
11
14
17
20
23
25
Hi
0.24
0.44
0.56
0.68
0.80
0.92
1
Representaci´
on gr´
afica
El segundo paso del proceso consiste en ilustrar mediante un gr´afico lo obtenido en la tabla
de frecuencias. Existen varios tipos de gr´aficos. El m´as simple es el conocido como diagrama de
sectores. En el caso del ejemplo 1, la tabla de frecuencia quedar´ıa plasmada seg´
un la figura 1.1.
Figura 1.1: Diagrama sectores grupo sangu´ıneo
Para ilustrar la tabla de frecuencias del ejemplo 2 podr´ıamos escoger tambi´en un diagrama
de sectores. No obstante, dado el orden natural que existe en los valores de la variable, se suele
optar por otro tipo de gr´afico denominado diagrama de barras. La figura 1.2 recoge el diagramas
de barras para las frecuencias absolutas.
Ejercicio 4. Explica qu´e te sugiere la figura 1.2.
Los diagramas de barras para las frecuencias relativas ofrecer´ıan un aspecto id´entico al de
los anteriores gr´aficos pero con diferente escala en el eje OY. Las l´ıneas que unen las distintas
barras se denominan pol´ıgonos de frecuencia.
CAP´ITULO 1. ESTUDIO DE UNA VARIABLE
14
Figura 1.2: Diagrama de barras para edad alumnos
6
5
Recuento
4
3
2
1
0
18
19
20
21
22
23
24
Edad
La variable estudiada en el ejemplo 2 admite 7 posibles valores, de ah´ı que el diagrama
de barras resulte muy ilustrativo. Imaginemos por un momento qu´e suceder´ıa si en vez de
cuantificar la edad por a˜
nos cumplidos se midiera por d´ıas, o incluso por segundos. En ese
caso, lo m´as probable ser´ıa que no hubiera dos estudiantes con la misma edad, con lo que la
tabla de frecuencias perder´ıa su sentido u
´ltimo, pues consistir´ıa en una larga ordenaci´on vertical
de los valores obtenidos en la cual todos ellos presentar´ıan frecuencia absoluta 1. El diagrama
de barras resultante se antojar´ıa claramente mejorable en cuanto a su poder ilustrativo. Es lo
que ocurre si, por ejemplo, representamos el diagrama de barras correspondiente a la medici´on
de la colesterolemia (mg/cm3 ) en una muestra de n = 30 individuos, como se aprecia en la
figura 1.3:
Página 1
Figura 1.3: Diagrama de barras para colesterolemia
1,0
Recuento
0,8
0,6
0,4
0,2
0,0
6
27
56
25
34
18
36
96
09
30
7.
74
20
25
72
24
66
50
28
1.
91
20
93
76
95
52
52
94
6.
41
19
55
7
83
75
18
87
8.
49
18
28
5
57
33
99
97
7.
51
18
65
1
34
51
54
29
2.
36
18
04
6
97
34
18
26
1.
90
18
18
1
11
55
93
40
9.
86
17
95
16
95
21
38
64
4.
29
17
03
3
09
84
64
58
3.
85
5
17
12
73
43
90
29
91
0.
6
17
11
68
72
57
40
98
1
4.
34
16
5
6
72
66
21
64
7.
16
15
93
5
51
70
55
50
5.
14
15
20
91
14
2.
13
Por lo tanto, cuando estamos ante un continuo de datos, por as´ı decirlo, y si nuestra intenci´on
es obtener una gr´afico que nos ayude a entender f´acilmente la distribuci´on de los mismos, se
antoja necesario agrupar los datos en clases (intervalos). De esta manera, en la columna de
frecuencias absolutas se contabilizar´a el n´
umero de veces que aparece cada clase. Las dem´as
columnas se elaborar´an a partir de ´esta como ya sabemos. Los gr´aficos correspondientes se
denominan histogramas. En el caso del ejemplo 3 podemos obtener el histograma de frecuencias
absolutas que aparece en la figura 1.4.
En definitiva, agrupar en clases significa simplificar, perder una parte de la informaci´on,
´ GRAFICA
´
1.2. REPRESENTACION
15
Figura 1.4: Histograma para colesterolemia
15
Frecuencia
10
5
0
125
150
175
200
225
Colesterolemia
en aras de una mejor ilustraci´on de la misma. El procedimiento a seguir a la hora de construir las clases y representar los histogramas puede llegar a resultar bastante complejo a la par
que puramente convencional. En Milton (2007) podemos encontrar un algoritmo perfectamente
descrito. En la actualidad, todas las tareas gr´aficas se encomiendan a programas estad´ısticos
que tiene implementados sus propios algoritmos. Por todo ello pasaremos de puntillas por esta
cuesti´on. Tan s´olo destacaremos que el asunto m´as crucial en lo que respecta al aspecto del
gr´afico es el n´
umero de intervalos que debemos considerar. Parece claro que dicho n´
umero debe
guardar alg´
un tipo de relaci´on con el n´
umero total de datos n. Efectivamente, si el n´
umero
de intervalos escogido es demasiado peque˜
no el gr´afico resultara excesivamente simplista, sobresuavizado, como en el gr´afico de la izquierda de la figura 1.5; por contra, si el n´
umero de
intervalos es demasiado grande el histograma resultar´a demasiado abrupto, como en el gr´afico
de la derecha.
Página 1
Figura 1.5: Colesterolemia con 3 y 50 clases
3
20
15
Frecuencia
Frecuencia
2
10
1
5
0
0
125
150
175
200
125
225
150
175
200
225
Colesterolemia
Colesterolemia
Con car´acter orientativo, la ley de Sturges (el programa SPSS no la respeta) sugiere que, si
disponemos de n datos, el n´
umero de intervalos debe ser la parte entera de 1 + log2 n. De esta
forma, si hay entre 16 y 31 datos, se deber´a tomar 5 clases, si hay entre 32 y 63, se tomar´an
6, etc. Insistimos en que esta ley es meramente orientativa. En nuestro caso, quedar´ıa como se
ilustra en la figura 1.6.
Ejercicio 5. Explica qu´e te sugiere la figura 1.6.
Veamos otro ejemplo:
Página 1
Página 1
CAP´ITULO 1. ESTUDIO DE UNA VARIABLE
16
Figura 1.6: Colesterolemia con 6 intervalos
12
10
Frecuencia
8
6
4
2
0
125
150
175
200
225
Colesterolemia
Ejemplo 3: variable cuantitativa continua. La exposici´on
aguda al cadmio produce dolores respiratorios, da˜
nos en los ri˜
nones
y el h´ıgado, y puede ocasionar la muerte. Por esta raz´on se controla
el nivel de polvo de cadmio y de humo de o´xido de cadmio en el
aire. Este nivel se mide en miligramos de cadmio por metro c´
ubico
de aire. Una muestra de 35 lecturas arroja estos datos (Basado en
un informe de Environmental Management, septiembre de 1981):
Cuadro 1.1: Concentraci´on cadmio
0.044 0.030 0.052 0.044 0.046
0.020 0.066 0.052 0.049 0.030
0.040 0.045 0.039 0.039 0.039
0.057 0.050 0.056 0.061 0.042
0.055 0.037 0.062 0.062 0.070
0.061 0.061 0.058 0.053 0.060
0.047 0.051 0.054 0.042 0.051
Página 1
En este caso sucede tambi´en que la variedad de valores posibles es demasiado amplia en
relaci´on con el n´
umero de datos, es decir, que ´estos no se repiten o se repiten demasiado poco
como para que merezca la pena construir una tabla de frecuencias con su correspondiente
diagrama de barras, de ah´ı que optemos tambi´en por un histograma con 5-6 intervalos.
Ejercicio 6. Representar los datos anteriores haciendo uso de una hoja de c´alculo o un programa estad´ıstico.
Aunque no es ´esa la definici´on formal del t´ermino, en el contexto de la Estad´ıstica Descriptiva se denominan continuas las variables num´ericas que precisan de un histograma para
ser representadas, en contraposici´on con las que pueden representarse aceptablemente por un
diagrama de barras, que se denominan discretas. No obstante, el diagrama de barras puede ser
igualmente u
´til para representar variables cualitativas, en especial si son de tipo ordinal. Otro
tipo de gr´afico de gran inter´es en estas situaciones y que guarda gran similitud con el histograma
de frecuencias absolutas es el denominado diagrama tallo-hoja, en el que cada dato se identifica
con una cifra de la derecha que indica el valor de las unidades, siendo la correspondiente a su
izquierda el valor de las decenas. Tambi´en consideraremos los denominados diagrama de caja o
box-plot, pero eso ser´a m´as adelante.
Ejercicio 7. Identificar los datos del ejemplo 3 en el diagrama tallo-hoja de la figura 1.7.
1.3. VALORES T´IPICOS
17
Figura 1.7: Diagrama tallo-hoja para los datos del ejemplo 3
La Campana de Gauss: Para acabar esta secci´on, destacamos que histogramas como el de
la figura 1.6 sugieren un tipo de curva muy bien caracterizada que denominamos curva normal
o campana de Gauss. Concretamente, en casos como estos solemos afirmar que los datos se
ajustan aproximadamente a un modelo de distribuci´on tipo normal. Hablamos de tipo porque no
se trata de un modelo u
´nico sino de una familia que depende de dos par´ametros. Variables que
se ajustan aproximadamente a un modelo normal son relativamente frecuentes en la naturaleza, de ah´ı que la curva normal desempe˜
ne un papel destacado en la Estad´ıstica. Fue estudiada
inicialmente por Laplace y Gauss. Ambos se ocupaban de problemas de astronom´ıa y en ambos
casos una distribuci´on normal explic´o el comportamiento de los errores en medidas astron´omicas. La aplicaci´on de la distribuci´on normal no qued´o reducida al campo de la astronom´ıa. Las
medidas f´ısicas del cuerpo humano o de un car´acter ps´ıquico en una poblaci´on, las medidas
de calidad de productos industriales y de errores en procesos f´ısico-qu´ımicos de medici´on en
general, se distribuyen con frecuencia seg´
un un modelo de campana de Gauss. Desde un punto
de vista te´orico es el denominado Teorema Central del L´ımite el que confiere a la distribuci´on
´
normal un papel preponderante en la Estad´ıstica. Este
viene a decirnos, en t´erminos intuitivos,
lo siguiente: una variable cuyo resultado se debe a una suma de causas independientemente y
de similar importancia se distribuye aproximadamente seg´
un un modelo de distribuci´on tipo
normal.
1.3.
Valores t´ıpicos
El tercer paso del proceso descriptivo consiste en calcular una serie de n´
umeros cuyo prop´osito es sintetizar la informaci´on que aportan los n datos de la muestra considerada. Los valores
t´ıpicos son, precisamente, esos n´
umeros que pretenden caracterizar la muestra. Esta fase del
estudio s´olo tiene sentido cuando la variable estudiada es cuantitativa. Distinguiremos entre
medidas de centralizaci´on, medidas de posici´on, medidas de dispersi´on y medidas de forma:
1.3.1.
Medidas de centralizaci´
on
Las m´as importantes sin duda aunque por s´ı mismas no suelen bastar para resumir la
informaci´on. La idea puede ser la siguiente: si pretendemos explicar la mayor parte posible de
informaci´on con un u
´nico n´
umero, ¿cu´al escogemos? Buscamos pues un n´
umero representativo,
un valor central en alg´
un sentido. De todos los que mencionaremos a continuaci´on, los que
realmente nos interesan son la media aritm´etica y la mediana.
Moda: es el valor de la muestra que m´as se repite.
CAP´ITULO 1. ESTUDIO DE UNA VARIABLE
18
Media aritm´
etica: es el valor central en sentido aritm´etico. Se obtiene sumando los n datos
de la muestra y dividi´endolos por el tama˜
no de ´esta, es decir,
x=
Pn
i=1 xi
n
donde cada dato xi aparece en el sumatorio tantas veces como se repita en la muestra, es decir,
si los datos est´an agrupados en una tabla de frecuencias, se puede calcular tambi´en de la forma:
Pk
x=
i=1
n
xi fi
=
k
X
xi pˆi
(1.1)
i=1
Como podemos apreciar en la expresi´on anterior, a cada dato xi se le asigna un peso pˆi equivalente a la proporci´on que representa en la muestra. Podemos establecer una analog´ıa entre la
media aritm´etica y el concepto f´ısico de centro de gravedad, es decir, la media aritm´etica puede
entenderse como el centro de gravedad de los datos de la muestra, y como tal puede verse muy
afectada ante la presencia de valores extremos.
nos. La media se
En el ejemplo 2 de las edades de 25 estudiantes tenemos x = 20.36 a˜
expresa, l´ogicamente, en las mismas unidades que los datos originales. Indicar dicha unidad es
aconsejable. El hecho de que los datos est´en agrupados en intervalos, como ocurre en el ejemplo
3, no debe afectar al c´alculo de la media. Es decir, la media debe calcularse a partir de los
datos originales sin agrupar. En ese ejemplo, obtenemos precisamente x = 0.0493.
Ejercicio 8. Qu´e le sucede a la media aritm´etica si a todos los datos les sumamos una misma
cantidad k? ¿Y si los multiplicamos por una misma cantidad k?
Ejercicio 9. ¿Es cierto que sumar n datos es equivalente a sumar la media de los mismos n
veces?
Ejercicio 10. Averigua qu´e entendemos por esperanza de vida.
Media geom´
etrica: es el valor central en el sentido del producto, pues se define como la
ra´ız n-´esima del producto de los datos de la muestra.
Media truncada: es la media aritm´etica que se obtiene una vez se han excluido el 5 % de
datos m´as extremos.
Mediana: es el valor central x˜ en el sentido del orden, es decir, aqu´el que quedar´ıa en el
medio una vez ordenados los datos de menor a mayor, repiti´endose si es necesario tantas veces
como aparezcan en la muestra. Para calcularla basta pues con ordenar los datos y determinar la
posici´on del medio. Si el n´
umero de datos n es impar no cabe duda de que la mediana es el dato
n+1
que ocupa la posici´on 2 . Si n es par tenemos un conflicto que puede resolverse mediante un
convenio: definir la mediana como la semisuma de los datos que ocupen las posiciones n2 y n2 +1.
En este proceso puede ser de utilidad la columna de las frecuencias absolutas acumuladas o
un diagrama tallo-hoja. De todas formas, si la muestra es grande estas u
´ltimas consideraciones
resultan irrelevantees, m´axime si delegamos el c´alculo en un programa estad´ıstico. En el ejemplo
2, el valor mediano es 20, que ocupa la posici´on 13. En el ejemplo 3 tenemos x˜ = 0.051, que
ocupa la posici´on 17.
Al contrario de lo que sucede con la media, la mediana es robusta en el sentido de que no
se ve seriamente afectada por la presencia de valores extremos. Efectivamente, es obvio que
podemos reemplazar el valor mayor de la muestra por otro mucho m´as grande sin que ello
1.3. VALORES T´IPICOS
19
Figura 1.8: Volumen tumor
40,0
Frecuencia
30,0
20,0
10,0
0,0
,00
10,00
20,00
30,00
40,00
50,00
Volumen tumor
afecte a la mediana. Esta cualidad podr´ıa considerarse negativa por denotar un car´acter menos
informativo que la media pero tambi´en puede resultar positiva cuando una clara asimetr´ıa con
presencia de valores extremos desplaza fuertemente la media rest´andole representatividad. Es
lo que puede suceder en un caso como el de la figura 1.8, en el que se recogen el volumen de
un tumor de pr´ostata de n = 97 pacientes. De este tipo de distribuci´on asim´etrica se dice que
tiene un sesgo positivo o hacia la derecha.
Ejercicio 11. ¿Qu´e relaci´on se da entre la media y la mediana si el sesgo es positivo, es decir,
cu´al es mayor? ¿Qu´e relaci´on se dar´a entre la media y la mediana si la distribuci´on es normal?
Ejercicio 12. Calcula la media y la mediana del siguiente conjunto de datos: 8,0,10,9,9.
1.3.2.
Medidas de posici´
on
Página 1
Se trata de una serie de n´
umeros que dividen la muestra ordenada en partes con la misma
cantidad de datos. La principal medida de posici´on ya la hemos estudiado: la mediana, pues
divide la muestra en dos mitades. Efectivamente, sabemos que el 50 % de los datos debe ser
inferior a la mediana y el resto superior.
Cuartiles: si pretendemos dividir la muestra ordenada en cuatro partes iguales obtenemos
los denominados cuartiles, que se denotan por Q1 , Q2 y Q3 . El primero deja a su izquierda (o
debajo, seg´
un se prefiera) el 25 % de los datos; el segundo deja a la izquierda el 50 %, por lo que
se trata de la propia mediana; el tercero deja a la derecha el 25 %. Respecto al c´alculo de Q1 y
Q3 , lo ideal es encomendarse a un programa estad´ıstico. Si no se cuenta con ´el convenimos, por
ejemplo, lo siguiente: para una muestra de tama˜
no n y ordenada de menor a mayor Q1 ser´a el
dato que tenga por posici´on la parte entera de n/4. Q3 ser´a el datos que ocupe esa posici´on
pero contando desde el final.
Deciles Si dividimos la muestra en diez partes iguales obtenemos los denominados deciles
que van de D1 a D9 . Obviamente, la mediana coincidir´a con el el decil D5 .
Percentiles Si dividimos la muestra en 100 partes iguales, obtendremos los percentiles, que
van de p1 a p99 . De nuevo, la mediana coincide con el percentil 50 y los cuartiles Q1 y Q3
CAP´ITULO 1. ESTUDIO DE UNA VARIABLE
20
con p25 y p75 , respectivamente. Los percentiles se utilizan mucho en pediatr´ıa para analizar el
crecimiento de los reci´en nacidos.
En general, podemos hablar de los cuantiles. Dado un valor γ en el intervalo (0, 1), el cuantil
γ se define como el valor que deja a su izquierda el γ × 100 % de los datos. De esta forma,
el decil D2 ser´ıa el cuantil 0.20, por ejemplo. Hemos de tener en cuenta que s´olo para una
muestra amplia (la cual hace imprescindible el uso de un programa estad´ıstico) tiene sentido
considerar divisiones finas de la misma. Por ello, si contamos con pocos datos es absurdo hablar
de percentiles, o incluso de deciles.
1.3.3.
Medidas de dispersi´
on
Tienen por objeto completar la informaci´on que aportan las medidas de centralizaci´on pues
miden el grado de dispersi´on de los datos o, lo que es lo mismo, la variabilidad de la muestra.
Las fundamentales son la desviaci´on t´ıpica y el rango intercuart´ılico.
Rango: es el m´as inmediato pues expresa la diferencia entre el valor mayor y el menor. En
el ejemplo 2 ser´ıa igual a 24 − 18, es decir, 6.
Varianza: nos da una medida de dispersi´on relativa al tama˜
no muestral de los distintos datos
respecto a la media aritm´etica x. Una primera definici´on es la siguiente:
Pn
(xi − x)2
2
s = i=1
n
El hecho deP
elevar las diferencias respecto a x al cuadrado se debe a que, como es f´acil de
comprobar, ni=1 (xi −x) = 0, pues los datos que quedan a la derecha de la media se compensan
con los que quedan a su izquierda. Se podr´ıa haber optado por considerar el valor absoluto
de las diferencias, lo cual dar´ıa a lo que se conoce como desviaci´on media, pero eso generar´ıa
numerosos inconvenientes de ´ındole matem´atica. Si los datos est´an tabulados, la expresi´on
anterior equivale a la siguiente:
k
X
2
(1.2)
s =
(xi − x)2 pˆi
i=1
El c´alculo de la varianza lo encomendamos el programa estad´ıstico. En el ejemplo 2, de las
edades en a˜
nos de 25 alumnos, se obtiene una varianza s2 = 4.157 a˜
nos2 .
Desviaci´
on t´ıpica: podemos observar que en la varianza anterior las unidades originales se
perdieron por la necesidad de elevar al cuadrado las diferencias. Para recuperarlas basta con
efectuar la ra´ız cuadrada de la varianza obteniendo lo que denominamos desviaci´on t´ıpica, que
se denotar´a por s. As´ı pues,
r Pn
2
i=1 (xi − x)
s=
n
No obstante, con vista a una posterior Inferencia Estad´ıstica, tanto la varianza como la
desviaci´on t´ıpica aparecen por defecto divididas por n − 1 en vez de n, lo cual es apenas
apreciable cuando n es grande, por o que no debe desviar nuestra atenci´on de la esencia del
par´ametro. En el ejemplo 2 obtenemos s = 2.039 a˜
nos.
Ejercicio 13. ¿Puede ser negativa la desviaci´on t´ıpica? ¿C´omo se interpreta una desviaci´on
t´ıpica nula?
Ejercicio 14. ¿Qu´e le sucede a la desviaci´on t´ıpica si a todos los datos les sumamos una misma
cantidad k? ¿Y si los multiplicamos por una misma cantidad k?
1.3. VALORES T´IPICOS
21
Ejercicio 15. Se denomina tipificaci´on o estandarizaci´on a la acci´on de restar a cada dato xi
de la muestra la media aritm´etica y, posteriormente, dividir el resultado entre la desviaci´on
t´ıpica, es decir, calcular
xi − x
zi =
(1.3)
s
¿Cu´ales ser´an entonces la media y la desviaci´on t´ıpica de los datos tipificados? ¿En qu´e dimensiones se expresar´an?
La desviaci´on t´ıpica funciona como complemento de la media dado que, mientras la u
´ltima
indica el centro aritm´etico de los datos, la primera expresa el grado de dispersi´on respecto a
dicho centro. De esta forma, el par de n´
umeros (x, s) pretende resumir la informaci´on contenida
en los n datos de la muestra. En concreto, si nuestros datos se distribuyeran seg´
un una distribuci´on normal, el mero conocimiento de x y s permitir´ıa reproducir con exactitud el histograma.
As´ı, ocurre por ejemplo que entre los valores x − s y x + s se encuentra una proporci´on muy
cercana al 68 % de los datos, o que entre x − 2 · s y x + 2 · s se encuentra una proporci´on muy
cercana al 95 %. En ese sentido afirmamos que el par (x, s) resume perfectamente la informaci´on contenida en una muestra cuando los datos de la misma se distribuyen seg´
un una curva
normal. Entendemos tambi´en que, a medida que nos alejamos de dicho modelo el par, anterior
pierde su capacidad de s´ıntesis. De hecho, sabemos que en determinadas situaciones la media
aritm´etica puede considerarse menos representativa que la mediana. En tal caso necesitamos
una medida de dispersi´on que complemente dicho valor central.
Rango intercuart´ılico o amplitud intercuartil: pretende ser un complemento adecuado
a la mediana. Est´a basado al igual que ´esta en el orden de los datos y se define mediante
RI = Q3 − Q1 . En el caso de los datos del ejemplo 2, obtenemos RI = 2.
A partir de los cuartiles y el rango intercuart´ılico podemos construir un gr´afico denominado
de cajas o box-plot, muy utilizado. Se trata de una caja cuyos bordes son los cuartiles primero
y tercero, con una linea gruesa a la altura de la mediana. Conociendo el rango intercuart´ılico
se determinan unos l´ımites (distan del los cuartiles Q1 y Q2 1.5 veces el rango intercuart´ılico) a
partir de los cuales los valores se considerar´an extremos y se marcan los valores no extremos m´as
pr´oximos a dichos l´ımites. Los valores que queden fuera de esos l´ımites o vallas se representar´an
mediante c´ırculos o asteriscos seg´
un el grado de extremismo que alcancen.
Figura 1.9: Box plot para volumen tumor
50,00
94
Volumen tumor
40,00
97
30,00
86
55
91
76
20,00
75
10,00
,00
En definitiva, si pretendemos resumir lo mejor posible la informaci´on contenida en la muestra
debemos escoger al menos una medida de centralizaci´on junto con otra de dispersi´on. Lo m´as
frecuente es considerar el par (x, s). Esta opci´on es la ideal en el caso de que los datos se distribuyan seg´
un una curva normal. A medida que nos diferenciamos de ese modelo de distribuci´on
la media adolece de falta de representatividad y el par anterior pierde su capacidad de resumen.
La otra opci´on es el par (˜
x, RI ). Nos decantaremos por esta opci´on cuando observemos una
fuerte asimetr´ıa con presencia de valores extremos. Esta elecci´on deber´ıa ir acompa˜
nada del
uso de t´ecnicas no param´etricas en la posterior inferencia (cap´ıtulo 5).
Página 1
CAP´ITULO 1. ESTUDIO DE UNA VARIABLE
22
Por ejemplo, en el siguiente cuadro se muestra una descriptiva b´asica de cinco variables
medidas en mujeres de unos 20 a˜
nos, distinguiendo entre celiacas y no celiacas:
Cuadro 1.2: Ejemplo descriptiva b´asica
Celiaquia
Media
Menarquía años
Talla en cm
Sana
Celiaca
Desviación
típica
Desviación
típica
12.74
1.48
N válido
Media
N=79
13.33
1.90
N válido
N=78
163.94
5.12
N=79
164.20
5.59
N=78
Antigladina IgG
4.25
1.10
N=79
8.29
4.19
N=78
Antigladina IgA
25.65
10.95
N=79
41.35
12.69
N=78
Hemoglobina g/dl
14.31
2.35
N=79
10.93
3.35
N=78
Coeficiente de variaci´
on: se trata de un coeficiente adimensional relacionado con la media
y la desviaci´on t´ıpica que es de gran utilidad para comparar la dispersi´on de distintos grupos de
datos, dado que nos da una medida de la dispersi´on de los datos relativa al orden de magnitudes
que estos presentan. Concretamente, se define mediante
C.V. =
s
× 100.
x
Ejercicio 16. Se tienen 30 datos num´ericos correspondientes a la medici´on del peso en kg.
de 30 individuos. ¿En qu´e dimensiones se expresar´an la media aritm´etica, varianza, desviaci´on
t´ıpica y coeficiente de variaci´on?
Ejercicio 17. Considera los dos grupos de datos (a) y (b) siguientes: (a)1.80, 1.79, 1.77,
1.83, 1.52. (b) 180, 179, 177, , 183, 152. ¿Tienen la misma media?¿Tienen la misma desviaci´on
t´ıpica?¿Tienen en com´
un alg´
un par´ametro descriptivo de los considerados anteriormente?
1.3.4.
Medidas de forma
Por u
´ltimo, mencionaremos dos par´ametros que pretenden dar cierta idea de la forma en la
que se distribuyen los datos. Deben guardar pues una estrecha correspondencia con lo observado
en los histogramas, diagramas tallo-hoja y diagramas de caja. Las dos medidas que definimos
a continuaci´on son muy dif´ıciles de calcular si no se hace uso de un programa estad´ıstico. Pero
lo que nos interesa de ellas no es su c´alculo sino su interpretaci´on.
Coeficiente de asimetr´ıa: es, como su propio nombre indica, una medida del grado de
asimetr´ıa o sesgo que se da en la distribuci´on de los datos. Se define mediante
Pn
(xi − x)k
m3
g1 = 3 , siendo mk = i=1
, k = 1, 2, 3...
s
n
Página 1
Distinguimos a grandes rasgos tres situaciones:
1. g1 > 0: Distribuci´on asim´etrica de los datos con sesgo positivo (figura 1.8).
2. g1 < 0: Distribuci´on asim´etrica con sesgo negativo.
3. g1 = 0: Distribuci´on sim´etrica.
1.3. VALORES T´IPICOS
23
Coeficiente de aplastamiento o de Curtosis: expresa el grado de aplastamiento de una
distribuci´on sim´etrica respecto al que corresponder´ıa a una distribuci´on normal con su media
y desviaci´on t´ıpica, de manera que un valor 0 equivale a una campana de Gauss, mientras que
un valor negativo indica un aplastamiento excesivo. Un valor positivo indica lo contrario.
Otras cuestiones propuestas
Ejercicio 18. Se midi´o, a trav´es de cierto aparato, una determinada variable bioqu´ımica,
obteniendo un total de 146 datos num´ericos, que presentaron una media aritm´etica de 4.2 y
una desviaci´on t´ıpica de 1.1, en las unidades de medida correspondientes. Tras representar el
histograma de frecuencias absolutas, se comprob´o que los datos configuraban aproximadamente
una Campana de Gauss.
Indica un intervalo que contenga aproximadamente al 68 % de los datos.
Se averigua posteriormente que el aparato de medida comete un error sistem´atico consistente en indicar, en todo caso, media unidad menos que el verdadero valor de la variable.
¿Cu´ales ser´an entonces la media aritm´etica y desviaci´on t´ıpica de los 146 verdaderos
valores?
Ejercicio 19. Se mide cierta variable sobre una muestra de 10 individuos, obteni´endose los
siguientes datos.
4 5 4.5 3.9 5.2 4 5.2 5.3 23 4.1
Dar una medida de centralizaci´on y otra de dispersi´on adecuadas.
Ejercicio 20. Indica dos grupos, de 5 datos cada uno, que presenten...
La misma media pero distinta desviaci´on t´ıpica.
La misma desviaci´on t´ıpica pero distinta media.
La misma mediana y distinta media.
La misma media y distinta mediana.
Ejercicio 21. Los individuos A y B manejan un ec´ografo. Se pretende dilucidar cu´al de los dos
tiene mayor precisi´on a la hora de efectuar mediciones. Para ello se asigno a A la medici´on de un
mismo objeto en 10 ocasiones diferentes, anot´andose los resultados. Al individuo B se le asigna
un objeto diferente que mide en otras 10 ocasiones. Razona qu´e par´ametro (o par´ametros)
estad´ıstico consideras m´as apropiado para efectuar la comparaci´on.
Ejercicio 22. Razona si son verdaderas o falsas cada una de las siguientes afirmaciones:
Si una muestra de datos presenta media 0, su desviaci´on t´ıpica ser´a peque˜
na.
Cuanto mayor es el tama˜
no de la muestra, mayor es su varianza.
Cuanto mayor es el tama˜
no de la muestra, mayor es su media.
Si g1 ' 0 la media y la mediana deben ser parecidas.
Ejercicio 23. La siguiente tabla representa el n´
umero de infartos de miocardio por d´ıa que se
atendieron en un servicio especializado durante 30 d´ıas:
Infartos 0 1 2 3 4 5 6
fi
2 3 8 11 2 3 1
24
CAP´ITULO 1. ESTUDIO DE UNA VARIABLE
a) Representar el diagrama de barras para frecuencias absolutas y frecuencias absolutas
acumuladas.
b) Calcular la media, varianza, desviaci´on t´ıpica y coeficiente de variaci´on de los datos
anteriores.
c) Calcular la mediana y el rango intercuart´ılico.
Ejercicio 24. Se ha desarrollado una nueva vacuna contra la difteria para aplicarla a ni˜
nos.
El nivel de protecci´on est´andar obtenido por antiguas vacunas es de 1 µg/ml un mes despu´es
de la inmunizaci´on. Se han obtenido estos datos del nivel de protecci´on de la nueva vacuna al
transcurrir un mes: (Basado en un informe del Journal of Family Practice, enero 1990.)
12.5 13.5 13 13.5 13
12.5 13.5 14 13.5 13
13
14 14.5 13
12
13.5 13.5 12.5 12.5 12.5
a) Representa el diagrama de barras para las frecuencias relativas acumuladas.
b) Calcula la media, mediana, desviaci´on t´ıpica y rango intercuart´ılico.
c) ¿Qu´e proporci´on de datos son inferiores o iguales a 13?
Ejercicio 25. Considerar los datos del ejemplo 3.
a) Obtener mediante la calculadora cient´ıfica los valores de la media artim´etica, la desviaci´on
t´ıpica y el coeficiente de variaci´on.
b) Obtener, a partir del diagrama tallo-hoja, la mediana y el rango intercuart´ılico.
c) Indica un par de n´
umeros que resuman lo mejor posible esos 35 datos.
d) Razona cu´al debe ser el signo del coeficiente de simetr´ıa. ¿Y el del coeficiente de aplastamiento?
Ejercicio 26. Los datos del siguiente diagrama tallo-hoja corresponden a la concentraci´on de
mercurio [µgr/cm3 ] en la sangre de 25 individuos de una zona contaminada. Se utiliza como
unidad 1:
0 8
1 0 2
2 0 5 7
3 0 2 5 5 6 6 8
4 0 0 1 4 5 5
5 0 2 3
6 1 2
7 0
Calcula la moda, media, mediana, desviaci´on t´ıpica y rango intercuart´ılico de estos 25 datos.
¿Qu´e par de valores consideras que resumen adecuadamente la informaci´on de toda la muestra?
¿Por qu´e? ¿Qu´e valores cabe esperar para los coeficientes de simetr´ıa y aplastamiento?
Ejercicio 27. Considera los dos diagramas de cajas de la figura 1.10, correspondiente a la
puntuaci´on de ansiedad de Hamilton sobre 20 individuos que viven solos y otros 20 que viven
acompa˜
nados. ¿Con qu´e diagrama tallo-hoja de la figura 1.11 se identifica cada grupo? Indica
un par de medidas que resuma lo mejor posible la informaci´on que aportan los 20 datos. ¿Qu´e
podemos decir del coeficiente de asimetr´ıa?
1.3. VALORES T´IPICOS
25
Figura 1.10: Puntuaci´on de ansiedad de Hamilton
Puntuación de ansiedad de Hamilton
20,0
15,0
5
10,0
5,0
0,0
Viven solos
Viven acompañados
Estilo de vida
Figura 1.11: Diagramas Tallo-hoja
Página 1
Ejercicio 28.
En una zona boscosa cerca de Seattle se tomaron 35 medidas de concentraciones de ozono
(partes por bill´on), obteni´endose los siguientes resultados de la figura 1.12 y el cuadro ??.
Comentar, a la luz de los gr´aficos y los coeficientes de forma, los aspectos m´as destacados de
la distribuci´on de los datos y seleccionar un par de par´ametros que resuman lo mejor posible
la informaci´on que contiene la muestra.
Ejercicio 29. El conjunto de cinco datos {2.1, 3.4, 1.6, 7.8, 4.2} posee media aritm´etica 3.8
y desviaci´on t´ıpica 2.5 (redondeando a un decimal).
Indica la mediana.
Indica un conjunto de cinco datos cuya media aritm´etica sea 0 y cuya desviaci´on t´ıpica
sea 1. Es aconsejable aprovechar los datos anteriores.
Ejercicio 30. Se midi´o el peso en kg de 500 varones reci´en nacidos despu´es de la semana 38
de gestaci´on. Los resultados aparecen en la figura 1.13. Comentar los aspectos gr´aficos m´as
destacados e indicar un par de medidas que resuman satisfactoriamente la informaci´on que
CAP´ITULO 1. ESTUDIO DE UNA VARIABLE
26
Figura 1.12: Concentraci´on de ozono
220
20
210
35
Concentración de Ozono
Frecuencia
15
10
200
190
180
5
170
0
160
170
180
190
200
210
220
160
Concentración de Ozono
Cuadro 1.3: Concentraci´on de ozono
Página 1
Página 1
aporta la muestra. Dar un valor aproximado para la mediana y para el percentil p84 . Razonar
si deben aparecer valores extremos en el diagrama de caja.
Ejercicio 31. Un total de 100 jugadores lanza tres dados cada uno y suman sus puntuaciones,
obteni´endose por lo tanto 100 n´
umeros entre el 3 y el 18 cuyo histograma se representa en la
figura 1.14. ¿C´omo se explica a nivel intuitivo que los datos se ajusten aproximadamente a una
curva normal? Seg´
un el gr´afico, ¿cu´al es aproximadamente el valor de la media? ¿Y el de la
mediana? ¿Y el de la desviaci´on t´ıpica?
Ejercicio 32. Tipifica (ver (1.3)) los valores correspondientes al peso en kg de 10 personas:
35,92,71,64,72,101,45,83,60,72. ¿C´omo se interpreta una puntuaci´on tipificada positiva? ¿Y
negativa? ¿Cu´ales ser´an las puntuaciones tipificadas de los mismos datos expresados en gramos?
Ejercicio 33. Cuando los datos de una variable se ajustan aproximadamente a un modelo de
distribuci´on normal, la distribuci´on de las puntuaciones tipificadas sigue a su vez un modelo
de distribuci´on que se denomina normal est´andar, cuya media es 0 y cuya desviaci´on t´ıpica es
1.3. VALORES T´IPICOS
27
Figura 1.13: Peso reci´en nacidos
Figura 1.14: Suma de tres dados n = 100
40,0
Frecuencia
30,0
20,0
10,0
0,0
0
5
10
15
20
Suma
1. El modelo se denota por N (0, 1). Es frecuente en general calificar como extremos a los datos
m´as alejados del centro de la distribuci´on hasta completar un 5 %. Si la distribuci´on es del
tipo campana de Gauss, ser´an entonces calificados como extremos los datos cuya distancia a la
media sea superior al doble de la desviaci´on t´ıpica. ¿Por qu´e? ¿C´omo debe ser la puntuaci´on
tipificada de un dato extremo en una campana de Gauss, es decir, qu´e caracteriza a los valores
extremos en una distribuci´on normal est´andar?
Página 1
Figura 1.15: Distribuci´on N (0, 1)
95 %
Extremos
2.5 %
-2
Extremos
2.5 %
2
28
CAP´ITULO 1. ESTUDIO DE UNA VARIABLE
Cap´ıtulo 2
Relaci´
on entre variables num´
ericas
Si en el cap´ıtulo anterior se afrontaba el estudio descriptivo de una variable (cualitativa o
cuantitativa), en el presente se aborda el estudio conjunto de varias variables. Nos centraremos
aqu´ı principalmente en el caso de dos variables num´ericas, aunque tambi´en consideraremos el
estudio conjunto de m´as de dos e, incluso, introduciremos una variable cualitativa en la u
´ltima
secci´on. El objetivo es analizar la posible relaci´on entre las variables consideradas. En general,
entendemos que entre dos variables, num´ericas o no, existe relaci´on o dependencia cuando un
cambio en el valor de una de ellas se asocia a un cambio en el de la otra. La situaci´on contraria,
es decir, la ausencia de relaci´on, se denomina independencia. Por ejemplo, nada nos hace pensar
que un valor mayor o menor en la u
´ltima cifra del DNI se asocie a un valor mayor o menor
en la concentraci´on de plaquetas en la sangre, por lo que, en principio, podemos pensar que
ambas variables son independientes. Sin embargo, s´ı cabe pensar que existe relaci´on entre la
talla de un individuo y su peso porque un talla elevada se asocia a un peso mayor.
Para llevar a cabo el estudio de relaci´on entre las variables es preciso efectuar un an´alisis previo de las mismas por separado seg´
un vimos en el cap´ıtulo anterior. El estudio de la
relaci´on entre variables cualitativas lo abordaremos en el siguiente cap´ıtulo. En buena l´ogica, deber´ıamos dedicar otro cap´ıtulo m´as a la relaci´on entre una variable cualitativa y otra
num´erica, pero este tema se tratar´a de manera m´as exhaustiva en la segunda parte del manual.
En esta primera parte nos contentaremos con una breve introducci´on que incluiremos al final
del presente cap´ıtulo. Dado que nos encontramos en un contexto descriptivo, el an´alisis de los
datos pasa en principio por organizarlos en tablas, representarlos gr´aficamente y calcular los
respectivos valores t´ıpicos aunque, dado el tipo de gr´afico que vamos a utilizar, la tabulaci´on
no tiene mayor inter´es.
2.1.
Relaci´
on entre dos variables num´
ericas
Supongamos que contamos con n individuos o unidades experimentales sobre los que se
miden num´ericamente dos caracteres, dando lugar a sendas variables cuantitativas X e Y . De
la medici´on de dichos caracteres sobre las unidades experimentales resultar´an n pares de datos
num´ericos, que se denotar´an as´ı: (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ). La primera componente del par
(xi , yi ), es decir, el valor xi , corresponde a la medici´on de X en la i-´esima unidad experimental
y la segunda corresponde a la variable Y . Veamos un ejemplo de car´acter did´actico con una
peque˜
na muestra de tama˜
no n = 12:
Ejemplo 4: dos variables cuantitativas. Se indica a continuaci´on el
peso (kg) y la estatura (cm) de 12 personas (no se especifica edad, sexo ni
ning´
un otro aspecto):
X =peso(kg)
Y =altura(cm)
80 45 63 94 24 75 56
174 152 160 183 102 183 148
29
52 61 34 21 78
152 166 140 98 160
´ ENTRE VARIABLES NUMERICAS
´
CAP´ITULO 2. RELACION
30
El estudio debe empezar con una estad´ıstica descriptiva de cada variable por separado, que
deber´ıa incluir sendos histogramas, as´ı como al menos una medida de centralizaci´on y otra de
dispersi´on (en principio estamos pensando en la media y la desviaci´on t´ıpica). A continuaci´on,
nos dedicamos al estudio descriptivo de la relaci´on entre ambas variables.
2.2.
Diagrama de dispersi´
on
As´ı pues, lo primero que nos interesa realmente el la representaci´on gr´afica de la muestra.
Esta tarea debe encomendarse a un programa estad´ıstico aunque, en este caso y dado el escaso
tama˜
no de la misma, podemos hacerlo nosotros mismos.
2.2.1.
Diagrama de dispersi´
on simple
El gr´afico m´as adecuado para apreciar la relaci´on entre dos variables num´ericas es el denominado diagrama de dispersi´on o nube de puntos, que consiste en identificar cada unidad
experimental (xi , yi ) con el punto del plano que tenga por coordenadas xi para el eje OX e yi
para OY. De esta forma, los datos anteriores se representan seg´
un la figura 2.1.
Figura 2.1: Altura vs peso
200,0
Altura
175,0
150,0
125,0
100,0
20
40
60
80
100
Peso
En la figura 2.2 se aprecia la relaci´on entre la longitud y la anchura de la cabeza para
n = 356 espermatozoides pertenecientes a cierta especie animal. Tanto en dicha figura como
en la anterior se observa en la muestra una relaci´on positiva en el sentido de que el crecimiento
de una variable se asocia al crecimiento de la otra. Sin embargo, en la figura 2.3, donde se
muestran n = 12 mediciones de las concentraciones de hormona paratiroidea (µg/ml) y calcio
(mg/100ml) en sangre, se aprecia una correlaci´on inversa, es decir, valores alto de la hormona
se asocian fuertemente a valores bajos de calcio y viceversa.
Para llegar a una conclusi´on de este tipo es indiferente cu´al de las dos variables se identifique
con el eje OX. En los casos anteriores decimos que nos encontramos ante un problema de correlaci´on, puesto que las variables estudiadas desempe˜
nan roles intercambiables. Otro denominador
Página 1
com´
un a los tres ejemplos considerados es el hecho de que a relaci´on entre
el incremento de la
´
2.2. DIAGRAMA DE DISPERSION
31
Figura 2.2: Anchura vs longitud cabeza espermatozoides
5,200
5,100
Anchura
5,000
4,900
4,800
4,700
4,600
4,500
7,800
8,000
8,200
8,400
8,600
8,800
9,000
9,200
Longitud
Figura 2.3: Ca vs Pth
Concentración de calcio (mg/100ml)
11,00
10,00
9,00
8,00
7,00
Página 1
6,00
5,00
0,00
1,00
2,00
3,00
4,00
5,00
Concentración de hormona paratiroidea (mug/ml)
variable X y el correspondiente incremento (posiblemente negativo) de Y es constante. Dicho
de una manera m´as gr´afica, la nube se forma en torno a una l´ınea recta, que puede ser creciente
o decreciente. Decimos entonces que nos encontramos ante un problema de correlaci´on lineal,
que no es, ni mucho menos, la u
´nica forma de correlaci´on posible. Lo que s´ı es claro es que es
la m´as sencilla y es relativamente frecuente. Simplificando al m´aximo podr´ıamos afirmar que,
entre dos variables que se distribuyen seg´
un sendos modelos de campana de Gauss cabe esperar
una relaci´on de tipo lineal, es decir, que linealidad y normalidad pueden considerarse caras de
una misma moneda. No obstante, en el apartado 2.4.1 abordaremos de manera introductoria
el estudio de correlaci´on no lineal.
2.2.2.
Diagrama de dispersi´
on matricial
Página 1
Cuando estudiamos conjuntamente m´as de dos variables num´ericas precisamos un tipo de
gr´afico m´as complejo. La mejor opci´on, posiblemente, es el gr´afico de dispersi´on matricial
que confronta las diferentes variables por parejas. Se trata pues de una matriz de gr´aficos de
dispersiones simples. En la figura 2.4 se muestra el gr´afico de dispersi´on matricial para las
variables longitud de f´emur (F), circunferencia craneal (C) y circunferencia abdominal (A),
´ ENTRE VARIABLES NUMERICAS
´
CAP´ITULO 2. RELACION
32
medidas en mm para 40 fetos de 26 semanas de gestaci´on.
A
C
F
Figura 2.4: F´emur-cr´aneo-abdomen
F
2.3.
C
A
Coeficientes de correlaci´
on y determinaci´
on
Abordamos a continuaci´on el c´alculo de valores t´ıpicos en el estudio de correlaci´on lineal.
En primer lugar, necesitamos conocer la media y desviaci´on t´ıpica de cada una de las variables
por separado, es decir,
rP
P
2
x
i
i (xi − x)
x= i ,
sx =
,
n
n
rP
P
2
i (yi − y)
i yi
y=
,
sy =
n
n
En el ejemplo 4 correspondiente a los datos de peso (X) y altura (Y ) se tiene:
x = 56.92kg,
sx = 22.96kg,
y = 151.5cm,
sy = 27.47cm
Página 1
Hecho esto, nos interesa calcular un valor t´ıpico que exprese el grado de correlaci´on lineal
entre ambas variables observado en la muestra. Al contrario que los par´ametros anteriores, dicho
valor debe conjugar las informaciones que aportan ambas variables. Empezaremos definiendo
la covarianza muestral como sigue:
Pn
(xi − x)(yi − y)
sxy = i=1
n
La covarianza, que en el caso del ejemplo 4 se expresar´a en kg · cm, puede ser tanto positiva
como negativa, pero debe quedar necesariamente acotada por los valores siguientes
− sx · sy ≤ sxy ≤ + sx · sy
´ Y DETERMINACION
´
2.3. COEFICIENTES DE CORRELACION
33
En el ejemplo 4 y teniendo en cuenta los valores de las desviaciones t´ıpicas, se tiene que sxy
debe estar comprendido entre −630.71 y 630.71, siendo concretamente su valor 577.86 kg · cm.
La covarianza pretende expresar el grado de correlaci´on lineal existente entre las variables X e
Y de la siguiente forma:
Un valor positivo de sxy significa una tendencia creciente en la nube de puntos, es decir:
si los valores de X crecen, los de Y tambi´en. Existir´a por tanto correlaci´on directa entre
ambas variables, seg´
un la muestra. El caso extremo sxy = +sx ·sy significa una correlaci´on
lineal perfecta, es decir, que la nube de puntos est´a incluida en una u
´nica recta, que ser´a
adem´as creciente.
Un valor negativo de sxy significa una tendencia decreciente en la nube de puntos, es
decir: si los valores de X crecen, los de Y decrecen. Existir´a por tanto correlaci´on inversa
entre ambas variables, seg´
un la muestra. El caso extremo sxy = −sx · sy significa una
correlaci´on lineal perfecta, es decir, que la nube de puntos est´a incluida en una u
´nica
recta, que ser´a adem´as decreciente.
sxy = 0 se traduce, por contra, en la ausencia de relaci´on lineal en los datos de la muestra.
En la figura 2.5 se ilustra lo dicho anteriormente.
Figura 2.5: izquierda sxy = sx sy ; centro sxy ' 0; derecha sxy = −sx sy
Y
6
r
r
r
Y
r
6
r
r
r
r
Y
6
r
r
r
r
r
r
r
-
X
r
r
r
r
-
X
r
r
-
X
Seg´
un lo dicho, en la figura 2.1 correspondiente al ejemplo 4 se observa una alto grado de
correlaci´on lineal positiva. En la figura 2.6 se aprecia el porqu´e.
Efectivamente, en la figura 2.6 las l´ıneas de referencia se corresponden con las medias x y y.
Determinan cuatro cuadrantes. Los puntos que se encuentran en los
Pncuadrantes superior derecho
e inferior izquierdo aportan sumandos positivos a la expresi´on i=1 (xi − x)(yi − y). Los que
se encuentran en los restantes aportan sumandos negativos. En este caso, abunda claramente
lo primero, por lo cual la suma resultante ser´a un n´
umero positivo y bastante grande.
Para evaluar qu´e entendemos por grande hemos de tener en cuenta la cota m´axima que se
puede alcanzar, que no es universal. Nos referimos a sx sy . De hecho, un cambio de unidades
(pasar de cent´ımetros a metros, por ejemplo), hace variar tanto las desviaciones t´ıpicas como
la covarianza. Todo ello complica la interpretaci´on del par´ametro sxy . Nos interesar´ıa pues otro
par´ametro que se interprete de forma an´aloga pero cuyas cotas sean universales. La soluci´on
es f´acil considerando
sxy
rxy =
sx · sy
34
´ ENTRE VARIABLES NUMERICAS
´
CAP´ITULO 2. RELACION
Figura 2.6: Altura vs peso
200
Altura
175
150
125
100
20
40
60
80
100
Peso
Este par´ametro, que se denotar´a igualmente por r a secas, se denomina coeficiente de correlaci´on
lineal muestral, se interpreta en los mismos t´erminos con la salvedad de que se encuentra en
todo caso entre -1 y 1 y alcanza esos valores cuando se da en la muestra una correlaci´on
lineal perfecta, bien sea inversa o directa, respectivamente. La proximidad a 0 indica que en
la muestra se observa escasa correlaci´on lineal. As´ı, a los datos del ejemplo 4 le corresponde
r = 0.9161.
Ejercicio 34. ¿En qu´e dimensiones se expresar´a el coeficiente r en el ejemplo 4?
Ejercicio 35. ¿Qu´e le sucede a r si permutamos las variables en el ejemplo 4, es decir, si
identificamos el peso con el eje OY y la altura con el eje OX?
Página 1
2
, denominado coeficiente
Desde el punto de vista formal es m´as interesante el par´ametro rxy
de determinaci´on muestral. M´as adelante veremos su interpretaci´on. En el caso del ejemplo 4
tenemos r2 = 0.83.
A la figura 2.7 le corresponde un coeficiente de correlaci´on r =0.618, lo cual expresa una
correlaci´on positiva pero m´as d´ebil que la observada anteriormente, cosa que debe quedar clara
si en el diagrama de dispersi´on trazamos las lineas de referencia que pasan por las medias.
Figura 2.7: Anchura vs altura cabeza espermatozoides
5,200
5,100
Anchura
5,000
4,900
4,800
4,700
4,600
4,500
7,800
8,000
8,200
8,400
8,600
8,800
9,000
9,200
Longitud
Ejercicio 36. La figura 2.4 se corresponde con una matriz de coeficientes de correlaci´on. ¿Qu´e
caracter´ısticas generales tendr´a una matriz de este tipo? ¿Entre qu´e dos variables se dar´a un
mayor coeficiente de correlaci´on?
´ LINEAL
2.4. REGRESION
2.4.
35
Regresi´
on lineal
En el caso de que se observe una correlaci´on lineal significativa entre los datos de X y
los de Y (realmente, el l´ımite entre lo que consideramos significativo y no significativo lo
estableceremos en la segunda parte), puede ser interesante obtener una ecuaci´on que permita
relacionar de manera aproximada ambas variables. Esto es de especial inter´es cuando una de las
variables puede medirse de manera sencilla pero otra no. Si entre ambas existe un alto grado de
correlaci´on el valor de la primera puede utilizarse para pronosticar con mayor o menor fiabilidad
el de la segunda. Por ejemplo, la longitud del f´emur en un feto de 26 semanas puede medirse
de forma sencilla mediante un ec´ografo. Si dicha longitud correlaciona con el peso (gr), como
se aprecia en la figura 2.8, podemos servirnos de la misma para predecirlo. En nuestro caso,
dado que estamos considerando por el momento relaciones exclusivamente lineales, la ecuaci´on
que buscamos ser´a del tipo
Y = B0 + B1 X
y se denomina ecuaci´on de regresi´on lineal muestral simple. Se corresponde obviamente con un
recta de pendiente B1 y t´ermino independiente B0 . Parece l´ogico pensar que la recta id´onea ser´a
la que mejor se ajuste a nuestra nube de puntos, aunque habr´a que especificar primeramente que
entendemos por ajuste. En nuestro caso utilizaremos el criterio muy utilizado en Matem´aticas
conocido como el de M´ınimos Cuadrados, cuya conveniencia fue argumentada hace casi dos siglos
por el propio Gauss. Veamos en qu´e consiste.
Como hemos dicho, una recta en el plano puede expresarse de la forma Y = B0 + B1 X.
Dada una unidad experimental de la muestra (xi , yi ), al valor xi correspondiente a la variable
X (abcisas) le corresponde, seg´
un la recta anterior, el valor B0 + B1 xi para la variable Y
(ordenadas). La diferencia entre dicho valor y el que realmente corresponde a la variable Y , es
decir, yi , se considera un error cometido al intentar explicar yi mediante la ecuaci´on anterior.
El m´etodo de m´ınimos cuadrados propone cuantificar el error total mediante la suma de los
cuadrados de los errores particulares, es decir,
n
X
[yi − (B0 + B1 xi )]2
i=1
La recta que minimice dicho error ser´a la soluci´on deseada. La soluci´on a este problema de
minimizaci´on resulta ser la siguiente:
B1 = sxy /s2x
B0 = y − B1 x.
En la figura 2.8 la recta de regresi´on lineal correspondiente a la muestra de fetos estudiada. Su
ecuaci´on es Peso=-29.1+13.1F´emur. N´otese que, en un problema de regresi´on, las variables X
e Y no desempe˜
nan roles intercambiables, sino que deben quedar perfectamente especificadas
por el contexto.
Cabe realizar tres observaciones:
(i) El signo de B1 es el que le otorga la covarianza sxy , que es a su vez el mismo de r. Es
decir, que si la correlaci´on es directa, la recta de regresi´on tiene pendiente positiva, y si
es inversa, negativa, como cab´ıa esperar.
(ii) En todo caso, la recta pasar´a por el punto (x, y). Por decirlo de alguna forma, pasa
por el centro de la nube de puntos. En particular, si la correlaci´on es nula la recta se
asociar´a a una funci´on constante que asigna en todo el valor medio a la variable Y
independientemente del valor de X.
´ ENTRE VARIABLES NUMERICAS
´
CAP´ITULO 2. RELACION
36
Figura 2.8: Peso del feto vs longitud de femur
700
Peso
600
500
400
300
200
25
30
35
40
45
50
F
(iii) La recta de regresi´on puede calcularse siempre, independientemente del grado de correlaci´on existente entre las variables.
Ejercicio 37. ¿Qu´e peso predecir´ıas a un feto cuyo f´emur mide 35mm?
Ejercicio 38. Seg´
un la ecuaci´on de regresi´on, ¿cu´antos gramos aumenta o disminuye el peso
del feto por cada mm que aumenta el f´emur?
En la figura 2.9 se representa la recta de regresi´on lineal correspondiente a la muestra
del ejemplo 4, en la que se miden la talla y el peso de 12 adultos, cuya ecuaci´on resulta
ser y = 89.11 + 1.10x. Obviamente, el inter´es pr´actico de esta ecuaci´on es nulo pues ambas
variables pueden medirse trivialmente. No obstante, puede servirnos de ejemplo para observar
los errores cometidos por dicha ecuaci´on a la hora de explicar los verdaderos valores de la
Página 1
variable Y , marcados con l´ıneas discontinuas.
Figura 2.9: Peso vs altura
´ LINEAL
2.4. REGRESION
37
Desde un punto de vista num´erico, en la primera columna del cuadro 2.1 se muestran
los valores de X para los 12 datos de la figura; en la segunda, los correspondientes valores
de Y ; en la tercera, los valores de las ordenadas que se obtienen seg´
un la recta de regresi´on
y = 89.11 + 1.10x; por u
´ltimo, en la cuarta columna tenemos precisamente las diferencias al
cuadrado entre los valores reales de Y y sus predicciones, de manera que su suma cuantifica el
error cometido por la recta de regresi´on.
xi
80
45
63
94
24
75
56
52
61
34
21
78
Cuadro 2.1: Errores de regresi´on
yi (B0 + B1 xi ) [yi − (B0 + B1 xi )]2
174
176.80
7.86
152
138.44
183.94
160
158.17
3.36
183
192.15
83.70
102
115.42
180.05
183
171.32
136.37
148
150.50
6.23
152
146.11
34.69
166
155.98
100.48
140
126.38
185.51
98
112.12
199.66
160
174.61
213.47
1335.32
Esa suma total, denominada error cuadr´atico, podr´a resultarnos grande o peque˜
na, pero lo
cierto es que cualquier otra recta que podamos considerar ofrecer´a un error cuadr´atico mayor.
Tambi´en es claro que cuantos m´as puntos tengamos mayor ser´a el error cuadr´atico. Necesitamos pues una medida del grado de error relativa al tama˜
no de la muestra. Ese par´ametro se
1
denomina varianza residual o parcial :
n
s2y←x
1X
[yi − (B0 + B1 xi )]2
=
n i=1
La varianza residual viene a expresar pues la parte de la variabilidad de los datos de Y no
explicada por la variabilidad de los datos de X mediante la recta de regresi´on lineal. Este valor
debe pues relacionarse de alguna forma con rxy . Efectivamente, puede demostrarse f´acilmente
que
s2y←x
2
= 1 − rxy
s2y
2
Es decir, 1 − rxy
se interpreta como la proporci´on de la varianza de Y que no logra explicar la
2
ecuaci´on de regresi´on o, dicho de otra forma, rxy
es interpreta como la proporci´on de variabilidad
de Y explicada por X.
En el caso de la predicci´on del peso mediante la longitud del f´emur en fetos, la muestra
aporta un valor de r2 = 0.643 (r = 0.802), lo cual se traduce en que, en esta muestra concreta, la
recta de regresi´on permite explicar a partir de la longitud del f´emur un 64.3 % de la variabilidad
del peso o, lo que es lo mismo, que conlleva un 35.7 % de error. Obviamente, r2 mide globalmente
1
Realmente no deber´ıamos dividir entre n sino entre n − 2 pero no entraremos aqu´ı en esos detalles
´ ENTRE VARIABLES NUMERICAS
´
CAP´ITULO 2. RELACION
38
Figura 2.10: Interpretaci´on intuitiva de r2
Y
X
r2
la fiabilidad de las predicciones. En la segunda parte ampliaremos este estudio valorando dicha
fiabilidad de manera m´as precisa.
X
Los casos extremos ser´ıan r2 = 1 y r2 = 0. El primero1 se corresponde con s2y←x = 0, es
Y
decir, la recta de regresi´on lineal
predice sin error los datos de Y a partir de X. Se da por lo
tanto una correlaci´on lineal perfecta. El caso r2 = 0 se corresponde con s2y←x = s2y . Significa
que toda la variabilidad de Y es error de regresi´on, es decir, que la recta de regresi´on no ayuda
en absoluto a predecir los valores de Y . Tal es aproximadamente el caso de la figura 2.11, donde
se expresan las tallas e ´ındices de masa corporal
R2 de 100 individuos adultos. A esta muestra le
corresponde r = −0.035.
Figura 2.11: IMCvs TallaX
2
índice de masa corporal
40,00
30,00
20,00
10,00
140
150
160
170
180
190
200
Talla
Ejercicio 39. ¿C´omo interpretamos el valor de r = −0.035 en la figura 2.11? ¿Te resulta
parad´ojico? ¿C´omo ser´a r si reemplazamos la talla por el peso: positivo, negativo o pr´oximo a
0?
Ejercicio 40. En el ejemplo de relaci´on entre el peso y la longitud del f´emur del feto, ¿afectar´ıa
al valor de r2 el hecho de expresar el peso en kg en lugar de en gr?
´ LINEAL
2.4. REGRESION
39
Ejercicio 41. En el mismo ejemplo, si reemplazamos la muestra de n = 40 fetos por otra diferente, de otros 40 fetos, por poner un n´
umero, ¿obtendremos un mismo valor de r2 ?¿Obtendremos
una misma ecuaci´on de regresi´on? ¿Ser´an parecidas?
2.4.1.
Regresi´
on lineal m´
ultiple
Ya hemos visto que en lo que respecta a las variables peso y longitud de f´emur (F), el grado
de correlaci´on observado en la muestra de n = 40 fetos es r = 0.802, por lo que la ecuaci´on
de regresi´on obtenida para dicha muestra, Peso=-29.1+13.1F permite explicar un 64.3 % (r2 )
de la variabilidad del peso. Que esta proporci´on resulte grande o peque˜
na depende del grado
de fiabilidad que necesitemos en la predicci´on. Efectivamente y si nos permitimos una peque˜
na
incursi´on en la Inferencia Estad´ıstica, es posible asignar a una predicci´on particular un margen
m´aximo error mediante una cierta f´ormula que depende de tres factores:
El valor de r2 . Obviamente, cuanto m´as se aproxime a 1 menor ser´a el margen de error,
hasta el punto de que el caso r2 = 1se asocia a predicciones exactas.
El tama˜
no de muestra n. Cuanto mayor sea n menor ser´a el margen de error, dado que
la ecuaci´on calculada ser´a m´as fiable o estable.
La distancia del individuo para el que se efect´
ua la predicci´on respecto al centro de la
muestra. Cuanto m´as lejano sea el individuo mayor ser´a el margen de error, pues el
problema de regresi´on tiene un car´acter local, es decir, la ecuaci´on no puede extrapolarse
alegremente lejos del entorno de los datos.
As´ı por ejemplo, en nuestro caso, para un feto con una tama˜
no de f´emur dentro del rango de los
datos estudiados se le asigna un margen m´aximo de error de unos 100 gramos en el pron´ostico.
Ejercicio 42. ¿Crees que a medida que el tama˜
no de muestra se hace mayor el margen de
error de las predicciones tiende a 0?
Si el margen de error de nuestras predicciones resulta insatisfactorio, podr´ıan considerarse
dos posibles soluciones: aumentar el tama˜
no de la muestra o explicar el peso a trav´es de
otra variable mejor, quiz´as la circunferencia craneal (C) o la abdominal (A). No obstante,
lo m´as interesante es utilizar las tres variables medidas directamente por el ec´ografo, F, C y
A, como variables independientes X1 , X2 y X3 en una ecuaci´on de tipo lineal cuya variable
dependiente, Y , sea el peso (ni que decir tiene que a esta ecuaci´on podr´ıan a˜
nadirse m´as
variables independientes). Es decir, se trata de construir a partir de la muestra una ecuaci´on
del tipo
Y = B0 + B1 X1 + B2 X2 + B3 X3
En general, la ecuaci´on concreta que buscamos, siguiendo de nuevo el criterio de m´ınimos
cuadrados, es la que minimice la suma
n
X
[yi − (B0 + B1 x1 + B2 x2 + B3 x3 )]2
i=1
La soluci´on a este problema la obtendremos mediante un programa estad´ıstico. En el problema
del peso del feto, la ecuaci´on de regresi´on m´
ultiple obtenida para la muestra considerada es
Peso = −149.0 + 12.6 · F + 9.8 · C − 9.4 · A
(2.1)
Ejercicio 43. Seg´
un eso, ¿qu´e peso cabr´ıa predecir a un feto con medidas F=43, C=172,
A=167?
40
´ ENTRE VARIABLES NUMERICAS
´
CAP´ITULO 2. RELACION
r2
Para valorar globalmente la la correlaci´on entre estas tres variables y el peso necesitamos un
valor t´ıpico que generalice el coeficiente de correlaci´on simple al cuadrado, r2 . Dicho coeficiente,
que se obtiene mediante c´alculos matriciales, se denomina coeficiente de correlaci´on m´ultiple al
cuadrado, y se denota por R2 . Expresa, por lo tanto, la proporci´on de variabilidad de Y explicada
entre todas las variables independientes.
Figura 2.12: Interpretaci´on intuitiva R2
X1
Y
R2
X2
Ejercicio 44. Seg´
un eso, ¿puede disminuir R2 si se introduce una nueva variable independiente
en la ecuaci´on, por ejemplo la longitud de la tibia?
En el caso del peso del feto, obtenemos un valor R2 = 0.915, lo cual justifica la inclusi´on
de las dos nuevas variables dado que inicialmente ten´ıamos r2 = 0.643. Puede llegar a pensarse
que del hecho de a˜
nadir variables independientes a la ecuaci´on s´olo se derivan ventajas, pero no
es as´ı. En primer lugar, estas variables hay que medirlas; en segundo lugar, nos impiden tener
una visi´on gr´afica sencilla de los datos, pues debemos recurrir a los aparatosos diagramas de
dispersi´on matricial; por u
´ltimo, pueden generar ciertas confusiones como consecuencia de la
posible correlaci´on lineal entre las distintas variables independientes, cosa que puede apreciarse
incluso en la ecuaci´on propuesta para el peso del feto. Lo m´as aconsejable es introducir una
nueva variable en la ecuaci´on s´olo si su presencia incrementa sustancialmente el valor de R2 .
Ejercicio 45. ¿Qu´e aspecto de la ecuaci´on (2.1) puede resultar parad´ojico?
2.4.2.
Regresi´
on no lineal
Hasta ahora hemos afrontado u
´nicamente el estudio de aquellas muestras en las que la
relaci´on entre las variables X e Y es de tipo claramente lineal, excluyendo situaciones dudosas
como la de figura 2.13. Corresponde al diagrama de dispersi´on simple entre el marcador tumoral
PSA y el volumen de un tumor prost´atico estudiado en una muestra de n = 97 pacientes. Se
incluye la recta de regresi´on lineal.
La recta de regresi´on logra un aceptable ajuste a la nube de puntos, obteni´endose r = 0.625.
No obstante, un estudio m´as profundo de ambas variables revela una relaci´on lineal mucho m´as
clara entre los logaritmos del volumen y del PSA, tal y como queda patente en el gr´afico de la
figura 2.14, al que corresponde un coeficiente de correlaci´on r = 0.734.
´ LINEAL
2.4. REGRESION
41
Figura 2.13: Volumen tumor vs PSA
50,00
Volumen tumor
40,00
30,00
20,00
10,00
,00
,00
50,00
100,00
150,00
200,00
250,00
300,00
PSA
Figura 2.14: Log volumen vs log PSA
4,000
Logaritmo Volumen
3,000
2,000
1,000
,000
-1,000
Página 1
-2,000
,000
2,000
4,000
6,000
Logaritmo PSA
La ecuaci´on de la recta de regresi´on representada en la figura anterior es y = −0.590 + 0.750x.
Por lo tanto, las variable originales se relacionan aproximadamente seg´
un la ecuaci´on
log vol = −0.509 + 0.750 log PSA
Luego, despejando, obtenemos vol = 0.601 · PSA0.750 , que es la curva que se representa en la
figura 2.15.
Este ejemplo ilustra c´omo, en ciertas ocasiones, podemos lograr una mejor explicaci´on de la
variable dependiente si no nos restringimos a ecuaciones de tipo lineal, lo cual suele traducirse
a grandes rasgos en considerar distintas transformaciones de las variables en juego, en especial
la logar´ıtmica. El programa estad´ıstico SPSS ofrece la posibilidad de tantear con diferentes
posibilidades. No obstante, debemos advertir que este tipo de estudios puede llegar a ser bastante complicado. En todo caso, al igual que la mediana (valor t´ıpico basado en las posiciones
Página 1
o rangos de los datos) puede reemplazar a la media cuando se observa un fuerte sesgo en la
´ ENTRE VARIABLES NUMERICAS
´
CAP´ITULO 2. RELACION
42
Figura 2.15: PSA vsVolumen
volumen
tumor
tumor
50,00
40,00
30,00
20,00
10,00
,00
,00
100,00
200,00
300,00
PSA
distribuci´on de los datos, podemos reemplazar el coeficiente de correlaci´on lineal r por el denominado coeficiente de correlaci´on de Spearman rS cuando observemos una relaci´on no lineal
entre las variables. Consiste en el coeficiente de correlaci´on lineal entre los rangos de los datos
para ambas variables. En el caso del ejemplo anterior su valor es rS = +0.700.
Ejercicio 46. Si entre dos variables se da una relaci´on de tipo exponencial y = a · bx , ¿qu´e
transformaciones debemos aplicar a las variables X e Y para obtener una relaci´on lineal?
Ejercicio 47. En las figuras 2.16 y 2.17, extra´ıdas de Wikipedia, se ilustra la relaci´on entre la
esperanza de vida global y la renta per c´apita por un lado, y entre la esperanza de vida de los
hombres y la de las mujeres por otro, calculadas todas ellas en 2009 para todos los pa´ıses del
mundo. Comenta qu´e te sugiere cada gr´afico.
2.5.
Relaci´
on entre una variable num´
erica y otra cualitativa
Como ya hemos comentado, este problema lo trataremos de manera m´as extensa en la
segunda parte. El estudio a nivel meramente descriptivo es escueto y hemos optado por ubicarlo
Página 1
en este cap´ıtulo porque, desde un punto de vista te´orico, el problema se formaliza mediante el
mismo modelo que el de regresi´on.
Ejemplo 5: cualitativa vs num´
erica. Se estudia la posible relaci´on entre la acidosis en reci´en nacidos y la glucemia medida en el cord´on umbilical. Para ello se toma una muestra de 200 reci´en nacidos distribuidos a
partes iguales en cuatro grupos: sanos, enfermos con acidosis respiratoria,
con acidosis metab´olica y mixta. Los datos quedan representados mediante
los diagramas de dispersi´on en la figura 2.18 y mediante diagramas de caja
(m´as habitual) en la figura 2.19.
´ ENTRE UNA VARIABLE NUMERICA
´
2.5. RELACION
Y OTRA CUALITATIVA
43
Figura 2.16: Esperanza de vida vs renta
Figura 2.17: Esperanza de vida hombres vs mujeres
Podemos observar que los niveles de glucemia son mayores en los enfermos con acidosis
respiratoria que en los sanos, al menos por t´ermino medio (mediano); que los niveles de glucemia
en los enfermos de acidosis metab´olica es a´
un mayor y que los enfermos de acidosis mixta poseen
valores de glucemia similares al de los individuos sanos, al menos, insistimos, por t´ermino medio.
Simplificando el asunto, podemos afirmar que la relaci´on entre un variable cualitativa y otra
num´erica se traduce en un problema de comparaci´on de las diferentes medias (o medidas de
centralizaci´on en general) que dicha variable num´erica alcanza en las distintas categor´ıas de
la variable cualitativa. Concretamente, entendemos las distancias entre las medias como una
prueba de la relaci´on entre ambas variables, que ser´a m´as fuerte cuanto mayor sean dichas
diferencias. la cuesti´on es algo m´as compleja pues esta distancia debe evaluarse teniendo en
cuenta el grado de variabilidad que presentan los datos, lo cual afecta a la variabilidad de las
propias medias aritm´eticas calculadas. Es una situaci´on an´aloga a la de regresi´on lineal, pues se
trata en definitiva de medir la proporci´on de variabilidad explicada por la variable cualitativa,
lo cual da lugar a un coeficiente R2 . No obstante, no entraremos en esos detalles, por lo menos
por el momento. Ello es debido a que el problema de comparaci´on de medias presenta una
´ ENTRE VARIABLES NUMERICAS
´
CAP´ITULO 2. RELACION
44
Figura 2.18: Glucemia vs acidosis (nube de puntos)
Nivel de glucemia en el cordón umbilical
105,000
85,000
65,000
45,000
25,000
Control
Acidosis Respiratoria
Acidosis Metabólica
Acidosis Mixta
Tipo de acidosis
Figura 2.19: Glucemia vs acidosis (box-plots)
Nivel de glucemia en el cordón umbilical
90,000
80,000
70,000
60,000
Página 1
50,000
40,000
Control
Acidosis Respiratoria
Acidosis Metabólica
Acidosis Mixta
Tipo de acidosis
casu´ıstica algo compleja que abordaremos en el contexto de la Inferencia Estad´ıstica (segunda
parte). En esta primera parte nos contentaremos con un primer an´alisis meramente intuitivo a
partir del gr´afico.
Otras cuestiones propuestas
Ejercicio 48. Indica un ejemplo de 4 pares de datos que presenten un coeficiente de correlaci´on
lineal r = −1. Indica un ejemplo de 4 pares de datos que presenten un coeficiente de correlaci´on
lineal r = 0.
Ejercicio 49. En un estudio de regresi´on lineal se obtuvo, a partirPágina
de1 una muestra de tama˜
no
n = 12, una recta de regresi´on lineal y = 3.2 − 4.1x, y un coeficiente de correlaci´on lineal
r = +0.93. ¿Existe alguna contradicci´on entre estos resultados?
Ejercicio 50. En el diagrama de dispersi´on de la figura 2.20 se presentan 315 datos correspondientes a la ingesta y asimilaci´on de betacarotenos. ¿Qu´e conclusiones podr´ıamos extraer
del mismo?
´ ENTRE UNA VARIABLE NUMERICA
´
2.5. RELACION
Y OTRA CUALITATIVA
45
Figura 2.20: Betacarotenos
Plasma beta-carotene [ng/ml]
1500
1000
500
0
0
2000
4000
6000
8000
10000
Dietary beta-carotene [mcg/day]
Ejercicio 51. ¿Qu´e diferencia hay entre un problema de correlaci´on y un problema de regresi´on?
Ejercicio 52. Indicar qu´e valor aproximado puede tener r en los siguientes ejemplos:
5,00
-2,00
4,00
-4,00
Y
Y
Página 1
3,00
-6,00
2,00
-8,00
1,00
2,00
4,00
6,00
8,00
2,00
4,00
X
6,00
8,00
X
40,00
Y
30,00
20,00
10,00
2,00
4,00
6,00
8,00
Página 1X
Página 1
Ejercicio 53. El sustrato Inosina monofosfato reacciona produciendo Xantosina monofosfato
ante la presencia de la enzima IMP de Hidr´ogeno. Se intenta explicar la velocidad de dicha
reacci´on (medida en incremento de la densidad del producto por minuto) a partir de la concentraci´on de sustrato (medido en µmoles/l). Tras medir ambas variable en 7 ocasiones, con
las mismas condiciones ambientales, se obtuvo:
[S]
V
3.4
0.10
5.0
0.15
a) Representa la nube de puntos.
8.4
0.20
16.8
0.25
33.6
0.45
67.2
0.50
134.4
0.53
Página 1
46
´ ENTRE VARIABLES NUMERICAS
´
CAP´ITULO 2. RELACION
b) Realiza el siguiente cambio de variables: X = 1/[S], Y = 1/V . Efect´
ua un estudio de
correlaci´on-regresi´on lineal entre las variables X e Y .
c) En general, en los procesos de reacci´on ante la presencia de una enzima, la velocidad de
la reacci´on se relaciona con la concentraci´on del sustrato seg´
un una ley del siguiente tipo:
Vmax × [S]
,
V =
Km + [S]
donde Vmax es la velocidad m´axima posible en el proceso, que se corresponde con una
concentraci´on de sustrato muy grande, y donde Km es una valor constante para condiciones ambientales fijas, denominado constante de Michaellis-Menten. Estima el valor de
Km y Vmax en este proceso concreto.
Ejercicio 54. Se midieron la presi´on sist´olica (mmHg) y la concetraci´on de colesterol LDL
(mg/litro) a 462 personas obteni´endose, entre otros resultados, los s valores t´ıpicos que aparecen
en el cuadro 2.2.
Cuadro 2.2: SBP vs LDL
Media
Mediana
Desviación típica
Rango intercuartílico
Coeficiente de correlación
Presión (mmHg)
138.33
134
20.50
24
LDL (mg/litro)
57.40
43.4
20.71
25.2
0.158
Razona brevemente, a partir de estos resultados, cu´al de las dos variables posee un mayor
sesgo positivo.
Razona cu´al debe ser el valor del coeficiente de correlaci´on lineal entre la presi´on arterial
y el LDL si medimos este u
´ltimo en mg/decilitro.
Se detecta posteriormente a la toma de datos que el medidor de tensi´on arterial comete
un error sistem´atico consistente en indicar siempre 2mmHg m´as de la cuenta. Sabido
esto, ¿cu´ales deben ser los verdaderos valores de la mediana y el rango intercuart´ılico de
la presi´on arterial? ¿Cu´al debe ser el verdadero valor el coeficiente de correlaci´on lineal
entre la presi´on arterial y el LDL (medido en mg/litro)?
Ejercicio 55. El diagrama de dispersi´on de la figura 2.21 representa el ´area de la cabeza y
la velocidad para una muestra de n = 356 espermatozoides con r = 0.20. ¿Qu´e proporci´on
de variabilidad de la velocidad es explicada linealmente por el tama˜
no de la cabeza? ¿Qu´e
proporci´on de variabilidad del tama˜
no de la cabeza es explicado linealmente por la velocidad?
¿Qu´e puedes extraer de este dato en t´erminos pr´acticos?
Ejercicio 56. Observa la figura 5.7 y comenta a un nivel puramente intuitivo si existe relaci´on
entre el estilo de vida y el nivel de ansiedad seg´
un la escala de Hamilton.
Ejercicio 57. Se lleva a cabo un estudio con n = 100 individuos para determinar si el tipo de
dieta (distinguiendo entre A y B) influye en el IMC (contamos con 54 individuos que siguen
la dieta A y 46 que siguen la B). En la figura 2.22 se muestra el correspondiente diagrama de
cajas. Responde a la cuesti´on a un nivel puramente intuitivo.
´ ENTRE UNA VARIABLE NUMERICA
´
2.5. RELACION
Y OTRA CUALITATIVA
´
Figura 2.21: Area
vs velocidad
180,0
Velocidad
160,0
140,0
120,0
100,0
80,0
30,000
32,000
34,000
36,000
38,000
40,000
Área cabeza
Figura 2.22: Dieta vs IMC
40,00
índice de masa corporal
Página 1
30,00
20,00
10,00
,00
Dieta A
Dieta B
Tipo de dieta
47
48
´ ENTRE VARIABLES NUMERICAS
´
CAP´ITULO 2. RELACION
Cap´ıtulo 3
Relaci´
on entre variables cualitativas
En el cap´ıtulo anterior se estudi´o la relaci´on entre dos variables num´ericas y entre una
num´erica y otra cualitativa. Para completar el esquema l´ogico falta estudiar la relaci´on entre
dos variables cualitativas. Entendemos que existe relaci´on entre ambas cuando un cambio de
categor´ıa en una variable se asocia a un cambio de categor´ıa en la otra y viceversa. El hecho
de expresar un car´acter de forma cualitativa puede resultar m´as sencillo que medirla num´ericamente, lo cual explica la abundancia de dise˜
nos de tipo cualitativos en la investigaci´on experimental. Parad´ojicamente, desde un punto de vista meramente estad´ıstico, el tratamiento de
las variables cualitativas es mucho m´as engorroso que el de las num´ericas, cosa que tendremos
la oportunidad de apreciar en este mismo cap´ıtulo.
3.1.
Estudio general de las tablas de contingencia
Empezaremos con un estudio de car´acter general para pasar despu´es a analizar problemas
m´as concretos en el contexto biom´edico. En todo caso, repetiremos las mismas fases que en los
cap´ıtulos anteriores pues estamos en un marco descriptivo, es decir: tabulaci´on, representaci´on
gr´afica y c´alculo de los valores t´ıpicos correspondientes al estudio de relaci´on.
3.1.1.
Tabla de contingencia
Partimos de una muestra compuesta por n individuos o unidades experimentales pertenecientes a una determinada poblaci´on sobre los que se eval´
uan simult´aneamente dos caracteres
cualitativos A y B, en los que se distinguen r y s categor´ıas, respectivamente. Es decir, la evaluaci´on del car´acter A puede dar lugar a r resultados posibles, A1 , A2 , ..., Ar , y la del car´acter
B, a s resultados posibles, B1 , B2 , ..., Bs . Reservaremos el sub´ındice i para denotar los niveles de
A y el j para los de B. Los datos se organizan mediante una tabla de frecuencias bidimensional
denominada tabla de contingencia, seg´
un vemos en el siguiente ejemplo.
Ejemplo 6: dos variables cualitativas. Se realiza un estudio
a nivel cualitativo para considerar la posible asociaci´on entre el
nivel de SO2 en la atm´osfera y el estado de salud de cierta especie
arb´orea, en funci´on del nivel de cloroplastos en las c´elulas de sus
hojas. Se distinguen tres tipos de ´areas seg´
un el nivel de SO2 : nivel
alto, medio y bajo. As´ı mismo, se distinguen otros tres niveles de
salud en los a´rboles: alto, medio y bajo. En cada zona se seleccion´o
una muestra de 20 ´arboles, con lo que el n´
umero total es n = 60. En
cada caso se determina su nivel de cloroplastos. La tabla obtenida
tras clasificar los 60 ´arboles fue la siguiente:
49
´ ENTRE VARIABLES CUALITATIVAS
CAP´ITULO 3. RELACION
50
Nivel cloroplastos
Nivel SO2
(3 × 3)
Alto
Medio
Bajo
Total
Alto
3
5
7
15
Medio Bajo
4
13
10
5
11
2
25
20
Total
20
20
20
60
Empecemos con una breve descripci´on de la tabla. En este caso se distinguen r = 3 categor´ıas
o niveles para el car´acter A fila (nivel de SO2 ) y otras s = 3 categor´ıas para el car´acter B
columna (nivel cloroplastos). De ah´ı que la tabla sea del tipo 3 × 3. Los valores que aparecen
en las 9 casillas se denominan valores observados y se denotan mediante Oij . A la derecha
se expresan las sumas de las diferentes filas, que se denotan por Oi· , mientras que abajo se
expresan las sumas de las columnas, que se denotan por O·j
Variable B
(3 × 3) B1 B2 B3 Total
A1
O11 O12 O13
O1·
A2
O21 O22 O23
O2·
Variable A
A3
O31 O32 O33
O3·
Total
O·1 O·2 O·3
n
Todo nuestro estudio se basa en el an´alisis de las diferentes proporciones que se dan en la
muestra, tanto brutas como condicionadas. Entre las primeras distinguimos las proporciones de
las diferentes categor´ıas de A o de B. De esta forma, la proporci´on de ´arboles de la muestra
que se encuentran en zonas con nivel alto de SO2 y la proporci´on de a´rboles de la muestra que
presenta un nivel medio de cloroplastos son, respectivamente,
20
= 0.33,
Pˆ (SO2 alto) =
60
25
Pˆ (Cloroplastos medio) =
= 0.42
60
Tambi´en, dadas sendas categor´ıas de cada variable, podemos calcular la proporci´on que supone
respecto al total de la muestra una combinaci´on o intersecci´on de ambas. Por ejemplo,
4
Pˆ (SO2 alto y Cloroplastos medio ) =
= 0.067
60
Podemos hablar por u
´ltimo de de las siguientes proporciones denominadas condicionadas, pues
se calculan suponiendo que se verifique una categor´ıa de las filas o de las columnas. As´ı, la
proporci´on de ´arboles con SO2 alto que presenta un nivel bajo de cloroplastos y la proporci´on de a´rboles con nivel medio de cloroplastos que viven en un ambiente con SO2 alto son,
respectivamente,
13
Pˆ Clor bajoSO2 alto =
= 0.65,
20
4
Pˆ SO2 altoClor medio =
= 0.16
25
En general se tiene que
Oi· ˆ
O·j ˆ
Oij ˆ
Oij ˆ
Oij
Pˆ (Ai ) =
, P (Bj ) =
, P (Ai ∩ Bj ) =
, P (Ai |Bj ) =
, P (Bj |Ai ) =
n
n
n
O·j
Oi·
(3.1)
Hemos de destacar que las proporciones se denotan por Pˆ en lugar de P con la idea de resaltar
que son par´ametros descriptivos, es decir, que se refieren a la muestra estudiada, no al total de
la poblaci´on objeto del estudio, como veremos en la segunda parte.
3.1. ESTUDIO GENERAL DE LAS TABLAS DE CONTINGENCIA
51
Ejercicio 58. Indica las siguientes proporciones (puedes expresarlas en porcentajes):
Proporci´on de ´arboles con alto nivel de cloroplastos entre aqu´ellos que crecen en zonas
poco contaminadas, as´ı como la proporci´on de a´rboles que crecen en zonas poco contaminadas entre aqu´ellos que cuentan con alto nivel de cloroplastos.
Proporci´on de ´arboles de la muestra que crecen en zonas poco contaminadas y adem´as
cuentan con un alto nivel de cloroplastos.
Proporci´on de ´arboles de la muestra que crecen en zonas poco contaminadas, as´ı como
la proporci´on de ´arboles de la muestra que cuentan con un alto nivel de cloroplastos.
3.1.2.
Diagrama de barras agrupadas
Se trata de un gr´afico muy u
´til a la hora de ilustrar la asociaci´on existente entre las dos
variables. Consiste en representar un diagrama de barras para las frecuencias absolutas Oij de
las casillas pero agrupadas por filas o por columnas, seg´
un se desee. En este caso, se muestra
en la figura 3.1 un diagrama de barras agrupadas por las categor´ıas de SO2 .
Figura 3.1: Salud a´rboles vs contaminaci´on
Gráfico de barras
Nivel de
cloroplastos
Cloroplastos alto
Cloroplastos medio
Cloroplatos bajo
12,5
Recuento
10,0
7,5
5,0
2,5
0,0
SO2 alto
SO2 medio
SO2 bajo
Nivel de SO2
Las marcadas diferencias entre los tres diagramas de barras hablan por s´ı solas de una
considerable correlaci´on o asociaci´on entre las variables estudiadas. Podemos apreciar que, en
las zonas muy contaminadas, la proporci´on (condicionada) de ´arboles enfermos es claramente
mayor que en las zonas no contaminadas. A una conclusi´on id´entica se debe llegar condicionando
en la variable contraria, siendo la elecci´on indiferente desde un punto de vista te´orico. En cada
zona se da una distribuci´on diferente de los a´rboles seg´
un su estado de salud, lo cual indica que
existe correlaci´on entre las variables, que ser´a mayor cuanto mayores sean las diferencias entre
esas proporciones condicionadas. En el caso de que fueran id´enticas se podr´ıa hablar de una
dependencia nula en la muestra observada. La cuesti´on es: ¿qu´e valor deber´ıa aparecer en cada
celda en lugar de Oij para que la dependencia fuera nula? Dichos valores esperados en caso de
dependencia nula se denotan por Eij .
´ ENTRE VARIABLES CUALITATIVAS
CAP´ITULO 3. RELACION
52
Ejercicio 59. Supongamos que se lleva a cabo un estudio para analizar la posible relaci´on entre
el factor Rh y el sexo. Se estudian un total de n = 100 personas con los siguientes resultados
(parciales):
Rh
(2 × 2) + − Total
M
40
Sexo
F
60
Total
75 25
100
¿Qu´e cantidad de datos Eij cabr´ıa esperar en cada una de las cuatro celdas para que la dependencia observada fuera nula?
Podemos buscar una soluci´on particular para el ejercicio anterior. No obstante, de las ecuaciones (3.1) se deduce la soluci´on general
Eij =
Oi· × O·j
n
Equivalentemente, la dependencia es nula cuando, para cada combinaci´on de categor´ıas se
verifica
Pˆ (Ai ∩ Bj ) = Pˆ (Ai ) × Pˆ (Bj )
En el caso del ejemplo 6 se obtendr´ıa la siguiente tabla de valores esperados en el caso de
dependencia nula, como podr´ıa ocurrir si se midiera, por ejemplo, el CO2 :
Nivel cloroplastos
Nivel SO2
(3 × 3)
Alto
Medio
Bajo
Total
Alto
5
5
5
15
Medio Bajo
8.3
6.7
8.3
6.7
8.3
6.7
25
20
Total
20
20
20
60
N´otese que los valores Eij pueden no ser enteros, como en este caso, lo cual no afecta al
prop´osito final de su c´alculo, como veremos a continuaci´on. En la siguiente figura aparece el
diagrama de barras agrupadas que corresponde a una situaci´on pr´oxima a la correlaci´on nula.
Concretamente, en la figura 3.2 aparece el diagram de barras agrupado correspondiente a un
estudio la asociaci´on entre la localizaci´on de una tendinopat´ıa rotuliana y la afecci´on del tejido
graso de Hoffa en n = 153 pacientes. N´otense las diferencias respecto a la figura 3.1.
3.1.3.
Coeficiente de contingencia C de Pearson
Desde un punto de vista num´erico podemos observar pues en el ejemplo 6 una clara diferencia entre la tabla de contingencia, que se corresponde con los valores observados, y la tabla de
los valores que cabr´ıa esperar en el caso de dependencia nula. No obstante, estas diferencias deben concretarse en un valor t´ıpico que exprese el grado de asociaci´on observada en la muestra.
En ese sentido, la distancia χ2 viene a medir la discordancia entre ambas tablas mediante
χ2exp =
X (Oij − Eij )2
Eij
i,j
3.1. ESTUDIO GENERAL DE LAS TABLAS DE CONTINGENCIA
53
Figura 3.2: Independencia
Gráfico de barras
¿Grasa
infrarrotuliana
lesionada?
No
Sí
50
Recuento
40
30
20
10
0
Proximal tendón
rotuliano
Cuádriceps
Anterior tibia
Localización insercción
Debe quedar pues claro que un valor χ2exp nulo se corresponder´ıa con un grado de dependencia
nulo y que, cuanto mayor sea su valor, m´as fuerte ser´a la dependencia o correlaci´on observada
en la muestra.
Puede resultar u
´til normalizar la distancia χ2 para obtener un valor con cotas universales.
La normalizaci´on m´as popular es posiblemente el coeficiente de contingencia de Pearson, que
pretende desempe˜
nar un papel similar al coeficiente de correlaci´on r, tambi´en de Pearson. Se
define mediante
s
χ2exp
C=
χ2exp + n
p
Este coeficiente debe estar comprendido, para toda tabla r × s, entre 0 y q −1 (q − 1), siendo
q = m´ın{r, s}. La cota 0 corresponde a la ausencia total de correlaci´on y la cota superior, que
depende u
´nicamente de las dimensiones de la tabla, a la m´axima dependencia
Página 1 posible. En el
ejemplo 6, la cota m´axima es 0.816 y el valor concreto obtenido es C = 0.444, lo cual indica
que se observa en la muestra un grado de correlaci´on medio.
Nos preguntamos c´omo deber´ıan ser los datos observados para alcanzar el m´aximo grado
de correlaci´on, que se corresponde con C = 0.816. Por ejemplo:
Nivel cloroplastos
Nivel SO2
3.1.4.
(3 × 3)
Alto
Medio
Bajo
Total
Alto Medio Bajo
0
0
20
0
20
0
20
0
0
20
20
20
Total
20
20
20
60
Tablas 2 × 2. Coeficiente φ
Este caso particular, en el que se distinguen u
´nicamente dos categor´ıas en las dos variables
consideradas, puede recibir, adem´as del tratamiento estudiado anteriormente, otro espec´ıfico
que destaca por su sencillez. En ese caso, la tabla de contingencia se reducir´a a lo siguiente:
54
´ ENTRE VARIABLES CUALITATIVAS
CAP´ITULO 3. RELACION
(2 × 2)
A1
A2
Total
B1
O11
O21
O·1
B2
O12
O22
O·2
Total
O1·
O2·
n
Ejemplo 7: tabla 2 × 2. Se pretende averiguar en qu´e medida
es efectiva una vacuna contra la hepatitis. Se estudi´o una muestra
de 1083 individuos de los cuales algunos hab´ıan sido vacunados y
otros no; transcurrido un largo periodo de tiempo, algunos hab´ıan
llegado a contraer la hepatitis mientras que otros estaban sanos.
La tabla de contingencia resultante es la siguiente:
Vacunaci´
on
Hepatitis
(2 × 2)
S´ı
No
Total
S´ı No
11 70
538 464
549 534
Total
81
1002
1083
Para un caso de este tipo, a la hora de medir el grado de asociaci´on de las variables, podemos
utilizar, adem´as del conocido coeficiente C, el denominado coeficiente φ, que se define mediante
φ2 = χ2exp /n, o lo que es lo mismo,
s
(O11 O22 − O12 O21 )2
φ=
O1· O2· O·1 O·2
Si analizamos detenidamente la u
´ltima expresi´on, concluiremos que φ2 es un par´ametro completamente an´alogo al coeficiente de correlaci´on lineal r2 . Concretamente, puede tomar cualquier
valor entre 0 y 1. El valor 0 se corresponde con asociaci´on nula y el valor 1, con una asociaci´on
m´axima.
Ejercicio 60. Comprobar que el valor de φ para los datos del ejemplo 7 es 0.211.
En definitiva, se obtiene el valor φ = 0.211. Por su parte, el coeficiente de contingencia,
que en una tabla 2 × 2 debe estar comprendido entre 0 y 0.707, da como resultado en esta
caso C = 0.206. Ambos valores coinciden en expresar un grado de relaci´on medio-bajo en la
muestra observada. El valor m´aximo φ = 1 se corresponde con una tabla diagonal. Es lo que
lo que habr´ıa ocurrido si los datos de la muestra hubieran sido los siguientes:
Vacunaci´
on
Hepatitis
(2 × 2)
S´ı
No
Total
S´ı
No
0
81
1002 0
1002 81
Total
81
1002
1083
Por contra, el valor φ = 0 se corresponde con un grado nulo de relaci´on, que se habr´ıa alcanzado
si nuestros datos hubieran sido los siguientes:
Vacunaci´
on
Hepatitis
(2 × 2)
S´ı
No
Total
S´ı
No
334 27
668 54
1002 81
Total
361
722
1083
3.2. FACTORES DE RIESGO
55
Efectivamente, si fuera ´este el caso podr´ıamos observar que, tanto en el caso de vacunados
como en el de no vacunados, la proporci´on condicionada de individuos afectados ser´ıa 1/3. Lo
mismo ocurrir´ıa con la tabla resultante en el ejercicio 59.
Con un prop´osito meramente did´actico y para hacer hincapi´e en la semejanza entre los
par´ametros r y φ, podemos convertir en cualitativas (categorizar) las variables num´ericas X
e Y del ejemplo 4 (r = 0.91) que se representan en la figura 2.6, asign´andoles “+” cuando
el valor queda por encima de su correspondiente media y “–” cuando queda por debajo. As´ı,
obtendr´ıamos la siguiente tabla 2 × 2 , a la que corresponde un valor de φ = 0.86.
X
– + Tot
+
2 6
8
Y
–
4 0
4
Tot 6 6
12
Ejercicio 61. Comparar el valor de φ que corresponde a esta tabla con el valor r obtenido para
los datos num´ericos originales. Confr´ontese esta tabla con las figuras 2.6 y 5.7 para entender el
concepto de relaci´on estad´ıstica.
Ejercicio 62. Confr´ontese la tabla obtenida en el ejercicio 59 con las figuras 2.11 y 2.22 para
entender el concepto de independencia.
Recordamos que las conclusiones obtenidas en esta fase del estudio se ci˜
nen exclusivamente
a la muestra considerada, es decir, no estamos a´
un en condiciones de extrapolarlas al conjunto
de la poblaci´on, entre otras cosas porque no sabemos en qu´e condiciones ha sido escogida esa
muestra. Cabe incluso pensar que los individuos hayan sido seleccionados intencionadamente
para obtener unos resultados concretos.
3.2.
Factores de riesgo
Nos centramos en esta ocasi´on en un tipo particular de tabla 2 × 2 de especial inter´es en
Epidemiolog´ıa. Supongamos que una de la variables cualitativas estudiadas es la ausencia o
presencia de una enfermedad E, como puede ser un c´ancer de pulm´on, hepatitis, osteoporosis,
etc´etera, siendo la otra la ausencia o presencia de un posible factor de riesgo FR de cara a
padecer dicha enfermedad, como el hecho de fumar, el de no estar vacunado contra la hepatitis,
el de no alimentarse correctamente, etc´etera. El prop´osito de este tipo de estudios es determinar
a partir de una muestra si ese supuesto factor de riesgo lo es efectivamente y en qu´e medida.
Dado que en esta primera parte estamos en un contexto meramente descriptivo nos limitaremos
por el momento a calcular una medida apropiada del riesgo que comporta el factor en la muestra
estudiada. Las inferencias o generalizaciones se llevar´an a cabo en la segunda parte.
Ejercicio 63. Indica 5 enfermedades y 5 respectivos posibles factores de riesgo. ¿Crees que
est´an todos ellos confirmados estad´ısticamente o estamos hablando de meras suposiciones te´oricas?
En este tipo de estudios pueden considerarse diferentes par´ametros de inter´es para una
enfermedad concreta:
Prevalencia: proporci´on de individuos enfermos P (E) en un instante dado en la poblaci´on.
Incidencia: proporci´on de individuos que enferman a lo largo de un periodo de tiempo concreto. Se pueden distinguir distintos tipos de incidencias, por ejemplo, la incidencia entre los
individuos con factor de riesgo o la incidencia entre los que no lo presentan. A partir de estas
dos incidencias se calculan los riesgos relativo y atribuibles, que definiremos m´as adelante
´ ENTRE VARIABLES CUALITATIVAS
CAP´ITULO 3. RELACION
56
Estos par´ametros son de car´acter poblacional y han de ser estimados a partir de una muestra
concreta de tama˜
no n. No obstante, que un par´ametro determinado puedas ser o no estimado directamente a partir de la muestra estudiada depende del dise˜
no escogido a la hora de
seleccionarla. De esta forma, distinguiremos tres tipos de dise˜
nos:
3.2.1.
Tipos de dise˜
nos
Estudios transversales o de prevalencia: su objetivo principal es poder estimar la prevalencia, para lo cual se selecciona aleatoriamente una gran muestra de la poblaci´on y se determina la cantidad de enfermos en un momento dado. La prevalencia P (E) se estima entonces
de manera obvia mediante la proporci´on de enfermos en la muestra, Pˆ (E).
Estudios de seguimiento o de cohortes: se selecciona una muestra de individuos expuesta
al factor de riesgo y otra de no expuestos para estudiar su evoluci´on a lo largo de un periodo de
tiempo que suele ser largo, anot´andose cu´antos llegan a contraer la enfermedad en cada caso.
Este dise˜
no permite estimar las incidencias de la enfermedad para ambas cohortes, P (E|FR) y
P (E|FR), para compararlas de diversas formas1 .
Estudios retrospectivos o de caso-control: en un determinado momento se escoge una
muestra de enfermos (caso) y otra de sanos (control), para a continuaci´on averiguar qu´e individuos han estado expuestos al factor de riesgo. Suelen ser los menos costosos pues los de
prevalencia requieren muestras m´as grandes para que puedan registrarse suficientes enfermos
y los de cohortes requieren de un seguimiento a lo largo del tiempo. En contrapartida, los
estudios caso-control no permitir´an estimar prevalencias, incidencias ni medidas relacionadas.
Por contra, s´ı podemos estimar las proporciones P (FR|E), P (FR|E), lo cual da una justificaci´on
formal al concepto de Odds Ratio, que definiremos m´as tarde.
En todo caso, nuestros datos se recoger´an en una tabla 2 × 2 donde se indicar´a, por un lado,
si el individuo presenta el factor de riesgo y, por otro, si padece o desarrolla la enfermedad
estudiada.
(2 × 2)
S´ı factor No factor Total
S´ı enfermo
a
b
a+b
No enfermo
c
d
c+d
Total
a+c
b+d
n
En el ejemplo 7, la enfermedad estudiada es la hepatitis y el posible factor de riesgo el hecho
de no estar vacunado. Se supone que estamos ante un estudio de cohortes pues se efect´
ua un
seguimiento de individuos inicialmente sanos. Como hemos dicho anteriormente, en un estudio
de cohortes tiene sentido estimar las incidencias de la enfermedad por grupos a trav´es de la
tabla. Concretamente:
a
b
Pˆ (E|FR) =
Pˆ (E|FR) =
a+c
b+d
y se entender´an respectivamente como el riesgo observado en la muestra de contraer la enfermedad si se est´a expuesto al factor y en caso contrario. En un estudio caso-control tiene sentido
estimar a partir de la muestra la proporci´on de individuos enfermos que presentan el factor de
riesgo. Concretamente, tomar´ıamos
a
Pˆ (FR|E) =
a+b
1
Se denota con A el suceso contrario a A. As´ı pues, F R indica el hecho de no estar expuesto al factor de
riesgo.
3.2. FACTORES DE RIESGO
3.2.2.
57
Medidas de riesgo
Veamos cu´ales son las medidas m´as populares del riesgo que comporta un factor determinado. Aunque todas pueden en principio calcularse a partir de la tabla 2 × 2, estos valores
podr´an o no considerarse estimaciones razonables de los valores poblacionales en funci´on del
tipo de estudio del que se trate. Hemos de percatarnos tambi´en de que los propios coeficientes
C y φ pueden entenderse como medidas de riesgo dado que expresan el grado de relaci´on entre
el factor y la enfermedad. No obstante, los que indicamos a continuaci´on son m´as espec´ıficos
en el contexto epidemiol´ogico.
Riesgo atribuible: Es la diferencia entre las incidencias de enfermos, es decir,
ˆ = Pˆ (E|FR) − Pˆ (E|FR)
RA
Este par´ametro tiene sentido en estudios de cohortes. Un valor positivo indica que en la muestra
se observa una mayor tendencia a la enfermedad en los que presentan el factor de riesgo. Un
valor aproximadamente nulo indica escasa relaci´on entre el factor de riesgo y la enfermedad.
Con los datos del ejemplo 7 y si consideramos como factor de riesgo el hecho de no estar
vacunado, obtenemos una estimaci´on del riesgo atribuible de
ˆ = 13.1 % − 2.0 % = 11.1 %
RA
El porcentaje de enfermos entre los no vacunados es 11.1 puntos superior al de lo vacunados.
Fracci´
on atribuible a la exposici´
on: Se define como el cociente
FˆA =
ˆ
RA
Pˆ (E|FR)
=
Pˆ (E|FR) − Pˆ (E|FR)
Pˆ (E|FR)
Se interpreta como la parte del riesgo de los expuestos que se debe al factor propiamente,
entendiendo que una parte de los que est´an expuestos enferman por otras causas que comparten
con los no expuestos. En el caso del ejemplo anterior es del 84 %. L´ogicamente, este par´ametro
s´olo puede estimarse en los estudios de cohortes.
Riesgo relativo: Es seguramente la m´as intuitiva de todas las medidas de riesgo. Se trata
de determinar en qu´e medida incrementa el factor de riesgo la incidencia de la enfermedad. Se
estima en un estudio de cohortes mediante
ˆ
ˆ = P (E|FR)
RR
Pˆ (E|FR)
A partir de la tabla se obtiene as´ı:
ˆ =
RR
a
b
:
a+c b+d
Para los datos de la hepatitis tendr´ıamos la siguiente estimaci´on
ˆ = 13.1 = 6.55
RR
2.0
Es decir, en esta muestra se observa que el hecho de no estar vacunado aumenta 6.55 veces la
proporci´on de enfermos.
58
´ ENTRE VARIABLES CUALITATIVAS
CAP´ITULO 3. RELACION
Odds Ratio: Constituye una alternativa muy socorrida al riesgo relativo que puede ser estimada razonablemente en los estudios de tipo caso-control. Vamos a omitir aqu´ı la definici´on
original del par´ametro para expresarlo de una manera que resultar´a intuitiva, siempre y cuando hayamos entendido la esencia del concepto de correlaci´on estad´ıstica: la raz´on de productos
cruzados. Se define de acuerdo con la expresi´on de la izquierda o de la derecha seg´
un c´omo
entendamos en principio el riesgo:
ˆ = ad ,
OR
bc
ˆ = bc
OR
ad
As´ı, en el ejemplo 7 obtenemos:
Vacunaci´
on
Hepatitis
(2 × 2)
S´ı
No
Total
S´ı
11
538
549
No
70
464
534
Total
81
1002
1083
ˆ = 70 · 538 = 7.10
OR
11 · 464
Esta medida no goza de una interpretaci´on tan clara e intuitiva como el riesgo relativo. Adem´as,
siempre que el Odds Ratio resulte mayor que 1 aportar´a un valor mayor que el Riesgo Relativo,
cosa que debemos tener en cuenta si vamos a permitirnos la licencia de interpretarlos de forma
similar. Es de vital importancia entender bien la tabla para saber qu´e diagonal debe aparecer
en el numerador y cu´al en el denominador.
ˆ y RR?
Ejercicio 64. ¿Qu´e diferencia existe entre RR
Ejercicio 65. Razona lo mejor posible por qu´e en un estudio de tipo caso-control no podemos
obtener una estimaci´on razonable del riesgo relativo.
ˆ FˆA, RR
ˆ y OR
ˆ se corresponde φ = 0?
Ejercicio 66. ¿Con que valores de RA,
ˆ = 0.50?
Ejercicio 67. ¿C´omo interpretar un valor RR
Ejercicio 68. Si se afirma que un h´abito determinado incrementa en un 20 % el riesgo de
padecer una enfermedad concreta, ¿qu´e podemos decir del riesgo relativo asociado?
3.3.
Diagn´
ostico Cl´ınico
Otra cuesti´on de gran inter´es en Epidemiolog´ıa que guarda una estrecha relaci´on con las
tablas 2 × 2 es el estudio de la eficacia de los diferentes procedimientos de diagn´ostico de una
patolog´ıa o de detecci´on de sustancias dopantes. Primeramente, hemos de destacar que una
gran cantidad (por no decir la mayor´ıa) de procedimientos de diagn´ostico tienen una importante
componente estad´ıstica.
Efectivamente, nos referimos a aquellos m´etodos que consisten en medir una variable de
tipo num´erico que puede proceder de una anal´ıtica (concentraci´on de leucocitos, marcador
PSA, urea), de una ecograf´ıa (anchura de un conducto, fracci´on de acortamiento entre s´ıstole
y di´astole), etc. Si para una variable concreta conocemos la distribuci´on aproximada (es decir,
los valores que puede tomar y en qu´e proporciones) para los individuos sanos, un valor an´omalo
respecto a dicha distribuci´on puede ser considerado en principio patol´ogico, lo cual supondr´a
un resultado positivo en el diagn´ostico, que seguramente deber´a ser corroborado mediante
otra prueba m´as exhaustiva. Por contra, un valor dentro de los l´ımites correspondientes a la
poblaci´on sana supondr´a un resultado negativo, lo cual no tiene por qu´e excluir la posibilidad
de que el individuo est´e enfermo.
´
3.3. DIAGNOSTICO
CL´INICO
59
La forma de valorar la fiabilidad de un procedimiento de este tipo es aplicarlo a una muestra
de individuos con un diagn´ostico previo certero (sano o enfermo) y comprobar en qu´e medida
los enfermos coinciden con los positivos. Se trata pues de un dise˜
no tipo caso-control que dar´a
lugar a una tabla 2 × 2 como la que aparece en el siguiente ejemplo:
Ejemplo 8: Diagn´
ostico cl´ınico Se aplica un test diagn´ostico
a 1000 individuos, 200 de los cuales sabemos que est´an enfermos
mientras que de los 800 restantes sabemos que est´an sanos. Los
resultados son los siguientes:
Diagn´
ostico
Enfermedad
3.3.1.
(2 × 2)
E
S
Total
+
120 80
90 710
210 790
Total
200
800
1000
L´ımites de normalidad
Antes de cuantificar la fiabilidad del procedimiento diagn´ostico vamos a intentar detallar qu´e
entendemos por valores an´omalos. Por lo general, consideramos an´omalos los valores extremos
(demasiado grandes o demasiado peque˜
nos) en relaci´on con la distribuci´on considerada, hasta
completar un 5 % (aproximadamente). Si la variable se ajusta aproximadamente a un modelo
de distribuci´on de campana de Gauss, los l´ımites a partir de los cuales los valores se consideran
extremos son, seg´
un el ejercicio 33,
x±2·s
(3.2)
As´ı pues, para el caso de la figura 1.6, a la que corresponde una media de 179 y una desviaci´on
t´ıpica de 20, tendr´ıamos unos l´ımites de normalidad de 159-219, de manera que todo valor por
debajo de 159 o por encima de 219 se considerar´ıa an´omalo (positivo). Realmente, estos l´ımites
denominados de normalidad o tolerancia deben ser determinados a partir de muestras mucho
m´as grandes que la de la figura 1.6 para que puedan ser fiables.
En casos como el de la figura 3.3, la variable no se ajusta satisfactoriamente a un modelo de
distribuci´on normal, por lo que los l´ımites de normalidad no deben calcularse seg´
un (3.2). En
tales situaciones se pueden determinar los l´ımites de tolerancia de diferentes formas, aunque en
este concreto, cabe mencionar que una transformaci´on logar´ıtmica de la variable PSA conduce
en este caso a una distribuci´on aproximadamente normal (como se aprecia en la figura 3.4), en
la cual s´ı podemos aplicar (3.2).
Seg´
un el histograma de la figura 3.4, suponiendo que corresponda a una amplia muestra de
individuos sanos, un valor del log PSA de 7 debe interpretarse como un positivo en la anal´ıtica
que conducir´a seguramente a la realizaci´on de pruebas complementarias. Por u
´ltimo, citamos
ciertos l´ımites de tolerancia facilitados por los Servicios de Bioqu´ımica y Hematolog´ıa de un
hospital universitario espa˜
nol.
Glucosa (mg/dl) [70,110]
Urea (mg/dl)
[10,40]
Hematocrito ( %) [36,46]
Eosin´ofilos ( %)
<4
60
´ ENTRE VARIABLES CUALITATIVAS
CAP´ITULO 3. RELACION
Figura 3.3: PSA
60,0
Frecuencia
50,0
40,0
30,0
20,0
10,0
0,0
,00
50,00
100,00
150,00
200,00
250,00
300,00
Antígeno prostático específico
3.3.2.
Fiabilidad de un procedimiento de diagn´
ostico
Una vez hemos entendido c´omo puede dise˜
narse a grandes rasgos un procedimiento de
diagn´ostico, vamos intentar analizar la fiabilidad del mismo partiendo de una tabla de contingencia 2 × 2 donde se confronta la enfermedad con el resultado del diagn´ostico, como la
del ejemplo 8. Efectivamente, cae dentro de los posible, como se aprecia en la tabla, que un
individuo sano sea diagnosticado err´oneamente como enfermo (positivo), lo cual se denomina
falso positivo. Tambi´en es posible que un individuo enfermo sea diagnosticado como sano
(negativo), lo cual ser´ıa un falso negativo. Por ello, definimos las siguientes medidas:
Sensibilidad: proporci´on de enfermos que son diagnosticados como positivos.
Especificidad: proporci´on de sanos diagnosticados como negativos.
Página 1
Para el m´etodo diagn´ostico del ejemplo 8, obtendr´ıamos las siguientes estimaciones a partir
de la tabla obtenida:
120
= 0.600
sens = Pˆ (+|E) =
200
710
esp = Pˆ (−|S) =
= 0.887
800
Es decir, la proporci´on de falsos negativos en la muestra es del 40.0 % y la de falsos positivos
del 11.3 %.
Ejercicio 69. ¿Qu´e sensibilidad y especificidad se espera de un procedimiento de diagn´ostico
completamente fiable?
Imaginemos un procedimiento para determinar si un tumor de pr´ostata es o no agresivo
a partir del PSA, de manera que, si ´este u
´ltimo est´a por encima de cierto umbral de referencia, se anotar´a un positivo en el diagn´ostico. Si el test resultar´a ser poco sensible podr´ıamos
´
3.3. DIAGNOSTICO
CL´INICO
61
Figura 3.4: log PSA
40,0
Frecuencia
30,0
20,0
10,0
0,0
,000
2,000
4,000
6,000
Logaritmo Psa
solucionarlo bajando el umbral de referencia, pero en tal caso descender´ıa la especificidad.
Rec´ıprocamente, si subimos el umbral de corte pare aumentar la especificidad disminuir´a la
sensibilidad. La viabilidad de la variable PSA para discriminar entre sanos y enfermos puede
valorarse gr´aficamente mediante la denominada curva ROC (o COR), donde se calculan y representan la sensibilidad y 1 menos la especificidad para los diferentes puntos de corte de PSA.
La situaci´on ideal es aquella en la que la primera sea pr´oxima a 1 y la segunda a 0. Una buena
variable (un buen m´etodo, en definitiva) debe generar una ´area pr´oxima a 1 bajo la curva. En
la figura 3.5 aparece la curva ROC en funci´on del logaritmo del PSA.
Ejercicio 70. Interpreta la curva ROC de la figura 3.5.
Página 1
Figura 3.5: Curva ROC para PSA
Curva COR
1,0
Susceptibilidad
0,8
0,6
0,4
0,2
0,0
0,0
0,2
0,4
0,6
0,8
1,0
1 - Especificidad
Los segmentos diagonales son producidos por los empates.
Las medidas de fiabilidad anteriores se complementa con esta otras de gran inter´es para el
paciente:
´ ENTRE VARIABLES CUALITATIVAS
CAP´ITULO 3. RELACION
62
Valor predictivo positivo: se entiende como la probabilidad2 de estar enfermos si se ha
dado positivo en el test.
Valor predictivo negativo: se entiende como la probabilidad de estar realmente sano si se
ha dado negativo en el test.
Ejercicio 71. ¿Qu´e valores predictivos positivo y negativo cabe esperar de un m´etodo de
diagn´ostico completamente certero?
Ejercicio 72. ¿Como estimar´ıas en principio los valores predictivos positivo y negativo directamente a trav´es de la tabla? ¿Por qu´e el dise˜
no habitual de caso-control utilizado en el
ejercicio 8 no permite unas estimaciones adecuadas seg´
un el procedimiento anterior?
Los valores predictivos positivo y negativo pueden ser estimados a partir de la sensibilidad
y especificidad, siempre y cuando se conozca de antemano la prevalencia de la enfermedad,
mediante un recurso estad´ıstico utilizado en situaciones de este tipo que se denomina Regla de
Bayes. Concretamente, se verifica:
V P+ =
sens × prev
sens × prev + (1 − esp) × (1-prev)
V P− =
esp × (1 − prev)
(1 − sens) × prev + esp × (1-prev)
As´ı, si suponemos conocido que la enfermedad considerada en el ejemplo 8 presenta una prevalencia del 2 %, tendremos:
V P+ =
0.60 × 0.02
= 0.097
0.60 × 0.02 + 0.113 × 0.98
0.887 × 0.98
= 0.990
0.40 × 0.02 + 0.887 × 0.98
El procedimiento empleado parece ser pues mucho m´as u
´til para descartar la enfermedad que
para detectarla. Otras veces ocurre lo contrario, por lo que la pr´actica habitual es combinar
diferentes tests. Para m´as detalles al respecto consultar la bibliograf´ıa recomendada, en es
especial Cobo, Mu˜
noz y Gonz´alez (2007).
V P− =
Otras cuestiones propuestas
Ejercicio 73. Si pretendemos probar la eficacia de una vacuna mediante una tabla 2 × 2 como
en el caso del ejemplo 7, ¿c´omo debemos interpretar en t´erminos cl´ınicos un resultado φ = 0.02?
Ejercicio 74. Para estudiar la posible relaci´on entre la exposici´on a un agente radioactivo se
lleva a cabo un seguimiento durante 20 a˜
nos de 5.000 individuos pr´oximos a dicho agente y otros
95.000 lejanos, contabilizando en cada caso los tumores de tiroides que fueron diagnostic´andose.
Los resultados del estudio quedan recogidos en la siguiente tabla:
Exposici´
on
Tumor
2
(2 × 2)
S´ı
No
Total
S´ı
No
25
30
4975 94970
5000 95000
Total
55
99945
100000
N´
otese que es la primera vez que mencionamos este concepto de manera expl´ıcita. Podemos interpretarlo
de manera intuitiva.
´
3.3. DIAGNOSTICO
CL´INICO
63
¿De qu´e tipo de dise˜
no se trata?
Calcular cuatro medidas del riesgo que, seg´
un la muestra, supone la proximidad al agente
radioactivo.
¿Cu´al de ellas crees que es la m´as apropiada? Interpr´etala en t´erminos cl´ınicos.
Ejercicio 75. Se piensa que la presencia de cierta variedad de un gen puede predisponer a un
cierto tipo de tumor. Para contrastarlo se seleccionaron 1000 individuos sanos y otros tantos
afectados por el tumor. A continuaci´on, se procedi´o a efectuar un an´alisis gen´etico de todos
los individuos de la muestra para determinar si presentaban o no la variedad del gen. Los
resultados aparecen en la siguiente tabla:
Tumor
Gen
S´ı
No
Total
S´ı
No
610 360
390 640
1000 1000
Total
970
1030
2000
¿De qu´e tipo de dise˜
no se trata?
Calcula una medida de riesgo adecuada e interpr´etala en t´erminos cl´ınicos.
Ejercicio 76. Calcula el valor de φ en las tablas anteriores.
Ejercicio 77. Considera una determinada enfermedad, un posible factor de riesgo asociado y
dise˜
na un hipot´etico estudio con vistas a medir el grado de riesgo de dicho factor.
Ejercicio 78. En funci´on de los datos del ejercicio 30 determinar los l´ımites a partir de los
cuales un beb´e var´on puede considerarse anormalmente pesado y anormalmente liviano.
Ejercicio 79. Se pretende estudiar la posible relaci´on entre la presencia o ausencia de cierta
enfermedad y el sexo. Para ello se seleccionaron 10000 individuos que fueron clasificados en
funci´on de ambas variables, dando lugar a la siguiente tabla de contingencia:
Enfermo
Sano
Total
Hombre Mujer Total
95
5
100
5905
3995
9900
6000
4000 10000
Calcula la proporci´on de hombres de la muestra que padecen la enfermedad.
Calcula la proporci´on de personas de la muestra que padecen la enfermedad.
Calcula la proporci´on de personas de la muestra que son hombres y, adem´as, padecen la
enfermedad.
Calcula la proporci´on de personas de la muestra que son hombres.
Sin necesidad de calcularlo, razona si cabe esperar un valor de φ pr´oximo a 0.
Ejercicio 80. Se pretende valorar la efectividad de una prueba diagn´ostica A para una enfermedad presente en el 2 % de la poblaci´on. Para ello fue aplicada a una muestra constituida por
750 enfermos y 250 sanos con los siguientes resultados:
64
´ ENTRE VARIABLES CUALITATIVAS
CAP´ITULO 3. RELACION
Enfermos
Sanos
Total
+
730
50
780
20
200
220
Total
750
250
1000
Estimar la sensibilidad y especificidad de la prueba diagn´ostico, as´ı como las proporciones
de falsos positivos y falsos negativos. Estimar los valores predictivos positivos y negativos.
Valorar los resultados en t´erminos muy pr´acticos.
Ejercicio 81. Disponemos de otro procedimiento diagn´ostico B para la misma enfermedad.
Sus resultados tras aplicarlo a los mismos individuos son los siguientes:
Enfermos
Sanos
Total
+
610
3
613
140
247
387
Total
750
250
1000
Estimar nuevamente la sensibilidad, especificidad y los valores predictivos positivo y negativo. Valorar los resultados y compararlos con los del procedimiento A.
Parte II
Inferencia Estad´ıstica
65
Cap´ıtulo 4
Introducci´
on a la Inferencia Estad´ıstica
Tal y como indicamos en la introducci´on, el prop´osito final de la Bioestad´ıstica es determinar
las causas o consecuencias de un fen´omeno biom´edico, que estar´a en principio sujeto a un
grado mayor o menor de incertidumbre, con el prop´osito de eliminar ´esta en la medida de
lo posible. Con esa intenci´on se procede al an´alisis descriptivo de una muestra, en la que
podemos observar diferentes circunstancias, como un cierto grado de correlaci´on lineal, ciertas
diferencias entre las medias aritm´eticas de algunas categor´ıas, etc´etera. Sin embargo, el hecho
de que en una muestra concreta apreciemos cierto grado de correlaci´on, por ejemplo, no debe
hacernos descartar que, si la reemplazamos por otra diferente, nuestra impresi´on sea otra. Esta
variabilidad de los posibles resultados en funci´on de la muestra estudiada se debe a que el
car´acter que pretendemos explicar (peso, acidosis, hepatitis) se rige en buena parte por un
conjunto de variables que no controlamos en el experimento y que por lo tanto, fluct´
uan de
una muestra a otra. Es lo que se entiende com´
unmente como azar.
Lo que resta es completar el esquema de la figura 1 mediante la Inferencia Estad´ıstica, que
consiste en un conjunto de t´ecnicas para determinar de manera aproximada en qu´e medida lo
observado en la muestra puede generalizarse o extrapolarse a la poblaci´on de la que procede.
Estas t´ecnicas parten de una serie de supuestos te´oricos de car´acter ideal, es decir que, en la
pr´actica, nunca o casi nunca se verifican estrictamente. Obviamente, cuanto m´as dr´astica sea la
violaci´on de dichos supuestos, mayores ser´an los errores cometidos en los c´alculos inferenciales.
El primero de dicho supuestos es el de aleatoriedad, es decir, partimos de la premisa inicial de
que nuestra muestra es aleatoria. Eso significa que deber´ıa haber sido seleccionada mediante
un procedimiento equivalente a un sorteo de loter´ıa. A partir de dicha suposici´on elaboramos
una serie de c´alculos de car´acter probabil´ıstico.
En este manual utilizaremos el concepto de probabilidad desde un punto de vista intuitivo,
remitiendo a la bibliograf´ıa1 al lector interesado en un estudio m´as riguroso de la Inferencia
´
Estad´ıstica. Esta
es una licencia que podemos permitirnos sin demasiado reparo en el contexto
de las Ciencias de la Salud puesto que, cuando hablamos de probabilidad, solemos referirnos
habitualmente una proporci´on calculada respecto al total de una poblaci´on. Por ejemplo, la
probabilidad de medir m´as de 1.70 se entiende como la proporci´on de individuos de la poblaci´on
estudiada que mide m´as de 1.70.
4.1.
Par´
ametros poblacionales y muestrales
Todos los valores t´ıpicos estudiados en los cap´ıtulos 1, 2 y 3 a partir de una muestra de
tama˜
no n pueden definirse te´oricamente a partir de todos los valores de la poblaci´on estudiada.
Decimos te´oricamente porque en la pr´actica no podr´an ser calculados. As´ı por ejemplo, seg´
un
1
Ver, por ejemplo, un ap´endice o ampliaci´on de este mismo manual
http://matematicas.unex.es/∼jmf/htm/material enfermeria medicina.html
67
en
la
p´agina
web
´ A LA INFERENCIA ESTAD´ISTICA
CAP´ITULO 4. INTRODUCCION
68
vimos en (1.1),
x=
k
X
xi pˆi
(4.1)
i=1
donde pˆi denota la proporci´on de datos de la muestra que presenta el valor xi . El hom´ologo
poblacional µ se define entonces mediante
X
µ=
xi pi
(4.2)
i
donde pi denota la proporci´on de datos de la poblaci´on que presenta el valor pi , es decir, la
probabilidad de xi . De la misma forma que redefinimos la media, podemos redefinir todos los
dem´as valores t´ıpicos. Es costumbre denotar por letras griegas los par´ametros poblacionales
para distinguirlos de sus hom´ologos muestrales o decriptivos, que se denotan por letras latinas.
En otras ocasiones, los par´ametros poblacionales se expresan directamente con letras latinas y
los muestrales con la misma letra y, encima, el signoˆ.
Muestral Poblacional
x
µ
2
s
σ2
r
ρ
Bj
βj
ˆ
RR
RR
Las conclusiones definitivas del estudio dependen de lo que sepamos acerca de los par´ametros
poblacionales. Por ejemplo, en el problema de relaci´on entre el peso y la longitud del f´emur
en fetos (figura 2.8), que exista relaci´on equivale a que el coeficiente de correlaci´on lineal
poblacional ρ no sea nulo; es directa si es positivo y m´as fuerte cuanto mayor sea ρ2 . La mejor
ecuaci´on para predecir el peso a partir de las tres medidas del ec´ografo viene dada por los
valores β0 , β1 , β2 y β3 de la ecuaci´on de regresi´on poblacional. Por otra parte, que la acidosis
influya de alguna forma en el nivel de glucemia (ver figura 2.19) equivale a que las medias de
glucemia para las cuatro categor´ıas poblacionales, µ1 , µ2 , µ3 y µ4 (sanos, acidosis respiratoria,
metab´olica y mixta) no sean id´enticas. El sentido de la relaci´on vendr´a dado por el signo de
las diferencias y el grado de relaci´on por la magnitud de las mismas.
Queremos decir que, si pudi´eramos calcular los par´ametros poblacionales como calculamos
los muestrales, el problema finalizar´ıa aqu´ı pues las conclusiones ser´ıan definitivas. La cuesti´on
es que los par´ametros poblacionales no pueden obtenerse en la pr´actica, sino que tenemos que
conformarnos con sus hom´ologos muestrales, es decir, estimarlos a partir de unas muestras de
las cuales nos fiamos en parte.
Ejercicio 82. ¿Por qu´e no podemos calcular en la pr´actica los par´ametros poblacionales? De
poder hacerlo, indica c´omo probar´ıas que se da una relaci´on inversa entre la concentraci´on en
sangre de calcio y hormona paratiroidea. ¿C´omo determinar´ıas una ecuaci´on para explicar una
variable a partir de la otra? ¿Ser´ıan exactas las predicciones?
4.2.
Muestreo
Ya hemos comentado que es la supuesta aleatoriedad de la muestra la que nos permite
emitir conclusiones en lenguaje probabil´ıstico, porque una muestra aleatoria representa a la
poblaci´on de la que procede, tanto mejor cuanto mayor sea el tama˜
no n de la misma. Efectivamente, cualquiera de nosotros puede comprobar que, si lanza un dado sim´etrico un n´
umero n
suficientemente grande de ocasiones, las proporciones de unos, doses, treses, cuatros, cincos y
´
4.3. ESTIMACION
69
seises obtenidas se aproximan a 1/6. Es decir, que los resultados de n lanzamientos nos hablan
de la propia estructura del dado. Este hecho se denomina en general Ley de azar, y constituye
en la pr´actica el fundamento de la Inferencia Estad´ıstica.
Ejercicio 83. Relacionar en estos t´erminos las ecuaciones (4.1) y (4.2) suponiendo que la muestra a partir de la cual se ha calculado x es aleatoria y grande, para as´ı entender la aproximaci´on
de x a µ y, en general, de los valores t´ıpicos a sus respectivos hom´ologos poblaciones.
En ocasiones, como en el problema de la acidosis en beb´es, se precisa elegir una muestra
aleatoria para cada categor´ıa estudiada; ocurre lo mismo en los estudios de cohortes, donde
se elige una muestra de expuestos y otra de no expuestos a un posible factor de riesgo, o en
los de caso-control, donde se elige una muestra de enfermos y otra de sanos (el problema de
acidosis es una variante de este tipo). En el caso del estudio del f´emur y el peso de los fetos, no
deber´ıamos considerar ninguna estratificaci´on a la hora de seleccionar la muestra, sino efectuar
un sorteo simple.
Hay que advertir claramente que, en la pr´actica, la obtenci´on de la muestra mediante un
sorteo en la poblaci´on es ut´opica2 ; que que debemos conformarnos con analizar la informaci´on
de la que disponemos tras un dise˜
no de recogida de datos ideado para impedir sesgos o decisiones
espurias a la hora de incluirlos en el estudio. Si es as´ı, la muestra puede considerarse, si no
aleatoria, al menos arbitraria, lo cual puede ser suficiente, siempre y cuando no sobrevaloremos
los resultados que obtengamos. Ello supone un primer error de partida que debemos estar
dispuestos a arrastrar en el resto del estudio; el segundo gran error radica en los errores, a
veces de bulto, que se suelen cometer en la medici´on de las variables, especialmente cuando
´estas son de tipo ordinal o cualitativo; a estos dos problemas principales se le sumar´an otros
de menor envergadura, cosa que hemos de tener muy presente en nuestras conclusiones, que en
ning´
un caso adquieren la categor´ıa de demostraciones matem´aticas, como era de esperar.
Ejercicio 84. Analiza la veracidad o falsedad de la siguiente afirmaci´on: “Si una muestra es
de gran tama˜no podemos garantizar su aleatoriedad”.
4.3.
Estimaci´
on
En este nuevo contexto, los valores t´ıpicos estudiados en la primera parte se entienden
como estimaciones o aproximaciones de los correspondientes par´ametros poblacionales, que
ser´an m´as certeros cuanto m´as grande sea la muestra. No obstante, suponiendo que la muestra
sea aleatoria, estamos en condiciones de acotar el error con un cierto grado de confianza, es
decir, de aportar un intervalo en el cual esperamos que se encuentre el valor desconocido del
par´ametro poblacional. Estas cotas se basan en c´alculos probabil´ısticos m´as o menos b´asicos
seg´
un el caso.
Intervalo de confianza: por ejemplo, el intervalo al 95 % de confianza para la media poblacional µ de una variable num´erica a partir de una muestra de tama˜
no n con media x y
desviaci´on t´ıpica s se construye as´ı:
s
x ± 1.96 √
n
As´ı pues, el margen m´aximo de error de la estimaci´on x con una confianza del 95 % es
√
Emax = 1.96 · s/ n
2
(4.3)
Tanto es as´ı que incluso el concepto de poblaci´on no deja de ser un objeto abstracto pues, en la pr´
actica,
no puede ser acotado con claridad.
70
´ A LA INFERENCIA ESTAD´ISTICA
CAP´ITULO 4. INTRODUCCION
Ejemplo 9: intervalo de confianza para una media. Se pretende estimar la media µ de la estatura X de las mujeres de entre
16 y 50 a˜
nos pertenecientes a una amplia poblaci´on. Para ello se
escogi´o una muestra supuestamente aleatoria de n = 40 mujeres,
las cuales aportaron una media aritm´etica de 162.3 cm con una
desviaci´on t´ıpica de 5.2 cm.
As´ı pues ya tenemos una estimaci´on puntual de la media µ: la media aritm´etica x = 162.3. El
margen m´aximo de error al 5 % de confianza
5.2
Em´ax = 1.96 · √ = 1.6
40
Por lo tanto, el intervalo de confianza al 95 % correspondiente es 162.3 ± 1.6. En definitiva,
podemos afirmar con una confianza del 95 % que la media de altura de la poblaci´on se encuentra
entre 160.7 cm y 163.9 cm.
La expresi´on (4.3) merece cuatro comentarios aclaratorios:
1. Cuanto mayor sea la desviaci´on t´ıpica muestral s, es decir, cuanto m´as variabilidad se
aprecie en la muestra, mayor ser´a el margen de error. Efectivamente, una gran dispersi´on
observada en la variable a trav´es de la muestra se traduce a su vez en una variabilidad de
la media aritm´etica muestral, en el sentido de que puede variar mucho de una muestra a
otra y, por lo tanto, es poco fiable.
2. Cuanto mayor sea n menor es el margen de error. Efectivamente, es el tama˜
no de la
muestra el que puede amortiguar la variabilidad debida a s. De hecho, a medida que el
tama˜
no tiende a infinito, el margen de error tiende a 0. En la pr´actica, podemos aprovechar la expresi´on (4.3) para determinar de manera aproximada el tama˜
no de muestra
necesario, en funci´on de un margen m´aximo de error establecido de antemano y con una
confianza determinada (usualmente del 95 %), supuesta conocida una estimaci´on inicial
de la desviaci´on t´ıpica mediante una peque˜
na muestra piloto.
En general, conocer de antemano el tama˜
no de muestra preciso para afrontar con garant´ıas
un estudio estad´ıstico es uno de las grandes deseos del investigador experimental. Sin
embargo y a pesar de las creencias que se propagan desde muchos a´mbitos es muy dif´ıcil
satisfacer dicho deseo porque requiere del conocimiento de ciertos par´ametros (en sentido
amplio) m´as delicados y conflictivos que el propio tama˜
no de muestra. No obstante,
f´ormulas hay, y muchas, como podemos comprobar, por ejemplo, en Mart´ınez-Gonz´alez et
al. (2014), cap´ıtulo 7. Rogamos encarecidamente no hacer un mal uso de dichas f´ormulas,
porque un abuso del lenguaje matem´atico no compensa necesariamente una falta de rigor
cient´ıfico.
3. El valor 1.96 ha aparecido ya en otras ocasiones pero redondeado como 2, por ejemplo
en la p´agina 21 y en el ejercicio 33. Se trata del valor que delimita dos colas con el 5 %
de los datos m´as extremos en la distribuci´on N (0, 1):
De esta forma obtenemos el 95 % de confianza deseado. En ocasiones se desea una confianza mayor, por ejemplo del 99 %. En ese caso, debemos reemplazar 1.96 por el valor
que permite delimitar dos colas iguales con el 1 % del a´rea en la curva anterior. Se trata
concretamente de 2.58. Se denotan respectivamente por z0.05 en el primer caso y z0.01 en
el segundo. En general, zα es el valor que permite delimitar dos colas cuya suma de a´reas
sea α. Los distintos valores (cuantiles) pueden obtenerse a partir de una tabla num´erica
asociada a la distribuci´on N (0, 1). Existen otras tablas probabil´ısticas muy utilizadas en
´
4.4. CONTRASTE DE HIPOTESIS
71
Figura 4.1: Distribuci´on N (0, 1)
95 %
Extremos
2.5 %
-1.96
Extremos
2.5 %
1.96
Inferencia Estad´ıstica y relacionadas con la N (0, 1) de la que haremos menci´on, como la
t-Student, la χ2 y la F -Snedecor. Todas ellas llevan asociados unos par´ametros enteros
denominados grados de libertad que las modulan.
4. Cuando hablamos de 95 % de confianza no estamos expresando de forma vaga un grado de
certeza psicol´ogica sino que queremos decir lo siguiente: si aplic´aramos el procedimiento
expresado en (4.3) a una gran cantidad de muestras de tama˜
no n, conducir´ıa a unos
m´argenes de error que se respetar´ıan aproximadamente en el 95 % de los casos, es decir,
que para un 5 % de las posibles muestras, las m´as extremas, la diferencia entre su media
aritm´etica x y µ ser´ıa superior al Emax calculado. Esas muestras nos conducir´ıan pues
a una concepto err´oneo de la media poblacional. En la pr´actica, s´olo dispondremos de
una muestra y esperamos que no pertenezca a ese 5 % fat´ıdico de muestras extremas
que conducen a un intervalo err´oneo. Si deseamos aumentar nuestra confianza, podemos
construir el intervalo al 99 %, pero teniendo en cuenta que eso s´olo se consigue a costa de
agrandarlo y perder por lo tanto precisi´on.
Ejercicio 85. Estamos realmente en condiciones de determinar de manera aproximada un
tama˜
no de muestra suficiente como para alcanzar el grado deseado de precisi´on en la estimaci´on.
¿C´omo?
Supongamos ahora que estudiamos una variable cualitativa con dos categor´ıas, como por
ejemplo el hecho de padecer o no cierta dolencia. Podemos estimar la proporci´on global de
enfermos p mediante su proporci´on pˆ en la muestra estudiada. Para calcular un intervalo de
confianza para dicha predicci´on basta con percatarse de que la proporci´on de enfermos equivale
a la media de la variable num´erica que toma un valor 1 si el individuo est´a enfermo y 0 si est´a
sano, y proceder entonces seg´
un (4.3).
4.4.
Contraste de hip´
otesis
Con mucha frecuencia en Inferencia Estad´ıstica estamos interesados en decidir, a partir de
la muestra considerada, si un modelo te´orico inicial concreto es o no aceptable. Concretamente,
el estudio de relaci´on entre variables a nivel poblacional puede entenderse como el contraste
de un modelo inicial de independencia. Es decir, que se presupone la hip´otesis inicial de que
entre las variables consideradas no existe relaci´on alguna, que se denota por H0 , y se contrasta
si la muestra observada es compatible con dicha hip´otesis o, por el contrario, la contradice
significativamente. Dicho de otra forma, debemos decidir si la correlaci´on lineal, la diferencia
72
´ A LA INFERENCIA ESTAD´ISTICA
CAP´ITULO 4. INTRODUCCION
de medias aritm´eticas, etc. observada en la muestra es extrapolable a la poblaci´on de la que
procede o, por el contrario, podr´ıa explicarse meramente por el azar inherente al muestreo, de
manera que cabr´ıa incluso pensar que otra muestra del mismo tama˜
no aportara una correlaci´on
o una diferencia de medias en sentido opuesto. Por otra parte y como podemos comprobar,
tenemos mucho inter´es en expresar, si es posible, las diferentes hip´otesis estad´ısticas a contrastar
mediante par´ametros poblacionales, como en los siguientes ejemplos que podemos encontrar en
los cap´ıtulos 2 y 3.
Relaci´on del peso del fetos con su longitud de f´emur:
H0 : ρ = 0 equivalentemente H0 : β1 = 0
Relaci´on del peso del feto con la longitud de f´emur y circunferencias craneal y abdominal:
H0 : β1 = β2 = β3 = 0
Relaci´on de la acidosis en reci´en nacidos con el nivel de glucemia:
H0 : µ1 = µ2 = µ3 = µ4
Riesgo de no vacunarse de cara a padecer hepatitis:
H0 : RR = 1
No podemos afirmar que todas las hip´otesis iniciales sean de este tipo pero s´ı al menos las m´as
importantes. El criterio intuitivo que rige el procedimiento se denomina Principio de M´axima
Verosimilitud, y podr´ıamos formularlo as´ı:
En todo caso caso debemos optar por el modelo que haga m´as veros´ımil nuestra muestra. Es
decir, si nuestra muestra es poco compatible con un modelo te´orico dado, debemos pensar que
dicho modelo no explica correctamente la realidad.
En definitiva, partiremos de un modelo (hip´otesis) inicial y evaluaremos lo compatible, lo
posible, lo veros´ımil que resulta nuestra muestra seg´
un dicho modelo. El P -valor, que en rigor
es una probabilidad y que, en consecuencia, se encuentra entre 0 y 1, expresa precisamente el
grado de compatibilidad. Es decir,
...debe entenderse como la medida de la verosimilitud de la muestra seg´
un el modelo te´orico
inicial.
De esta forma, si P es grande significa que la muestra es compatible con H0 , luego no
estaremos en condiciones de rechazarlo. Es lo que se denomina un resultado no significativo;
por contra, si es peque˜
no, expresa una contradicci´on entre la muestra y la hip´otesis inicial, lo
cual nos induce a rechazarla a favor de su contrario (H1 ) en virtud del Principio de M´axima
Verosimilitud. Es lo que se denomina un resultado significativo. El P -valor no es sino el resultado
final de un test de hip´otesis, que es la evaluaci´on cuantitativa a la que se someten los datos de
la muestra.
Falta por determinar qu´e entendemos por grande o peque˜
no o, dicho de otra forma, que
entendemos por veros´ımil o raro. Como ya habremos comprobado, en Estad´ıstica se conviene,
siguiendo una cierta tradici´on, que lo raro o extremo debe suponer a lo sumo un 5 % del total,
de ah´ı que 0.05 sea el valor de referencia o nivel de significaci´on habitual. En definitiva:
´
4.4. CONTRASTE DE HIPOTESIS
73
P > 0.05 : La informaci´on que aporta la muestra no contradice de manera significativa
la hip´otesis inicial (resultado no significativo).
P < 0.05 : La informaci´on que aporta la muestra s´ı contradice de manera significativa la
hip´otesis inicial (resultado significativo).
En ning´
un caso debe confundirse un test de hip´otesis con una demostraci´on matem´atica, pues
el resultado del primero es s´olo una decisi´on razonable a partir de los datos y basada en unos
c´alculos probabil´ısticos aproximados. De hecho, hay que tener muy presente que los tests de
hip´otesis tienden a aportar resultados no significativos cuando se aplican a muestras de peque˜
no
tama˜
no y significativos cuando se aplican a muestras muy numerosas.
Ejercicio 86. ¿Por qu´e afirmamos que cuanto m´as grande es el tama˜
no de la muestra m´as
facilidades tenemos para obtener resultados significativos?
4.4.1.
El test de Student como ejemplo
Veamos un ejemplo de c´omo funciona un test de hip´otesis. Hemos escogido el test posiblemente m´as utilizado en Bioestad´ıstica. Viene a dilucidar si existe una relaci´on significativa
entre una variable cualitativa binaria (como por ejemplo estar sano o enfermo, ser tratado o
no tratado) y una variable num´erica (glucemia, presi´on arterial, etc). Seg´
un se apunt´o en el
cap´ıtulo 2, el problema de relaci´on entre ambas variables se traduce en un problema de comparaci´on de las medias poblacionales de la variable num´erica, µ1 y µ2 , correspondientes a cada
una de las categor´ıas consideradas. Es decir, la hip´otesis inicial a contrastar es
H0 : µ1 = µ2
Si seleccionamos de manera independiente sendas muestras aleatorias para cada categor´ıa, el
algoritmo al que se someten los datos se denomina test de Student para muestras independientes.
Ejemplo 9: dise˜
no de dos muestras independientes. Se estudia la
posible relaci´on entre la edad de la primera menstruaci´on (menarquia) y la
enfermedad celiaca. Para ello se toma una muestra de n1 = 79 mujeres sanas
de y otra muestra de n2 = 78 celiacas de edad parecida. En cada caso se
anot´o la edad en a˜
nos de la menarquia. Desde el punto de vista descriptivo,
las sanas aportaron una media x1 = 12.74 y una desviaci´on t´ıpica s1 = 1.48,
mientras que las celiacas aportaron una media x2 = 13.33 con una desviaci´on
t´ıpica s2 = 1.90. En la figura 4.2 se establece una comparativa de ambas
muestras a trav´es de los diagramas de caja.
Podemos observar que, al menos por t´ermino medio (y mediano), las celiacas de la muestra
presentan una menarquia ligeramente m´as tard´ıa que las sanas. Hemos de dilucidar si esa diferencia apreciada en esta muestra concreta es significativa o, por el contrario, puede explicarse
exclusivamente por el azar del muestreo. En el primer caso podremos inferir que, en general,
la celiaqu´ıa se asocia a una primera menstruaci´on m´as tard´ıa. Inicialmente, supondremos que
ambas variables no guardan relaci´on (H0 : µ1 = µ2 ) y evaluaremos si la muestra estudiada
contradice claramente dicha hip´otesis.
Seg´
un el modelo inicial, las medias muestrales x1 y x2 deber´ıan ser parecidas, es decir, la
diferencia x1 − x2 deber´ıa ser pr´oxima a 0. Obviamente, no podemos exigir que sea igual a 0
porque debemos asumir diferencias entre las muestras debidas exclusivamente al azar inherente
al muestro. El problema es cuantificar qu´e estamos dispuestos a achacar al azar, lo cual es un
problema de C´alculo de Probabilidades. Concretamente, seg´
un el modelo inicial, la diferencia
74
´ A LA INFERENCIA ESTAD´ISTICA
CAP´ITULO 4. INTRODUCCION
Figura 4.2: Menarquia vs celiaqu´ıa
18,00
Edad menarquía
16,00
14,00
12,00
10,00
140
8,00
Sana
Celiaca
Celiaquía
de medias muestrales deber´ıa seguir un modelo de distribuci´on normal de media 0, de manera
que, al tipificarlo seg´
un (4.4), deber´ıa seguir una distribuci´on N (0, 1) como la de la figura 4.1.
x1 − x2
texp = q 2
s1
s2
+ n22
n1
(4.4)
El n´
umero texp resultante3 , denominado valor experimental, recoge toda la informaci´on que
aporta la muestra estudiada en lo referente al contraste de la hip´otesis H0 : µ1 = µ2 . Si ´esta es
efectivamente cierta, cabr´ıa esperar un valor de texp en torno al 0, de acuerdo con un modelo
de distribuci´on N (0, 1). Seg´
un dicho modelo, valores de texp extremos (a partir de ±1.96) son
poco veros´ımiles. Es decir, seg´
un el Principio de M´axima Verosimilitud, valores bajos de |texp |
nos conducen a aceptar la hip´otesis inicial mientras que valores altosPágina
de1 |texp | nos conducen a
rechazarla. El P -valor en este caso es el a´rea de las colas que determinan −|texp | y |texp |, como
se indica en la figura 4.3, lo cual expresa en qu´e medida es veros´ımil la muestra seg´
un H0 . En
nuestro ejemplo, texp = −2.18, correspondi´endole entonces un valor P = 0.031. Seg´
un hemos
convenido, el resultado es significativo (se opta por la hip´otesis alternativa H1 : µ1 6= µ2 ), por
lo que podemos concluir que la celiaqu´ıa se relaciona con la menarquia en el sentido indicado.
De haber obtenido un valor texp pr´oximo a 0, que no ha sido el caso, el P -valor habr´ıa
resultado mayor que 0.05, lo cual se habr´ıa interpretado como que la muestra estudiada habr´ıa
resultado compatible con la hip´otesis inicial H0 , que habr´ıa sido entonces aceptada. Ello se
habr´ıa traducido en una ausencia de pruebas claras para relacionar menarquia y la celiaqu´ıa.
Los mismos c´alculos probabil´ısticos que nos llevan a considerar (4.4) conducen tambi´en al
siguiente intervalo4 de confianza al 95 % para la diferencia entre µ1 y µ2 :
s
s21
s2
x1 − x2 ± z0.05
+ 2
n1 n2
3
qEn el test de Student propiamente dicho se reemplaza el denominador anterior por la expresi´on
−1
2
2
2
sc n−1
1 + n2 , donde sc = [(n1 − 1)s1 + (n2 − 1)s2 ]/(n1 + n2 − 2)
4
Al igual que en (4.4), se calcula en la pr´
actica a trav´es de sc .
´
4.4. CONTRASTE DE HIPOTESIS
75
Figura 4.3: Distribuci´on de texp seg´
un H0
P/2
−|texp |
P/2
|texp |
En nuestro ejemplo, obtenemos que µ1 − µ2 debe encontrarse, con una confianza del 95 %, en
el intervalo
(−1.13, −0.05)
lo cual indica que la media µ1 (menarquia para sanas) es en todo caso menor que µ2 (menarquia
para celiacas), cosa que concuerda l´ogicamente con lo que ya sab´ıamos a trav´es del P -valor.
Efectivamente, puede comprobarse analizando la expresi´on (4.4) que P < 0.05 equivale a que el
0 quede fuera del intervalo al 95 % de confianza para µ1 − µ2 . Pero el intervalo aporta algo que
no expresa expl´ıcitamente el P -valor, pues cuantifica con un margen de error la diferencia entre
las categor´ıas, por lo que viene a dar una magnitud de la influencia de la variable cualitativa
sobre la num´erica. Esto es especialmente u
´til en el caso de muestras de gran tama˜
no, para las
cuales los resultados suelen ser significativos.
Por u
´ltimo, advertimos que en este problema hemos precisado del conocimiento de la distribuci´on N (0, 1). En otros tests que mencionaremos m´as adelante, se precisar´a del conocimiento
de otras tablas te´oricas como las de la t-Student, χ2 o F -Snedecor, implementadas por supuesto
en cualquier programa estad´ıstico.
Ejercicio 87. Existe la teor´ıa de que el Bisfenol A, compuesto qu´ımico presente en muchos
tipos de pl´astico y que nuestro organismo puede absorber, podr´ıa dar lugar a abortos tempranos
en embriones masculinos, lo cual har´ıa disminuir la proporci´on de nacimientos varones. Para
contrastar dicha teor´ıa, se efectu´o un seguimiento de 6 embarazadas que, por su trabajo, estaban
muy expuestas al Bisfenol A, resultando que todas ellas tuvieron finalmente ni˜
nas. ¿Corrobora
eso la teor´ıa? Responde directamente a trav´es de un P -valor.
4.4.2.
Tests param´
etricos vs tests no param´
etricos
En la mayor´ıa de las ocasiones estamos interesados en contrastar hip´otesis iniciales expresadas en t´erminos de par´ametros poblacionales, como la media o el coeficiente de correlaci´on.
Este punto de vista est´a claramente vinculado a la distribuci´on normal. Efectivamente, sabemos
de la importancia que en general posee el par´ametro media, y que ´este debe complementarse
con alguna medida de dispersi´on para poder caracterizar la distribuci´on de los datos. La desviaci´on t´ıpica desempe˜
na ese papel, al menos en el caso de la distribuci´on normal. Tambi´en
sabemos que el estudio de correlaci´on lineal est´a vinculado a la normalidad de las variables
consideradas. Por lo tanto, cabe preguntarse, primeramente, qu´e utilidad tiene el estudio de
estos par´ametros cuando no podemos suponer la normalidad de las distribuciones consideradas
(por ejemplo cuando se da un fuerte sesgo).
76
´ A LA INFERENCIA ESTAD´ISTICA
CAP´ITULO 4. INTRODUCCION
Pero lo m´as conflictivo es que, en la mayor´ıa de los test que propondremos en el siguiente
cap´ıtulo, como el propio test de Student, se supone, adem´as de la aleatoriedad de la muestra o
muestras consideradas, la normalidad de las variables num´ericas estudiadas, e incluso hip´otesis adicionales. Esta problem´atica conduce a la fragmentaci´on de la Inferencia Estad´ıstica en
dos ramas. En la primera, la distribuci´on normal desempe˜
na un papel central, por lo que las
inferencias se orientan a conocer lo posible acerca de los par´ametros asociados a dicha distribuci´on. Esta rama se denomina por lo tanto Estad´ıstica Param´etrica. La otra corriente construye
los distintos m´etodos partiendo de d´ebiles supuestos sobre la distribuci´on de las variables y
no se busca por lo tanto el conocimiento de los par´ametros que las caracterizan, de ah´ı que se
denomine Estad´ıstica no Param´etrica.
Podemos decir que los m´etodos no param´etricos cl´asicos se basan fundamentalmente en el
orden de los datos, es decir, que de cada observaci´on de la muestra importar´a s´olo el rango
o posici´on que ocupa respecto a los dem´as datos de la misma. Son por lo tanto m´etodos
robustos ante la presencia de valores extremos (como sucede con el c´alculo de la mediana o el
coeficiente de correlaci´on de Spearman) pero, por contra, cuando se verifican las condiciones
de validez requeridas por los m´etodos param´etricos, los no param´etricos son menos potentes,
es decir, poseen menor capacidad de detectar la violaci´on de la hip´otesis inicial a partir de
los datos. Adem´as, la interpretaci´on directa de par´ametros como la media o el coeficiente de
correlaci´on resulta bastante intuitiva, de ah´ı el inter´es m´as o menos general en aplicar m´etodos
param´etricos.
En todo caso y en virtud del Teorema Central del L´ımite, mencionado en la secci´on 1.2, un
tama˜
no de muestra suficientemente grande otorga validez aproximada a los tests param´etricos
para contrastar la igualdad de medias, en el sentido de que el P -valor calculado por el test es
aproximadamente correcto. No queremos decir con ello que al aumentar el tama˜
no de muestra
desaparezca un posible sesgo en la distribuci´on, por supuesto. De ah´ı que un tama˜
no de muestra
grande no convierta en lineal una relaci´on que en principio no lo es. Por lo tanto, lo dicho
anteriormente no puede aplicarse al problema de correlaci´on-regresi´on.
En definitiva, en el cap´ıtulo siguiente nos centraremos en los principales m´etodos param´etricos, aunque indicaremos escuetamente en cada caso el procedimiento no param´etrico que podr´ıa
reemplazar al m´etodo param´etrico propuesto en el caso de que ´este sea inviable. El esquema
simplificado a seguir es el siguiente:
La cota n = 30 que aparece en el esquema anterior no posee, ni mucho menos, car´acter
universal. Realmente, deber´ıamos decir que, cuanto mayor es el sesgo de la variable considerada, mayor es el tama˜
no de muestra necesario para que el valor experimental del test siga la
distribuci´on de referencia. El tama˜
no n = 30 deber´ıa servir para compensar la mayor´ıa de los
sesgos, aunque en muchas ocasiones es suficiente una cantidad de datos mucho menor y, en
otras muy extremas, no basta ni con n = 60. La cota n = 3000 se ha introducido de manera
casi arbitraria para indicar una cantidad de datos muy grande.
4.4.3.
Pruebas de normalidad
Asumir el supuesto de normalidad significa aceptar que la distribuci´on de frecuencias relativas de los datos de la poblaci´on se adaptan aproximadamente a una curva normal. Esta
situaci´on ocurre con bastante frecuencia en las Ciencias de la Salud, lo cual no quiere decir que
se deba dar por descontado.
Precisamente, existen diversos m´etodos, como el de Kolmogorov-Smirnov, el de ShapiroWilk, el χ2 o el de D’Agostino, para contrastar la hip´otesis inicial de que cierta variable sigue
un modelo de distribuci´on normal a partir de una muestra aleatoria de tama˜
no n. La mayor´ıa
´
4.4. CONTRASTE DE HIPOTESIS
77
Figura 4.4: Comparaci´on de medias y tama˜
no de muestra
DESCRIPTIVA
Tamaño de muestra
n=3000
INFERENCIA PARAMÉTRICA
Y
NO PARAMÉTRICA
n=30
INFERENCIA PARAMÉTRICA O NO
PARAMÉTRICA DEPENDIENDO DE
NORMALIDAD
INFERENCIA NO PARAMÉTRICA O DESCRIPTIVA
n =10
de ellos est´a vinculados a aspectos gr´aficos. Tambi´en existe un m´etodo basado directamente
en los coeficientes de simetr´ıa y aplastamiento. Se trata en definitiva de contrastar la hip´otesis
inicial de normalidad de la variable num´erica X estudiada
H0 : X ∼ Normal
De esta forma, se rechazar´a la normalidad cuando los datos observados la contradigan claramente. En este cap´ıtulo hemos afirmado que en la mayor´ıa de los contrastes se pretende
probar si existe correlaci´on entre variables, suponiendo como hip´otesis inicial que ´esta es nula.
El contraste de normalidad puede considerarse una excepci´on en ese sentido, pues s´olo entra
en juego una variable num´erica. N´otese adem´as que la normalidad de la variable es la hip´otesis
inicial. En consecuencia, una muestra peque˜
na y, por lo tanto, con escasa informaci´on, dif´ıcilmente podr´a conducir a rechazar la hip´otesis de normalidad. Por contra, si la muestra es muy
grande, los resultados ser´an significativos ante la menor violaci´on del supuesto de Normalidad
(ejercicio 86). Por ello, debemos ser muy precavidos a la hora de interpretar los resultados si
nos decidimos a aplicar un test de este tipo.
Ejercicio 88. Si aplicamos el test de normalidad de Shappiro-Wilk a los 30 datos de colesterolemia representados en la figura 1.6, obtenemos como resultado P = 0.973. Interpr´etalo en
t´erminos pr´acticos.
78
´ A LA INFERENCIA ESTAD´ISTICA
CAP´ITULO 4. INTRODUCCION
Cap´ıtulo 5
M´
etodos de Inferencia Estad´ıstica
En este cap´ıtulo exponemos de manera muy esquem´atica las t´ecnicas de Inferencia Estad´ıstica m´as utilizadas en los problemas de relaci´on entre variables. Se trata pues de una
continuaci´on natural de los cap´ıtulos 2 y 3. Para cada problema estudiado indicaremos la alternativa no param´etrica al test param´etrico propuesto. Al final del cap´ıtulo expondremos una
tabla resumen.
Este manual est´a ideado como gu´ıa para que un usuario de la Estad´ıstica sepa aplicar
mediante el software adecuado las t´ecnicas b´asicas, de ah´ı que los detalles te´oricos queden
relegados a la bibliograf´ıa recomendada. En definitiva, se pretende que, dado un problema
concreto, el lector sea capaz de identificar el procedimiento estad´ıstico a seguir e interpretar
los resultados que se obtienen tras la aplicaci´on del programa estad´ıstico.
5.1.
El problema de correlaci´
on-regresi´
on
Esta secci´on supone una continuaci´on de las secciones 2.3 y 2.4. El problema estriba en
explicar una variable num´erica a partir de otra u otras variables, a su vez num´ericas, mediante
una ecuaci´on de regresi´on adecuada y utilizando la informaci´on de una muestra supuestamente
aleatoria de tama˜
no n.
5.1.1.
Test de correlaci´
on
Empecemos por el caso m´as sencillo, consistente en estudiar la posible relaci´on entre dos
variables num´ericas, como en el caso de la predicci´on del peso del feto a partir de la longitud
del f´emur, que se ilustra en la figura 2.8. La muestra de tama˜
no n = 40 aport´o un coeficiente de
2
correlaci´on lineal muestral r = 0.802 (r = 0.643), es decir: en la muestra se aprecia un fuerte
grado de correlaci´on directa. La cuesti´on es si podemos extrapolarla al global de poblaci´on para
concluir que un f´emur largo se asocia a un peso elevado. La respuesta parece obvia en este caso
con s´olo ver el gr´afico, pero en otros casos no ocurrir´a lo mismo.
En definitiva, estamos contrastando la hip´otesis inicial de independencia entre peso y longitud de f´emur, que puede expresarse a trav´es del coeficiente de corrrelaci´on lineal poblacional
ρ mediante
H0 : ρ = 0
frente a la hip´otesis alternativa H1 : ρ 6= 0, que se corresponde con alg´
un grado de relaci´on
lineal entre ambas. Por lo tanto, se trata de valorar si la muestra observada contradice significativamente la hip´otesis inicial de independencia. De manera an´aloga a (4.4), la informaci´on
que aporta la muestra queda resumida en el n´
umero
r
r2
(5.1)
texp = (n − 2)
1 − r2
79
80
´
CAP´ITULO 5. METODOS
DE INFERENCIA ESTAD´ISTICA
que se confrontar´a con la tabla de la distribuci´on t-Student(n − 2) para obtener el P -valor
correspondiente. T´engase en cuenta que, a partir de m = 30, la tabla de la t-Student(m) es
pr´acticamente id´entica a la de la N (0, 1). En nuestro caso obtenemos texp = 8.27, al que le
corresponde un valor P < 0.001. Se dice entonces que la correlaci´on observada es altamente
significativa. Por contra, un resultado no significativo en el test de correlaci´on significa que la
posible relaci´on observada en la muestra puede ser explicada exclusivamente por el azar, que
no es el caso.
Cuando tenemos dudas acerca de la linealidad de la relaci´on o advertimos la presencia de
datos an´omalos, podemos optar por la alternativa no param´etrica de Spearman, que consiste
en calcular el coeficiente de correlaci´on entre los rangos y aplicarle un test espec´ıfico. En este
ejemplo aporta el mismo resultado.
Ejercicio 89. Tras aplicar el test de correlaci´on a los datos correspondientes al ejercicio 55 se
obtiene P < 0.001. Interpreta el resultado en t´erminos pr´acticos.
Ejercicio 90. Tras aplicar el test de correlaci´on a los datos correspondientes a la figura 2.11
se obtiene P < 0.731. Interpreta el resultado en t´erminos pr´acticos.
5.1.2.
Regresi´
on m´
ultiple
Si nuestro objetivo es predecir una variable como el peso del feto de la mejor manera posible
´
debemos intentar explicarla a partir de varias variables que correlacionen con ella. Estas
ser´an
incluidas en una ecuaci´on de regresi´on. Por ejemplo, en el caso del peso, podemos incluir,
adem´as de la longitud del f´emur, las circunferencias del abdomen y cabeza, dado que son
variables que tambi´en correlacionan con el peso (como puede comprobarse aplicando sendos
tests de correlaci´on) y porque entendemos que pueden explicar partes de la variabilidad del peso
no explicada por el f´emur, lo cual da lugar a R2 = 0.915. La primera pregunta, cuya respuesta
es con mayor raz´on que en el apartado anterior obvia, es si esta correlaci´on es significativa. Eso
se responde mediante el test de correlaci´on m´
ultiple que es una generalizaci´on del anterior y
cuyo resultado depende en este caso del valor
Fexp =
n − 4 R2
3 1 − R2
que se confrontar´a con la tabla F -Snedecor. El valor 3 aparece en este caso porque son 3 las
variables explicativas. El resultado es altamente significativo (P < 0.001), lo cual quiere decir
simplemente que est´a claro que entre las tres variables logramos explicar algo del peso.
Lo que realmente nos interesa es la ecuaci´on (2.1) que permite explicarlo. Pero los coeficientes B0 , B1 , B2 y B3 de la ecuaci´on son propios de la muestra estudiada y debemos pues
interpretarlos como meras estimaciones de coeficientes β0 , β1 , β2 y β3 poblacionales. No obstante, estamos en condiciones de calcular intervalos de confianza para los mismos. Adem´as,
podemos aplicar los denominados tests parciales, que permiten contrastar hip´otesis iniciales del
tipo H0 : β3 = 0. Se trata pues de evaluar la importancia de cada variable explicativa en
la predicci´on. En el cuadro 5.1 se presentan los coeficientes estimados y los resultados de los
diferentes test parciales, seg´
un los cuales las tres variables intervienen significativamente en la
explicaci´on del peso. Un resultado no significativo para alguna de las variables significar´ıa que
dicha variable no explicar´ıa claramente nada al margen de lo que explicaran de por s´ı el resto
de variables. Por eso, estos resultados deben ser interpretados con precauci´on cuando las variables explicativas est´an fuertemente correlacionadas entre s´ı, pues ello da lugar a un fen´omeno
de solapamiento denominado multicolinealidad. M´as concretamente, si tenemos la intenci´on de
eliminar variables explicativas que no sean esenciales debemos excluirlas de una en una. Es lo
que se denomina un proceso de selecci´on hacia atr´as.
´ ENTRE DOS VARIABLES CUALITATIVAS
5.2. RELACION
81
Cuadro 5.1: Ecuaci´on de regresi´on ec´ografo
Coeficientes
(Constante)
B
Sig.
-149,006
LF
12,635
,000
CC
9,798
,000
CA
-9,433
,000
Como ya comentamos en el cap´ıtulo 2, la ecuaci´on(2.1) tiene como objeto pronosticar el
peso del feto a partir de las tres medidas proporcionadas por el ec´ografo. Por desgracia, no
estamos en condiciones, ni mucho menos, de garantizar su exactitud aunque, en su defecto,
podemos construir un intervalo de confianza al 95 % para cada predicci´on obtenida. En todo
caso, la precisi´on de la estimaci´on depender´a de tres factores: el valor de R2 obtenido, el tama˜
no
de muestra n y la posici´on respecto a la muestra estudiada del individuo sobre el que se efect´
ua
la predicci´on.
Ejercicio 91. ¿En qu´e sentido crees que influye en la precisi´on de la estimaci´on cada uno de
los factores anteriores?
Ejercicio 92. Mediante un programa estad´ıstico construye un intervalo de confianza para la
predicci´on efectuada en el ejercicio 43.
5.2.
Relaci´
on entre dos variables cualitativas
Esta secci´on supone una continuaci´on del cap´ıtulo 3. Nuestro problema es determinar si una
muestra dada supone una prueba significativa de la relaci´on entre dos variables cualitativas. En
esencia se trata de aplicar un test de correlaci´on similar a (5.1) pero reemplazando r por una
medida de asociaci´on a nivel cualitativo: C. De esta forma, el denominado test χ2 se obtiene
confrontando el valor
C2
(5.2)
χ2exp = n
1 − C2
con la tabla de la distribuci´on χ2 (m), siendo m = (r − 1)(s − 1), donde r denota el n´
umero de
filas y s el de columnas. Si nuestra tabla es del tipo 2 × 2, podemos calcular χ2exp a partir de φ
como φ2 /n.
La distribuci´on χ2 guarda una estrecha relaci´on con las distribuciones N (0, 1), t-Student
y F -Snedecor. Podemos afirmar que, si trabaj´aramos siempre con muestras suficientemente
grandes, s´olo se precisar´ıa del conocimiento de las tablas de la distribuci´on χ2 para resolver la
mayor´ıa de los problemas de Inferencia Estad´ıstica.
En el ejemplo 6 relacion´abamos la salud de los ´arboles, distinguiendo tres categor´ıas seg´
un
su nivel de cloroplastos, con la contaminaci´on, distinguiendo a su vez tres categor´ıas en funci´on
de la concentraci´on de SO2 . En total cont´abamos con n = 60 a´rboles en el estudio que aportaron
un valor C = 0.444. En consecuencia, obtenemos χ2exp = 14.74 que se corresponde, seg´
un la
2
tabla χ (4), con P = 0, 005. Se trata pues de un resultado muy significativo. Por lo tanto,
podemos concluir que, tal y como se aprecia en la muestra, las concentraciones elevadas de
SO2 se asocian a una peor salud de los a´rboles.
El test de χ2 precisa de una serie de condiciones de validez que, a grandes rasgos, se
resumen en lo siguiente: debemos contar con una cantidad suficiente de datos, especialmente
´
CAP´ITULO 5. METODOS
DE INFERENCIA ESTAD´ISTICA
82
Figura 5.1: Distribuci´on χ2 (3)
0.00
0.05
0.10
0.15
0.20
0.25
0.30
Densidad Chi−cuadrado(3)
0
5
10
15
20
25
30
si pretendemos distinguir muchas categor´ıas en las variables estudiadas. En caso contrario
debemos agrupar categor´ıas hasta llegar, si es preciso, a una tabla tipo 2 × 2. Si aun as´ı el
n´
umero de datos es demasiado peque˜
no, debemos aplicar la alternativa no param´etrica conocida
como test exacto de Fisher.
Como casos especiales de tablas tipo 2×2 tenemos los estudios epidemiol´ogicos de factores de
riesgo, que dan pie a las medidas conocidas como Riesgo Relativo y Odds Ratio. Ahora estamos
en condiciones de entender tambi´en estos par´ametros en t´erminos poblacionales, en cuyo caso
se denotan por RR y OR, respectivamente. Que un determinado factor comporte riesgo para
una enfermedad concreta se traduce entonces en RR > 1 o OR > 1, seg´
un la medida de riesgo
considerada. Esto nos conduce a contrastar las hip´otesis iniciales H0 : RR = 1 o H0 : OR = 1.
La primera, propia de un estudio de cohortes, se contrasta confrontando con la tabla χ2 (1) el
valor experimental
ˆ 2
(log RR)
2
,
χexp =
s2logRR
ˆ
donde
s2logRR
ˆ =
c
d
+
a(a + c) b(b + d)
En el caso del ejemplo 7, donde el posible riesgo es la no vacunaci´on contra la hepatitis,
obtenemos
s2logRR
χ2exp = 34.97, P < 0.001
ˆ = 0.101,
La hip´otesis inicial H0 : OR = 1 se contrastar´ıa en un estudio tipo caso-control (o tambi´en de
cohortes) confrontando con la tabla χ2 (1) el valor experimental
χ2exp =
ˆ 2
(log OR)
,
s2logOR
ˆ
siendo
s2logOR
ˆ =
1 1 1 1
+ + +
a b c d
En nuestro caso,
s2logRR
ˆ = 0.109,
χ2exp = 35.24,
P < 0.001
Queda pues claro que el hecho de no vacunarse contra la hepatitis implica un incremento en el
riesgo de padecerla.
Ejercicio 93. A partir de los datos del ejercicio 74, contrasta si existe relaci´on entre la exposici´on al agente radioactivo y el tumor de tiroides.
´ DE MEDIAS
5.3. COMPARACION
5.3.
83
Comparaci´
on de medias
En la secci´on 2.5 adelantamos que el estudio de la relaci´on entre una variable cualitativa y
otra num´erica puede traducirse en una comparaci´on entre las medias (par´ametros de centralizaci´on en general) que dicha variable num´erica posee en cada categor´ıa de la variable cualitativa.
Ahora estamos en condiciones de abordar este estudio desde el punto de vista inferencial, lo
cual dar´a pie a las t´ecnicas m´as populares de la Bioestad´ıstica. Distinguiremos tres apartados
dependiendo del dise˜
no considerado en la selecci´on de muestras y del n´
umero de categor´ıas que
consideremos.
5.3.1.
Test de Student(1) para muestras relacionadas
Es el test apropiado para el dise˜
no de muestras relacionadas o apareadas, que tiene como
prop´osito controlar la variabilidad debida al individuo. Consiste en seleccionar una muestra
aleatoria de n individuos a los que se les mide una variable num´erica antes de iniciar un tratamiento para volver a med´ırsela despu´es. En tal caso, no estaremos hablando de una variable
sino de dos variables distintas (X1 =antes, X2 =despues) sobre una u
´nica poblaci´on, sin distinguir categor´ıas1 . Si el tratamiento es efectivo debe producirse una evoluci´on, es decir, un
cambio entre los valores de X1 y X2 . No estamos en condiciones de exigir que ese cambio se d´e
en el mismo sentido para todos los individuos, pero s´ı al menos que se d´e por t´ermino medio,
de ah´ı que el problema se traduzca finalmente en una comparaci´on entre las respectivas medias
µ1 y µ2 .
Ejemplo 10: dise˜
no de dos muestras apareadas. Se pretende probar los beneficios de la crioterapia en el tratamiento de la
artrosis de rodillas en mujeres mayores. Para ello se seleccion´o una
muestra de n = 30 pacientes a las que se eval´
uo su nivel de dolor
mediante la escala EVA (0=ausencia dolor; 10=dolor m´aximo) antes de iniciar el tratamiento y tras 5 semanas de tratamiento. En
resumen, obtenemos que la media muestral del dolor antes de iniciar el tratamiento es x = 5.37, con una desviaci´on t´ıpica s1 = 0.97;
el dolor medio muestral tras finalizar el tratamiento es x2 = 5.59,
con una desviaci´on t´ıpica s2 = 0.99.
Podemos pues apreciar que, por t´ermino medio, en la muestra se ha producido un peque˜
no
incremento del dolor. En consecuencia, esta muestra no supondr´a en ning´
un caso una prueba
significativa de la eficacia de la crioterapia para esta dolencia. M´as bien deber´ıamos preguntarnos si el tratamiento es contraproducente (o al menos incapaz de frenar un empeoramiento
espont´aneo), como en principio podr´ıa deducirse de la muestra. En todo caso, la hip´otesis a
contrastar es
H0 : µ1 = µ2
El test de Student para muestra relacionadas es especialmente sencillo, pues consiste en calcular
la diferencia entre ambas variables, D = X1 − X2 , cuya media media es µD = µ1 − µ2 , y
contrastar la hip´otesis inicial
H0 : µD = 0
Para ello, considera la media aritm´etica D y desviaci´on t´ıpica sD de la diferencia (D puede
calcularse directamente como x1 − x2 pero sD no) y confronta el valor
texp =
1
D
√
sD / n
Por lo tanto, en buena l´
ogica, este apartado deber´ıa haber sido incluido en la secci´on 5.1. Nos hemos
permitido la licencia de ubicarlo aqu´ı por razones did´acticas.
´
CAP´ITULO 5. METODOS
DE INFERENCIA ESTAD´ISTICA
84
con la tabla t-Student(n − 1), similar a la N (0, 1).
Cuadro 5.2: Test de Student muestras relacionadas EVA
Media dif
Desv tip dif
Lim inf 95%
Lim sup 95%
texp
P
-,214
1,11
-,63
,201
-1,054
0.301
Es decir, en la muestra se ha observado un empeoramiento de 0.214 puntos en la escala EVA por
t´ermino medio. Sin embargo, no ha resultado significativo (P > 0.05), por lo que no podemos
generalizarlo. Tambi´en aparece el intervalo de confianza al 95 % para la diferencia de medias
µ1 − µ2 , (−0.63, 0.20), que se interpreta as´ı: el empeoramiento medio podr´ıa ser de 0.63 puntos
como m´aximo, pero tampoco podr´ıamos descartar una mejor´ıa de 0.20 puntos como m´aximo.
Es decir, no tenemos claro si se puede mejorar o empeorar, en eso consiste aceptar H0 .
El test de Student para muestras relacionadas se idea suponiendo que se verifica un requisito concreto: que la variable diferencia se distribuye seg´
un un modelo normal. Esto puede
contrastarse mediante un test de normalidad aunque, como ya hemos comentado enel cap´ıtulo
anterior, el si la muestra es lo suficientemente grande. En todo caso, contamos con una alternativa no param´etrica denominada test de Wilcoxon, especialmente adecuada cuando la muestra
es de escaso tama˜
no. En nuestro caso aporta como resultado P = 0.417, por lo que la conclusi´on
que se desprende del test de Wilcoxon es la misma que se desprende del de Student(1).
5.3.2.
Test de Student(2) para muestras independientes
El test de Student para muestras independientes ha sido introducido en la secci´on 4.4 a ra´ız
del ejemplo 9, en el que se comparaban las edades medias de la menarquia de dos categor´ıas de
mujeres: celiacas y no celiacas. Para ello se procedi´o a seleccionar, de manera independiente,
sendas muestras de tama˜
nos n1 y n2 que fueron sometidas al test de Student(2), consistente
en confrontar con la tabla t-Student(n1 + n2 − 2), similar a la N (0, 1), el valor experimental
texp =
x − x2
q1
sc n11 + n12
El resultado fue P < 0.001. Adem´as, se concluy´o que la diferencia entre medias poblacionales
deb´ıa encontrarse, con una confianza del 95 %, en el intervalo (−1.13, −0.05). La salida completa
del programa estad´ıstico SPSS es la siguiente:
Podemos apreciar que la comparaci´on de medias se efect´
ua con dos tests diferentes: el de
Student, que corresponde a la l´ınea superior y el test de Welch, que corresponde a la inferior.
Esto es as´ı porque el test de Student(2) requiere en principio que las distribuciones de la
variable num´erica en las categor´ıas consideradas sean de tipo normal y con id´enticas varianzas.
La normalidad deber´ıa contrastarse mediante un test adecuado, de manera que si no podemos
aceptarla en alguna de las categor´ıas deber´ıamos optar por la alternativa no param´etrica de
Mann-Whitney, que consiste b´asicamente en una comparaci´on de los rangos promedios (en
este caso aporta el resultado P < 0.001). Si aceptamos la normalidad en ambas categor´ıas
deber´ıamos, te´oricamente, contrastar la hip´otesis inicial de igualdad de varianzas H0 : σ12 = σ22
mediante test de Levene, que aparece a la izquierda (cuyo resultado es significativo en este
caso). Si podemos aceptar dicha hip´otesis, el test m´as adecuado es el de Student y, en caso
contrario, el de Welch.
Media dif
Desv tip dif
Lim inf 95%
´ DE1,11MEDIAS
-,214
-,63
5.3. COMPARACI
ON
Lim sup 95%
texp
P
,201
-1,054
0.301
85
Cuadro 5.3: Test de Student muestras independientes
Prueba de muestras independientes
Prueba de Levene
para la igualdad
de varianzas
Prueba T para la igualdad de medias
95% Intervalo de
confianza para la
F
Se han asumido varianzas
5,445
Sig.
,021
t
gl
Sig.
Diferencia
(bilateral)
de medias
diferencia
Inferior
Superior
-5,855
155
,000
-1,5928
-2,1302
-1,0554
-5,846
145,238
,000
-1,5928
-2,1314
-1,0543
iguales
No se han asumido
varianzas iguales
No obstante, el usuario de la Estad´ıstica no debe permitir que el ´arbol le impida ver el
bosque. Primeramente, si las muestras son de tama˜
nos suficientes y similares, el resultado del
test de Student puede considerarse v´alido. Segundo, es habitual comprobar que los tres tests
posibles (Student, Welch, Mann-Whitney) aportan los mismos resultados, aunque no tiene por
qu´e. Parece necesario proponer un esquema m´as sencillo a la hora de resolver el problema que
no pase por la aplicaci´on previa de dos tests de hip´otesis de car´acter secundario. En la figura
5.2 proponemos un procedimiento simplificado que resume ´este apartado y el anterior:
Figura 5.2: Procedimiento comparaci´on dos medias
Normalidad o
muestras grandes
Student (2)
No normalidad y
muestras pequeñas
Mann-Whitney
Muestras
independientes
Normalidad de la diferencia o
muestra grande
Stundet (1)
No normalidad de la
diferencia y muestra pequeña
Wilcoxon
Muestras
apareadas
Ejercicio 94. ¿Qu´e ventaja puede reportar aplicar el test
de StudentNo en
lugar del de MannNo significativo
relación
Normalidad o
Whitney?
Anova
muestras grandes
5.3.3.
Significativo
Tuckey
Anova de una v´ıa
Este test es una generalizaci´on del de Student que se aplica para un mismo tipo de estudio
y de dise˜
no con la salvedad de que podemos distinguir unNon´
umero de categor´
ıas y, por lo tanto,
significativo
No relación
No normalidad y
Kruskal-Wallis
de medias, mayor de dos.
Ser´
ıa
pues
apropiado
para
los
datos
del
problema
8,
en el que se trata
muestras pequeñas
de contrastar si las medias de glucemia son id´enticas en
las cuatro categor´
Significativo
Relación ıas consideradas
(control, respiratoria, metab´olica y mixta):
H0 : µ1 = µ2 = µ3 = µ4
´
CAP´ITULO 5. METODOS
DE INFERENCIA ESTAD´ISTICA
86
El test que resuelve el contraste se denomina anova de una v´ıa y requiere en principio de
las mismas condiciones que el test de Student para dos muestras independientes. Podemos
efectuar, no obstante, las mismas consideraciones acerca de los tama˜
nos muestrales y tambi´en
contamos con alternativas como la de Brown-Forsyte y, especialmente, el test no param´etrico de
Kruskall-Wallis, que a su vez generaliza el de
Mann-Whitney.
Normalidad
o
Student (2)
muestras grandes
Ejercicio 95. ¿Qu´e suceder´a si aplicamos el anova de una v´ıa a un problema con dos medias?
Muestras
En el caso del independientes
ejemplo 8 el resultado es P < 0.001. Quiere decir que las diferencias apreciadas a nivel muestral son realmente significativas,
on entre la acidosis
No normalidad ypor lo que existe relaci´
Mann-Whitney
muestras
pequeñas
y la glucemia. Para determinar de la manera m´as precisa en qu´e sentido se da dicha relaci´on
debemos proceder a comparar las medias por parejas de manera simult´anea: se trata del denominado problema de comparaciones m´ultiples. Para ello tenemos a nuestra disposici´on diversos
procedimientos aunque, para simplificar, Normalidad
podemos
el m´eStundet
todo(1)de Tukey, que es ideal
de laoptar
diferenciapor
o
muestra grande
en el caso de que las muestras de las diferentes
categor´ıas sean de id´entico tama˜
no. Si hemos
optado por aplicarMuestras
el test de Kruskall-Wallis, podemos utilizar las comparaciones m´
ultiples de
apareadas
Dunnet. Todo ello lo resumimos en la figura 5.3.
No normalidad de la
diferencia y muestra pequeña
Wilcoxon
Figura 5.3: Procedimiento comparaci´on m´as de dos medias
Normalidad o
muestras grandes
No significativo
No relación
Significativo
Tuckey
Anova
No normalidad y
muestras pequeñas
No significativo
No relación
Significativo
Relación
Kruskal-Wallis
Los resultados de las comparaciones m´
ultiples para los datos del ejemplo 8 aparecen en el
cuadro 5.4. Podemos apreciar que, tal y como se intu´ıa en la figura 2.19, la acidosis mixta no
se asocia a un cambio significativo de la glucemia mientras que la respiratoria y en especial la
metab´olica la aumentan significativamente.
Cuadro 5.4: Comparaciones m´
ultiples acidosis
Nivel de glucemia en el cordón umbilical
a
HSD de Tukey
Subconjunto para alfa = 0.05
Tipo de acidosis
N
1
Acidosis Mixta
50
62,61069
Control
50
62,67940
Acidosis Respiratoria
50
Acidosis Metabólica
50
Sig.
2
3
71,38224
78,80371
1,000
1,000
Se muestran las medias para los grupos en los subconjuntos
homogéneos.
a. Usa el tamaño muestral de la media armónica = 50,000.
1,000
´
´ AVANZADAS
5.4. OTRAS TECNICAS
MAS
5.4.
Cualitativa-cualitativa
87
Tabla de contingencia, C, Chi2
Otras t´
ecnicas m´
as avanzadas
En el cuadro 5.5 presentamos un esquema simplificado de los m´etodos estudiados hasta el
momento en el cap´ıtulo. Por su parte, en la figura 5.4 Factores
podemos
ver una s´ıntesis global
riesgo
RR, ORde la
materia tratada hasta ahora. En esta u
´ltima secci´on introduciremos brevemente otras cuatro
t´ecnicas m´as avanzadas que se utilizan a menudo en el contexto biom´edico, tres de las cuales
pueden considerarse generalizaciones o variantes del an´alisis de la varianza de una v´ıa y la
regresi´on lineal. Consideremos un ejemplo que ya ha sido tratado en el cap´ıtulo 2.
Cuadro 5.5: Resumen m´etodos b´asicos Inferencia
Problema
Dos medias independientes
Dos medias apareadas
Más de dos medias independientes
Correlación lineal numéricas
Correlación cualitativas
Método paramétrico
Student (2)
Student (1)
Anova
Correlación Pearson
Test chi-cuadrado
Método no paramétrico
Mann-Whitney
Wilcoxon
Kruskal-Wallis
Correlación Spearman
Test Exacto de Fisher
Figura 5.4: Resumen general
Más
de dos
Numérica-cualitativa
Comparación
medias
Dos
Relación variables
Numérica-numérica
Cualitativa-cualitativa
Anova-Tuckey
Student
Regresión-correlación, r2
Tabla de contingencia, C, Chi2
Factores riesgo
RR, OR
Ejemplo 11: ancova, anova de dos v´ıas y regresi´
on log´ıstica.
Problema
Método
paramétrico
Método
no
paramétrico
En un estudio realizado a 97 pacientes con un tumor de pr´ostata
Dos medias independientes
Student (2)
Mann-Whitney
se registr´
o enapareadas
cada caso el logaritmo
del volumen
Dos medias
Student (1)
Wilcoxon del tumor y del
Más de dos medias independientes
Kruskal-Wallis
ant´ıgeno
prost´atico espec´ıficoAnova
(PSA), as´ı como
el hecho de presenCorrelación lineal numéricas
Correlación Pearson
Correlación Spearman
Correlación
cualitativas
de Fisher
tar o no
penetraci´
on capsularTest
y chi-cuadrado
de tener o noTest
unExacto
tumor
agresivo (en
funci´on de la puntuaci´on en la escala Gleason, recogida en la variable histolog´
ıa). Los datos se encuentran en el archivo Pr´
ostata
completo.
´
CAP´ITULO 5. METODOS
DE INFERENCIA ESTAD´ISTICA
88
5.4.1.
An´
alisis de la covarianza y anova de dos v´ıas
La regresi´on lineal y el an´alisis de la varianza de una v´ıa tienen como denominador com´
un
una variable respuesta num´erica que pretende ser explicada por un variable num´erica o cualitativa, respectivamente, indicando el valor de R2 la proporci´on de variabilidad explicada en
tal caso por el modelo considerado.
El an´alisis de la covarianza o ancova se entiende como una extensi´on del modelo de regresi´on lineal, consistente en introducir una variable explicativa cualitativa que podr´ıa dar lugar
a modificaciones en los par´ametros de las ecuaciones (rectas) de regresi´on en funci´on de la
categor´ıa considerada. Esta mayor flexibilidad (y complicaci´on) del modelo tiene como objeto
principal aumentar el valor de R2 y as´ı generar pron´osticos m´as fiables.
En el caso del ejemplo 11, podr´ıamos intentar explicar el logaritmo del volumen a partir
del logaritmo del PSA y la histolog´ıa del tumor, es decir, que en principio se construye una
ecuaci´on para los tumores agresivos y otra para los no agresivos, como se aprecia en la figura
5.5. En el cuadro 5.6 se contrastan cuatro hip´otesis diferentes.
Figura 5.5: Log volumen vs Log PSA y Histolog´ıa
Histología
No
Sí: agresivo
No
Sí: agresivo
4,000
Logaritmo Volumen
3,000
2,000
1,000
,000
-1,000
-2,000
,000
2,000
4,000
6,000
Logaritmo Psa
Primeramente, se observa R2 = 0.568, es decir, el logaritmo del PSA y la histolog´ıa
explican conjuntamente el 56.8 % de la variabilidad del logaritmo del volumen. En la
l´ınea (1) se contrasta si eso es significativo teniendo en cuenta el tama˜
no de la muestra.
En la l´ınea (2) se contrasta si existe una interacci´on significativa entre la histolog´ıa y
el logaritmo del PSA. Al ser no significativo el resultado interpretamos que no hemos
encontrado diferencias extrapolables entre las pendientes de ambas rectas.
En ese caso, pasamos a interpretar la l´ınea (3), donde se contrasta si la pendiente de
ambas rectas es nula. Al ser significativo el resultado concluimos que existe una relaci´on
(directa) entre el logaritmo del PSA y el logaritmo del volumen.
´
´ AVANZADAS
5.4. OTRAS TECNICAS
MAS
89
Cuadro 5.6: Tabla ANCOVA
Pruebas de los efectos inter-sujetos
Variable dependiente:Logaritmo Volumen
Suma de
cuadrados
tipo III
Origen
a
(1) Modelo corregido
Media
cuadrática
gl
75,731
F
3
25,244
40,738
Sig.
,000
(3) Log_PSA
38,958
1
38,958
62,871
,000
(4) Histologia
,956
1
,956
1,542
,217
(2) Histologia * Log_PSA
,005
1
,005
,008
,928
a. R cuadrado = ,568
En la l´ınea (4) se contrasta si existe una diferencia significativa entre los puntos de corte
de ambas rectas con el eje OY. Al ser no significativo el resultado concluimos que no
hay diferencias significativas entre la ecuaci´on obtenida para los tumores agresivos y la
que corresponde a los no agresivos, es decir, que la introducci´on del factor cualitativo
histolog´ıa no ha surtido un efecto claro. De hecho, si consideramos una regresi´on lineal
simple entre los logaritmos del PSA y el volumen obtenemos r2 = 0.539.
Si el resultado del contraste (1) hubiera sido no significativo el resto de contrastes habr´ıa
carecido de inter´es. Lo mismo habr´ıamos dicho de los contrastes (3) y (4) si el resultado en el
contraste (2) hubiera sido significativo. En tal caso convendr´ıa efectuar an´alisis de regresi´on
simple por separado para cada categor´ıa del factor.
El anova de dos v´ıas es una extensi´on del anova de una v´ıa consistente en considerar dos
factores cualitativos explicativos. Con los datos del ejemplo 11 podr´ıamos o estudiar en qu´e
medida los factores histolog´ıa (agresivo o no agresivo) y penetraci´on capsular (penetraci´on o
no penetraci´on) explican el logaritmo del PSA. Los resultados aparecen en el cuadro 5.7.
Cuadro 5.7: ANOVA 2 v´ıas
Pruebas de los efectos inter-sujetos
Variable dependiente:Logaritmo Psa
Origen
Suma de
cuadrados
tipo III
Modelo corregido
35,539
Intersección
Cp
Histologia
Cp * Histologia
Media
cuadrática
gl
a
F
Sig.
3
11,846
11,926
,000
296,806
1
296,806
298,802
,000
3,588
1
3,588
3,612
,060
10,872
1
10,872
10,945
,001
,254
,615
,253
1
,253
Error
92,379
93
,993
Total
723,731
97
Total corregida
127,918
96
Página 1
a. R cuadrado = ,278 (R cuadrado corregida = ,255)
Entre las motivaciones que pueden movernos a efectuar un estudio de este tipo destacamos
tres:
´
CAP´ITULO 5. METODOS
DE INFERENCIA ESTAD´ISTICA
90
Si el muestreo es de tipo estratificado el factor del que depende dicha estratificaci´on
deber´ıa incluirse como variable explicativa en cualquier modelo considerado si queremos
aproximarnos al supuesto de aleatoriedad. Esto puede dar lugar a modelos complejos
como el anova de dos v´ıas o el propio ancova.
Puede que nos interese determinar si ambos factores intervienen de manera aditiva en la
explicaci´on del PSA o si, por el contrario, existe interacci´on entre ambos. En este caso,
dado que en la l´ınea Cp*Histolog´ıa obtenemos un resultado no significativo, aceptamos
la hip´otesis inicial de aditividad, es decir, que podr´ıamos estudiar ambos factores por
separado mediante sendos anovas de una v´ıa o tests de Student, de manera que el efecto
conjunto de ambos en la explicaci´on del logaritmo del PSA puede entenderse aproximadamente como la suma de los efectos calculados individualmente.
Sin embargo, un resultado significativo nos habr´ıa conducido a considerar un anova de
una v´ıa (seguido del test de Tukey), donde la variable respuesta ser´ıa el logaritmo del PSA
y cuyo u
´nico factor ser´ıa una variable con cuatro categor´ıas: agresivo con penetraci´on,
agresivo sin penetraci´on, no agresivo con penetraci´on y no agresivo sin penetraci´on.
En otras ocasiones, puede que nos interese probar la influencia de un factor principal en
una variable num´erica ante una situaci´on que resulta dudosa (no significativa), bien por
la debilidad de la correlaci´on observada en la muestra o bien por el escaso tama˜
no de la
misma. Si tal relaci´on existe realmente quedar´a m´as patente si introducimos un factor
secundario que explique de manera supuestamente aditiva una parte significativa de la
variabilidad no explicada por el factor principal, es decir, si reducimos el azar del modelo.
En ocasiones, la recogida de datos es tan costosa que debemos conformarnos con elegir
un u
´nico dato para cada combinaci´on posible entre las categor´ıas de ambos factores, el
principal y el secundario. Dicho modelo, que asume la aditividad por imperativo formal,
se denomina de bloques al azar, y la alternativa no param´etrica al anova correspondiente
se denomina test de Friedman.
5.4.2.
Regresi´
on log´ıstica
El modelo de regresi´on log´ıstica binaria es una variante de los modelos anteriores mediante
el cual se pretende pronosticar el resultado de una variable categ´orica Y con dos posibilidades
asociadas a un evento (evento s´ı o evento no) a partir de una serie de variables num´ericas o
cualitativas. Realmente, el resultado del pron´ostico es una probabilidad de que el evento ocurra,
que se obtiene a partir de las variables explicativas X1 , . . . , Xk mediante una funci´on del tipo
eB0 +B1 X1 +...+Bk Xk
P (Y = S´ı) =
1 + eB0 +B1 X1 +...+Bk Xk
(5.3)
As´ı, con los datos del ejemplo 11 podemos preguntarnos en qu´e medida el logaritmo del PSA
y la penetraci´on capsular explican la histolog´ıa del tumor, es decir, la probabilidad de que ´este
sea agresivo.
El modelo proporciona un pseudo R2 de Nagelkerke que nos informa de la capacidad de las
variables explicativas para predecir la respuesta. En nuestro ejemplo obtenemos R2 = 0.485.
Tambi´en podemos realizar una valoraci´on a posteriori de la fiabilidad de las predicciones.
Concretamente, el modelo reconoce en nuestro caso el 83.9 % de los tumores agresivos y el
65.7 % de los no agresivos (este m´etodo puede entenderse como una versi´on m´as sofisticada del
considerado en la figura 3.5 para diagnosticar la agresividad del tumor). Adem´as, contamos
con un test de hip´otesis, la prueba de Hosmer-Lemeshov, para valorar la aptitud del modelo.
En nuestro caso el resultado es P = 0.168, con lo cual aceptamos la hip´otesis inicial, es decir,
el modelo es adecuado. Ello no implica que nuestro modelo predictivo sea acertado, sino que
´
´ AVANZADAS
5.4. OTRAS TECNICAS
MAS
91
dif´ıcilmente lograremos predicciones mucho mejores mediante otros modelos alternativos, como
el de ´arbol de decisi´on.
La ecuaci´on (5.3) que se utiliza para pronosticar probabilidades asocia a cada variable
explicativa Xj una par´ametro eBj que se puede interpretar en t´erminos de Odds Ratios, seg´
un
se aprecia en la columna de la derecha del cuadro 5.8. Al igual que sucede en el modelo de
regresi´on lineal, estos par´ametros pueden contrastarse globalmente mediante la prueba omnibus
o parcialmente, lo cual proporciona a su vez m´etodos de selecci´on de variables.
Cuadro 5.8: Regresi´on log´ıstica
Variables en la ecuación
B
a
Paso 1
Log_PSA
Cp
Constante
E.T.
Wald
gl
Sig.
Exp(B)
,953
,324
8,642
1
,003
2,594
2,111
,566
13,902
1
,000
8,256
-2,591
,796
10,582
1
,001
,075
a. Variable(s) introducida(s) en el paso 1: Log_PSA, Cp.
El cuadro 5.9 ofrece una revisi´on del cuadro 5.5 teniendo en cuenta los m´etodos estudiados
en esta secci´on.
Cuadro 5.9: Resumen global m´etodos Inferencia Estad´ıstica
Explicativa
Numérica
Numéricas
Numérica inicial
Cualitativa dos categorías
Cualitativa más de dos
Dos cualitativas
Numéricas+cualitativa
Cualitativa
Numéricas+cualitativas
5.4.3.
Respuesta
Numérica
Numérica
Numérica final
Numérica
Numérica
Numérica
Numérica
Cualitativa
Cualitativa
Método
Correlación simple
Regresión múltiple
Student (1)
Student (2)
Anova 1 vía + Tuckey
Anova de dos vías
Ancova
Tabla contingencia χ2
Regresión logística
Alternativa
Spearman
Transformaciones
Wilcoxon
Mann-Whitney
Kruskal-Wallis
Friedman
Transformaciones
Fisher
Árbol
An´
alisis de supervivencia
Por u
´ltimo introducimos un modelo de naturaleza diferente a los anteriores relacionado
tradicionalmente (aunque en la pr´actica puede tener otros usos) con el estudio de enfermedades
potencialmente mortales. Durante el tiempo que dura el estudio se somete a cada paciente que
va entrando en el mismo, a ra´ız de un diagn´ostico, intervenci´on quir´
urgica, etc., a un seguimiento
que da como resultado un tiempo de permanencia en el estudio. En cada caso hay que indicar
adem´as si el paciente abandona el estudio porque se ha registrado su fallecimiento durante el
mismo o bien porque hab´ıa sobrevivido en el momento en el que el estudio acab´o. No obstante,
hay que efectuar ciertas correcciones debido a que el seguimiento de ciertos pacientes se ve
truncado por otras razones. A partir de esta informaci´on y siguiendo el m´etodo de KaplanMeyer obtenemos la tabla de supervivencia y la curva de supervivencia, donde se estiman
Página 1
´
CAP´ITULO 5. METODOS
DE INFERENCIA ESTAD´ISTICA
92
las probabilidades de sobrevivir en funci´on del tiempo. Adem´as, se pueden construir distintas
curvas en funci´on de un factor categ´orico y contrastar la homegeneidad de las mismas mediante
el test Log-Rank. En la figura5.6 podemos ver las curvas de supervivencia para c´ancer de pulm´on
distinguiendo entre hombres y mujeres.
Figura 5.6: Supervivenvia c´ancer de pulm´on
Funciones de supervivencia
sex
1,0
1
2
1-censurado
2-censurado
Supervivencia acum
0,8
0,6
0,4
0,2
0,0
0
200
400
600
800
1000
1200
time
Otras cuestiones propuestas
Ejercicio 96. Consideremos nuevamente el estudio de la puntuaci´on de ansiedad de Hamilton
en un grupo de 20 personas que viven solas y otras tantas que viven acompa˜
nadas. Los respectivos diagramas de caja se muestran en la figura 5.7. Se indican a continuaci´on los resultados
del test de normalidad ed Shappiro-Wilk para ambas muestras, del test de Levene de igualdad
de varianzas, y de los test de Student, Welch y Mann-Whitney de comparaci´on de medias (o
valores centrales).
Test
P -valor
Shapiro-Wilk
P=0.015(solos) P=0.272(acompa˜
nados)
Levene
P=0.746
Student
P<0.001
Welch
P<0.001
Mann-Whitney
P=0.004
A partir de los mismos y suponiendo que ambas muestras fueran aleatorias, contestar la siguiente pregunta: ¿existe relaci´on entre el tipo de vida (en soledad o en compa˜
n´ıa) y el nivel
de ansiedad? Indicar claramente en qu´e se basa la conclusi´on obtenida.
Página 1
´
´ AVANZADAS
5.4. OTRAS TECNICAS
MAS
93
Ejercicio 97. A partir de los datos del archivo Enfermedad celiaca.sav estudia lo siguiente:
La relaci´on entre la celiaqu´ıa y la concentraci´on de IgA, por un lado, e IgG por otro.
¿Cu´al de los dos anticuerpos puede resultar m´as u
´til para detectar la enfermedad?
La relaci´on entre la edad de la menarquia y la concentraci´on de hemoglobina.
¿Con qu´e aspecto guarda una relaci´on m´as clara la enfermedad: con la presencia de dolor
abdominal o con la presencia de la variante gen´etica DQ2? Cuantifica esa relaci´on.
Ejercicio 98. A partir de los datos del archivo Pr´
ostata.sav:
Intenta explicar el volumen (log) del tumor a partir de la concentraci´on de PSA (log) y
la edad del paciente.
Intenta explicar la histolog´ıa del tumor a partir del PSA (log) y la penetraci´on capsular.
Relaciona el PSA (log) con el pron´ostico del tumor seg´
un la biopsia.
Relaciona el volumen (log) del tumor con el porcentaje de Gleason 4-5.
Relaciona el peso (log) del tumor con el porcentaje de Gleason 4-5. ¿Guarda m´as relaci´on
que el volumen?
Ejercicio 99. A partir de los datos del archivo Acidosis.sav:
Relaciona acidosis y glucemia.
Prop´on un m´etodo de diagn´ostico concreto basado en la glucemia para diagnosticar acidosis en reci´en nacidos.
Indica una estimaci´on de la sensibilidad y especificidad del test propuesto.
Ejercicio 100. A partir de los datos del archivo Gonartrosis.sav:
Eval´
ua la evoluci´on en movilidad (escala WOMAC) de las pacientes tratadas con crioterapia.
Relaciona la p´erdida de autonom´ıa con el IMC.
Estudia la eficacia de las diferentes t´ecnicas de ultrasonido (1Mhz y 3Mhz) en la recuperaci´on de la movilidad.
Ejercicio 101. A partir de los datos del archivo Dieta.sav:
Estudia la eficacia del medicamento en la reducci´on de la presi´on sist´olica.
Idem para la diast´olica.
Ejercicio 102. A partir de los datos del archivo Hipoacusia.sav:
Relaciona la presencia de la enfermedad con los antecedentes familiares por un lado, y
con el nivel socioecon´omico por otro.
¿Puedes indicar, a tenor de lo estudiado en el apartado anterior, un factor de riesgo claro
de cara a padecer hipoacusia?
Ejercicio 103. A partir de los datos del archivo South Africa Heart Disease.sav:
Relaciona la presencia de la enfermedad (chd) con la presi´on sist´olica (sbp).
94
´
CAP´ITULO 5. METODOS
DE INFERENCIA ESTAD´ISTICA
Relaciona la presencia de la enfermedad con el nivel de colesterol (ldl).
Relaciona la presencia de la enfermedad con el porcentaje de grasa corporal (adiposity).
Relaciona la presencia de la enfermedad con el consumo de alcohol.
Relaciona la presencia de la enfermedad con la edad. ¿Cu´al de todas las variables mencionadas crees que guarda mayor relaci´on con la enfermedad cardiaca?
Relaciona la presencia de la enfermedad con los antecedentes familiares.
Intenta explicar la presi´on sist´olica a partir de la edad, el porcentaje de grasa corporal y
el nivel de colesterol ldl.
Ejercicio 104. En un estudio realizado en 68.183 mujeres adultas seguidas a lo largo de 16
a˜
nos, aquellas que dorm´ıan 5 o menos horas no solo pesaban 2,5 kg m´as al inicio del estudio,
sino que tambi´en ganaron una media de 4,3 kg m´as en comparaci´on con las que dorm´ıan 7
o m´as horas. Adem´as, las mujeres con 5 o menos horas de sue˜
no tuvieron un 32 % m´as de
posibilidades de ganar hasta 15 kg que las que dorm´ıan 7 o m´as horas a lo largo del estudio.
Esta diferencia persist´ıa tras ajustar los resultados seg´
un la ingesta cal´orica y la actividad f´ısica.
Otros estudios muestran resultados similares tambi´en en los hombres. Se observ´o tambi´en que
tanto el ´ındice de masa corporal como el per´ımetro de cintura es significativamente mayor entre
aquellos que duermen menos de 5 horas. En concreto, dormir menos se asocia con un aumento
del per´ımetro de la cintura de 6,7 cm para los hombres y de 5,4 cm para las mujeres.
¿Qu´e t´ecnicas estad´ısticas (regresi´on lineal, test de Student, Wilcoxon, c´alculos de medidas
de riesgo, etc) crees que se han utilizado para llegar a estas conclusiones?
Parte III
Tutorial SPSS
95
97
Est´a u
´ltima parte del manual recoge algunas capturas de pantalla que pueden ser de utilidad para aprender a manejar las funciones m´as b´asicas del SPSS. Algunas de las opciones
principales del men´
u, como por ejemplo Archivo, Edici´
on, etc., son similares a las de cualquier programa convencional, por lo que ser´an obviadas aqu´ı. Nos interesa fundamentalmente
la opci´on Analizar, pues contiene todos los m´etodos estad´ısticos a aplicar (incluyendo diversos
gr´aficos). Tambi´en tiene bastante inter´es la opci´on Gr´
aficos que est´a especializada en estos
u
´ltimos.
Figura 5.7: Men´
u general
Las opciones Datos y Transformar se utilizan para manipular los datos (filas) y las variables
(columnas), respectivamente. Por ejemplo, son de utilidad a la hora de seleccionar un conjunto
concreto de individuos o de calcular una nueva variable a partir de las ya existentes, como se
aprecia en las figuras 5.8 y 5.9, respectivamente.
Figura 5.8: Selecci´on de datos
98
Figura 5.9: C´alculo de una variable nueva a partir de las ya registradas
Para analizar una variable cualitativa podemos considerar la opci´on Frecuencias, dentro del men´
u de Estad´
ısticos descriptivos; si la variable es num´erica puede resultar m´as
c´omodo utilizar la opci´on Explorar.
Figura 5.10: An´alisis descriptivo de una variable cualitativa
99
Figura 5.11: An´alisis descriptivo de una variable num´erica
El an´alisis de varias variables num´ericas podemos efectuarlo, desde un punto de vista gr´afico,
mediante la opci´on Gr´
afico de dispersi´
on simple o matricial, del men´
u de gr´aficos, y
desde la opci´on Regresi´
on-Lineales, del men´
u de analizar, teniendo presentes los posibles
roles que pueden desempe˜
nar las variables en el estudio (explicativa o respuesta).
Figura 5.12: An´alisis descriptivo de dos variables num´ericas: gr´afico de dispersi´on
100
Figura 5.13: Regresi´on lineal
Figura 5.14: Regresi´on lineal: predicciones
Como vemos arriba, para pronosticar valores de la variable respuesta a partir de valores
conocidos de las variable o variables explicativas debemos utilizar la opci´on guardar.
El estudio conjunto de una variable num´erica y otra cualitativas puede llevarse a acabo, desde un punto de vista descriptivo, introduciendo la variable cualitativa como factor en el men´
u
Explorar de la figura 5.11. Para estudiar la relaci´on entre dos variables cualitativas utilizaremos
la opci´on Tablas de contingencia del men´
u Estad´
ıstica descriptiva. Conviene pedir un
gr´afico de barras agrupado y, en la opci´on Estad´
ısticos, el coeficiente de contingencia C, con
lo cual el programa nos proporcionar´a el resultado del test χ2 . Esto u
´ltimo aparece junto con
el resultado del test exacto de Fisher pueden obtenerse marcando Chi-cuadrado (esto corresponde a la segunda parte de la materia). En todo caso, el SPSS proporciona autom´aticamente
la tabla de frecuencias bidimensional conocida como tabla de contingencias.
101
Figura 5.15: Relaci´on entre dos variables cualitativas
Los estudios epidemiol´ogicos para relacionar la presencia de un posible factor de riesgo con
una determinada enfermedad pueden llevarse a cabo a trav´es del men´
u anterior. Aconsejamos
calcular el Riesgo relativo o el Odds Ratio directamente a partir de la tabla de contingencias. No
obstante, pueden ser calculados autom´aticamente mediante la opci´on Riesgo del men´
u anterior
y, lo que resulta m´as interesante, incluyendo intervalos de confianza para ambos (segunda parte
de la materia). De todas formas, esta u
´ltima opci´on puede generar bastante confusi´on.
En lo que respecta a la segunda parta de la materia (Inferencia Estad´ıstica) podemos
a˜
nadir, en primer lugar, que tanto los intervalos de confianza para una media como los test
de normalidad de Shappiro-Wilk y Kolmogorov-Smirnov podemos encontrarlos en la opci´on
Explorara del Estad´
ıstica descriptiva.
Figura 5.16: Pruebas de normalidad
Sobre la relaci´on entre variables num´ericas s´olo vamos a a˜
nadir a los resultados que pueden
obtenerse a trav´es del men´
u Regresi´
on-Lineales el c´alculo y test de significaci´on para el
coeficiente de correlaci´on de Spearman a trav´es del men´
u Correlaciones-Bivariadas
102
Figura 5.17: Coeficientes de correlaci´on de Pearson y Spearman
Los diferentes tests de comparaci´on de medias, es sus versiones param´etricas y no param´etricas, se ejecutan como sigue: empezamos por el test de Student para dos muestras independientes
y su an´alogo no param´etrico, el test de Mann-Whitney.
Figura 5.18: Test de Student para muestras independientes
103
Figura 5.19: Test de Mann-Whitney
Veamos a continuaci´on c´omo se ejecutan el test de Student para muestras apareadas o
relacionadas y su an´alogo no param´etrico de Wilcoxon.
Figura 5.20: Test de Student para muestras apareadas
104
Figura 5.21: Test de Wilcoxon
El anova de una v´ıa, seguido de las comparaciones m´
ultiples seg´
un el m´etodo de Tukey, se
ejecutan as´ı:
Figura 5.22: Anova de una v´ıa
105
El test no param´etrico de Kruskal-Wallis se ejecuta como sigue:
Figura 5.23: Test de Kruskal-Wallis
Para aplicar un an´alisis de la covarianza o un anova de dos v´ıas debemos entrar en el modelo
lineal univariante y colocar las variable en cada apartado seg´
un proceda.
Figura 5.24: Modelo lineal univariante
La regresi´on log´ıstica se ejecuta de forma similar pero introduciendo la variable categ´orica como dependiente. El test de Hosmer-Lemeshov podemos encontrarlo entre las opciones.
Tambi´en podemos ejecutar un m´
etodo de selecci´on de variables.
Para ejecutar un an´alisis de supervivencia debemos introducir correctamente la variable que
indica el tiempo de permanencia en el estudio y especificar en la opci´on Estado el c´odigo que
indica si se registr´o la defunci´on del paciente. En el apartado de opciones podemos pedir la
curva de supervivencia. Podemos introducir una variable cualitativa como factor y comparar
las curvas de las distintas categor´ıas mediante el test Log-Rank.
106
Figura 5.25: ANCOVA y ANOVA de dos v´ıas
Figura 5.26: Regresi´on log´ıstica
Figura 5.27: An´alisis de supervivencia Kaplan-Meyer
Bibliograf´ıa recomendada
M. Andr´
es y Juan de Luna. (2007) Bio´
estad´
ıstica para las ciencias de la
Salud. Ed. Norma.
M. Andr´
es y Juan de Luna. (1995) 50 ± 10 horas de Bioestad´
ıstica. Ed. Norma.
E. Cobo, P. Mu˜
noz y J.A. Gonz´
alez.(2007) Bioestad´
ıstica para no estad´
ısticos. Ed. Elsewier/Masson.
Mac´ıa Ant´
on, Lubin y Rubio de Lemus. (1997) Psicolog´
ıa Matem´
atica. UNED.
M.A. Mart´ın Gonz´
alez, A. S´
anchez-Villegas, E.A. Toledo Atucha y J. Faulin
Fajardo. (2014) Bioestad´
ıstica amigable. Ed. Elsevier.
J. S. Milton. Estad´
ıstica para Biolog´
ıa y Ciencias de la Salud. Ed. Interamericana. McGraw-Hill.
A.G. Nogales. (2004) Bioestad´
ıstica B´
asica. Ed. abecedario.
Norman y Steiner (1996) Bioestad´
ıstica Ed. Mosby/Doyma Libros.
B. Visauta. (1998) An´
alisis estad´
ıstico con SPSS para Windows. Ed. McGraw
Hill.
http://www.hrc.es/bioest/M docente.html#tema3. Hospital Ram´on y Cajal
Sobre Probabilidad e Inferencia Estad´
ıstica.
http://matematicas.unex.es/∼jmf/htm/material enfermeria medicina.html.
107