Breve manual de Bioestad´ıstica para las Ciencias de la Salud Jes´ us Montanero Fern´ andez, Mayo 2015 ´Indice general I Estad´ıstica Descriptiva 1. Estudio de una variable 1.1. Tablas de frecuencias . . . . . . . 1.2. Representaci´on gr´afica . . . . . . 1.3. Valores t´ıpicos . . . . . . . . . . . 1.3.1. Medidas de centralizaci´on 1.3.2. Medidas de posici´on . . . 1.3.3. Medidas de dispersi´on . . 1.3.4. Medidas de forma . . . . . 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 11 13 17 17 19 20 22 2. Relaci´ on entre variables num´ ericas 2.1. Relaci´on entre dos variables num´ericas . . . . . . . . . 2.2. Diagrama de dispersi´on . . . . . . . . . . . . . . . . . . 2.2.1. Diagrama de dispersi´on simple . . . . . . . . . . 2.2.2. Diagrama de dispersi´on matricial . . . . . . . . 2.3. Coeficientes de correlaci´on y determinaci´on . . . . . . . 2.4. Regresi´on lineal . . . . . . . . . . . . . . . . . . . . . . 2.4.1. Regresi´on lineal m´ ultiple . . . . . . . . . . . . . 2.4.2. Regresi´on no lineal . . . . . . . . . . . . . . . . 2.5. Relaci´on entre una variable num´erica y otra cualitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 29 30 30 31 32 35 39 40 42 . . . . . . . . . . . 49 49 49 51 52 53 55 56 57 58 59 60 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. Relaci´ on entre variables cualitativas 3.1. Estudio general de las tablas de contingencia . . . . . 3.1.1. Tabla de contingencia . . . . . . . . . . . . . . 3.1.2. Diagrama de barras agrupadas . . . . . . . . . 3.1.3. Coeficiente de contingencia C de Pearson . . . 3.1.4. Tablas 2 × 2. Coeficiente φ . . . . . . . . . . . 3.2. Factores de riesgo . . . . . . . . . . . . . . . . . . . . 3.2.1. Tipos de dise˜ nos . . . . . . . . . . . . . . . . 3.2.2. Medidas de riesgo . . . . . . . . . . . . . . . . 3.3. Diagn´ostico Cl´ınico . . . . . . . . . . . . . . . . . . . 3.3.1. L´ımites de normalidad . . . . . . . . . . . . . 3.3.2. Fiabilidad de un procedimiento de diagn´ostico II Inferencia Estad´ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4. Introducci´ on a la Inferencia Estad´ıstica 67 4.1. Par´ametros poblacionales y muestrales . . . . . . . . . . . . . . . . . . . . . . . 67 4.2. Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 4.3. Estimaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3 4.4. Contraste de hip´otesis . . . . . . . . . . . . . . . . 4.4.1. El test de Student como ejemplo . . . . . . 4.4.2. Tests param´etricos vs tests no param´etricos 4.4.3. Pruebas de normalidad . . . . . . . . . . . . . . . . . . . . . . . . 5. M´ etodos de Inferencia Estad´ıstica 5.1. El problema de correlaci´on-regresi´on . . . . . . . . . . . 5.1.1. Test de correlaci´on . . . . . . . . . . . . . . . . . 5.1.2. Regresi´on m´ ultiple . . . . . . . . . . . . . . . . . 5.2. Relaci´on entre dos variables cualitativas . . . . . . . . . 5.3. Comparaci´on de medias . . . . . . . . . . . . . . . . . . 5.3.1. Test de Student(1) para muestras relacionadas . . 5.3.2. Test de Student(2) para muestras independientes 5.3.3. Anova de una v´ıa . . . . . . . . . . . . . . . . . . 5.4. Otras t´ecnicas m´as avanzadas . . . . . . . . . . . . . . . 5.4.1. An´alisis de la covarianza y anova de dos v´ıas . . . 5.4.2. Regresi´on log´ıstica . . . . . . . . . . . . . . . . . 5.4.3. An´alisis de supervivencia . . . . . . . . . . . . . . III Tutorial SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 73 75 76 . . . . . . . . . . . . 79 79 79 80 81 83 83 84 85 87 88 90 91 95 Introducci´ on Este volumen pretende ser un breve manual de iniciaci´on a la Estad´ıstica. En principio, est´a concebido como apoyo en la docencia de las asignaturas correspondientes a la materia de Bioestad´ıstica en el Grado de Enfermer´ıa, aunque puede resultar tambi´en u ´til para alumnos que cursan estudios en cualquier titulaci´on relacionada con las Ciencias de la Salud. Es un hecho notorio que la Estad´ıstica es demandada por diversas ramas del saber: la Econom´ıa, las Ciencias Sociales en general, la F´ısica, la Qu´ımica, la Biolog´ıa y la Medicina. Entendemos por Bioestad´ıstica a la variedad de la Estad´ıstica vinculada a estas dos u ´ltimas ramas, aunque en nuestro caso nos centraremos mayormente en la sanitaria. La demanda de la Estad´ıstica por parte de las Ciencias de la Salud viene motivada por la enorme incertidumbre que presentan los fen´omenos estudiados y que, lejos de reducirse, parece incrementarse a medida que se profundiza en la investigaci´on. De ah´ı que sea necesario dise˜ nar t´ecnicas de recogida y tratamiento de datos, con la idea de extraer la mayor informaci´on posible acerca del fen´omeno a estudiar. ¿C´omo recoger los datos y c´omo tratarlos? La respuesta a esta pregunta es la Estad´ıstica. La siguiente definici´on de Estad´ıstica es debida a Barlett: “La Estad´ıstica es la Ciencia que nos indica el proceso a seguir en el tratamiento de la informaci´ on en aquellas circunstancias que envuelve la incertidumbre”. En este modesto manual nos aventuramos con otra: la Estad´ıstica debe entenderse como la metodolog´ıa a seguir para aprender de las observaciones con el objetivo de explicar los diferentes fen´omenos (biom´edicos en nuestro caso) excluyendo en lo posible el concepto de azar. Aunque teor´ıas cient´ıficas vigentes nos disuaden de buscar explicaciones meramente determinidstas de los fen´omenos observables, nos resulta u ´til expresarlos como una composici´on de una parte determinista y otra sujeta a una incertidumbre (llam´emosla azar) que pretendemos acotar de la mejor manera posible. En el contexto de las Ciencias de la Salud se precisa pues de la Bioestad´ıstica cada vez que pretendamos determinar las causas de un fen´omeno biom´edico, salvo un mayor o menor grado de incertidumbre que desear´ıamos eliminar. Estudiemos primeramente cuatro nociones elementales: Conceptos b´ asicos Poblaci´ on: es el objeto del estudio. Se trata de un concepto bastante abstracto y pocas veces bien definido aunque, en el caso de las Ciencias de la Salud, se suele identificar normalmente con la acepci´on com´ un del t´ermino, es decir, un amplio colectivo de individuos. Car´ acter y variable: sobre la poblaci´on se estudiar´an uno o varios caracteres. No daremos una definici´on de car´acter sino que lo entenderemos como una noci´on com´ un. Son ejemplos de caracteres el sexo, la edad, el peso, la talla, el nivel de colesterol, etc. La expresi´on de un car´acter en cada individuo da lugar a una funci´on o aplicaci´on matem´atica que, en este contexto, se denomina variable estad´ıstica. Se nombra as´ı porque en un ambiente de incertidumbre toma distintos valores sin que sepamos bien por qu´e. Seg´ un la forma en que expresan los respectivos caracteres, las variables se clasifican en dos categor´ıas fundamentales: 5 ´INDICE GENERAL 6 Cuantitativas o num´ericas: se dice que una variable es cuantitativa cuando mide num´ericamente el car´acter respecto a una unidad de referencia. Son ejemplos de variables cuantitativas la edad medida en a˜ nos, la concentraci´on de colesterol medida en mg/mm, o la temperatura medida en grados Celsius, la estatura medida en cm, etc. Cualitativas: se dice que una variable es cualitativa cuando no expresa un car´acter de forma num´erica sino que distingue entre varias categor´ıas. Son ejemplos de variables cualitativas el diagn´ostico de un individuo si distinguimos entre sano o enfermo, el tipo de tratamiento que se va aplicar a un individuo en un ensayo cl´ınico, el grupo sangu´ıneo, etc. Simplificando al m´aximo podr´ıamos afirmar que, en un estudio riguroso y en el contexto de las Ciencias de la Salud, las variables num´ericas se corresponden con mediciones de ciertos caracteres mientras que las variables cualitativas se asocian mayormente a decisiones humanas. Desde ese punto de vista, la categorizaci´on de variables num´ericas como, por ejemplo, expresar la edad no en funci´on de los a˜ nos que se tiene sino respecto a unos intervalos fijados con anterioridad (de 21 a 30, de 31 a 40, etc) s´olo puede entenderse con una p´erdida de informaci´on. Adem´as, la elecci´on de los intervalos, que resulta trascendental, suele basarse bien en una justificaci´on meramente est´etica o bien en el hecho de que otros, con una supuesta autoridad profesional, los han utilizado con anterioridad. Hay que tener muy presente que, aunque a veces necesitemos apoyarnos en el principio de autoridad, cuanto m´as lo hagamos m´as nos alejaremos del rigor matem´atico. Incidiendo en este tipo de pol´emica, podemos mencionar una tercera categor´ıa que en rigor pertenece a la segunda pero que en la pr´actica puede recibir el tratamiento estad´ıstico de la primera. Se trata de las variables ordinales, que expresan un car´acter cualitativo mediante categor´ıas que presentan un orden o gradaci´on natural. Son ejemplos de variables ordinales el grado de una enfermedad (nulo, leve, moderado, severo) o el nivel de dolor de un paciente (bajo, medio, alto). Lo usual es asigna un valor num´erico a dichos niveles empezando por 0 o´ 1 y siguiendo el orden natural. As´ı podemos obtener por ejemplo las escala de dolor EVA. Cuando se hace uso de una variable de este tipo es necesario que dicha escala est´e validada, aunque debemos tener presente que dicha validaci´on depende en gran medida del mencionado principio de autoridad. El programa SPSS denomina nominales a las variables cualitativas puras para distinguirlas de estas u ´ltimas y, con el mismo fin, denomina de escala a las cuantitativas puras. Es decir, distingue entre variables nominales, ordinales y de escala. En la pr´actica esta distinci´on tiene escasa trascendencia porque las variables ordinales acaban trat´andose a todos los efecto como num´ericas o como cualitativas. Ejercicio 1. Indica otras tres variables nominales, tres ordinales y tres cuantitativas. Muestra: ya hemos dicho que sobre una poblaci´on se va a estudiar un cierto car´acter que dar´a lugar a una variable, den´otese por X, y que la poblaci´on suele ser demasiado grande. Ello nos obliga a contentarnos con estudiar el car´acter sobre un subconjunto de n individuos de la poblaci´on. De dicho subconjunto se dice que es una muestra de tama˜ no n. Podemos entender por muestra tanto a los n individuos como a los n datos correspondientes a la medici´on de la variable. En todo caso, la letra n queda reservada para denotar el tama˜ no de muestra. Tipos de estudios Como ya hemos comentado, nuestro objetivo final es determinar las causas o consecuencias de un determinado fen´omeno biom´edico, lo cual nos conduce a relacionar las variables que intervienen en dicho fen´omeno. Esto puede dar lugar a una amplia casu´ıstica seg´ un la naturaleza (cualitativa o cuantitativa) y cantidad de las mismas. Si imponemos una restricci´on a la ´INDICE GENERAL 7 cantidad y nos restringimos al estudio con dos variables, podemos distinguir en una primera ronda tres posibilidades: Relaci´on cuantitativa ↔ cuantitativa Relaci´on cualitativa ↔ cualitativa Relaci´on cuantitativa ↔ cualitativa Ejercicio 2. Se pretende estudiar si existe relaci´on entre el sexo y la estatura. ¿A cu´al de los tres tipos de estudio nos estamos refiriendo? ¿Puedes indicar al memos dos ejemplos de cada tipo? Fases del proceso estad´ıstico En el proceso estad´ıstico podemos distinguir tres fases: 1. Muestreo: selecci´on de la muestra que se analizar´a. 2. Descriptiva: an´alisis particular de los datos de la muestra seleccionada. 3. Inferencia: estudio de la posible generalizaci´on de los resultados obtenidos en la muestra al global de la poblaci´on. En la primera y tercera fase es fundamental el concurso del C´alculo de Probabilidades. Esto es as´ı porque, en rigor, s´olo a partir de una muestra seleccionada aleatoriamente es posible obtener una extrapolaci´on al global de la poblaci´on de la que procede, que en tal caso se efectuar´a en t´erminos probabil´ısticos. Estudio estadístico Figura 1: Esquema del proceso estad´ıstico Muestra Muestreo Población Probabilidad Inferencia Descriptiva Descripción Iniciación a la Investigación en Ciencias de la Salud Nuestra intenci´on es completar el esquema desde un punto de vista b´asico, lo cual da lugar a tres tipos de problemas seg´ un hemos indicado antes, aunque pueden ampliarse si se introducen m´as variables en el estudio. No obstante, en la primera parte del manual nos limitaremos a un estudio de la relaci´on entre variables desde un punto de vista meramente descriptivo, es decir, sin a´nimo de extrapolar los resultados al global de la poblaci´on. Se trata pues de una Estad´ıstica Descriptiva para varias variables (fundamentalmente dos). No obstante y con un 8 ´INDICE GENERAL car´acter meramente preliminar, debemos aprender a describir una u ´nica variable de manera aislada (cap´ıtulo 1). La extrapolaci´on de estos resultados al global de la poblaci´on, es decir, la Inferencia Estad´ıstica, as´ı como unas nociones m´ınimas de probabilidad y muestreo, se abordan en la segunda parte. Algunas consideraciones de car´ acter did´ actico La exposici´on de la materia es heterodoxa. Estamos dispuestos a asumir diversas inconsistencias que, desde un punto de vista formal, conlleva esta transgresi´on en aras de facilitar al alumno el estudio de la Estad´ıstica a nivel b´asico. Concretamente, el concepto de probabilidad se trata fundamentalmente en el cap´ıtulo 4 y a un nivel intuitivo, aunque, realmente, el concepto ya se adelanta en la primera parte (por ejemplo, en el u ´ltimo apartado de la secci´on 3.3). Nuestra experiencia nos hace entender que un tratamiento riguroso de este concepto es contraproducente cuando el objetivo es que el alumno aprenda a manejar por s´ı mismo los m´etodos de an´alisis de datos m´as utilizados en las Ciencias de la Salud. Como hemos dicho, los m´etodos de Inferencia Estad´ıstica se estudian en un mismo cap´ıtulo, el quinto, donde se muestra mayor inter´es por clasificarlas que por describirlas de manera exhaustiva. Optamos por esta disposici´on en virtud del papel preponderante que desempe˜ nan los programas estad´ısticos en el proceso al que se someten los datos. A d´ıa de hoy y para un usuario de la Estad´ıstica, saber qu´e t´ecnica debemos aplicar y c´omo se interpretan los resultados obtenidos priman sobre los detalles t´ecnicos y c´alculos num´ericos de los procedimientos utilizados. Es claro que lo ideal ser´ıa dominar todos los aspectos, pero el hecho es que el tiempo que se asigna a esta materia es limitado y nos hemos decantado por lo primero. El alumno que pretenda llevar a cabo estudios estad´ısticos de mayor envergadura o entender con mayor rigor los m´etodos aqu´ı descritos deber´a ampliar su formaci´on. En la bibliograf´ıa indicamos materiales diversos que pueden ser de utilidad en tal caso. Por u ´ltimo, se hace referencia en el cap´ıtulo 5 a diversos archivos tipo SPSS que est´an a disposici´on de los alumnos de la UEx. El SPSS es el software estad´ıstico utilizado en nuestro caso por dos razones: primero, porque resulta muy sencillo de manejar; segundo, porque esta universidad tiene contratada una licencia para su uso. Por ello, hemos incluido una tercera parte que, a modo de tutorial, recoge algunas capturas de pantallas relacionadas con el men´ u de SPSS. Tambi´en conviene informar a quien no disponga de dicho programa que podemos ejecutar todos los m´etodos estad´ısticos que estudiamos aqu´ı de una forma muy similar mediante el paquete Rcomander del programa R, que puede descargarse gratuitamente desde http://www.r-project.org/. En definitiva, a d´ıa de hoy ya no tiene sentido hacer estad´ıstica sin un programa adecuado. Parte I Estad´ıstica Descriptiva 9 Cap´ıtulo 1 Estudio de una variable En un sentido muy amplio, la Estad´ıstica Descriptiva es la parte o fase de la Estad´ıstica dedicada a la descripci´on (entendemos por descripci´on la clasificaci´on, representaci´on gr´afica y resumen) de un conjunto de n datos. En un contexto m´as general esos n datos constituir´an una muestra de tama˜ no n extra´ıda de una poblaci´on y la descripci´on de dicha muestra habr´a de completarse posteriormente con una inferencia o generalizaci´on al total de la poblaci´on. El presente cap´ıtulo se dedica a la descripci´on de una variable mientras que los dos siguientes abordan el estudio correlativo de dos variables. En todo caso distinguiremos entre la clasificaci´on de los datos en tablas, la representaci´on gr´afica y el c´alculo de par´ametros que resuman la informaci´on. A su vez, los estudios tendr´an diferentes caracter´ısticas variantes seg´ un la naturaleza de las variables implicadas. 1.1. Tablas de frecuencias La construcci´on de tablas de frecuencias ha sido hasta hace bien poco la fase preliminar a cualquier estudio descriptivo, utiliz´andose como medio para la elaboraci´on de gr´aficos y el c´alculo de valores t´ıpicos. Hoy en d´ıa no se entiende el proceso estad´ıstico sin el concurso de un programa inform´atico que facilita autom´aticamente los gr´aficos y c´alculos deseados, de ah´ı que las tablas de frecuencia hayan perdido cierto protagonismo. Una tabla de frecuencias b´asica es el resultado de un recuento, es decir, consiste en determinar qu´e valores concretos se dan en la muestra y con qu´e frecuencia. Se denomina tambi´en distribuci´on de frecuencias. Veamos una serie de sencillos ejemplo para distintos tipos de variables. Ejemplo 1: variable cualitativa. En estudio sobre el grupo sangu´ıneo realizado con n = 6313 individuos se obtuvo la siguiente tabla de frecuencias: Grupo i 0 A B AB Total fi 2892 2625 570 226 6313 Esta tabla puede completarse con una columna donde queden reflejadas las correspondientes proporciones: 11 CAP´ITULO 1. ESTUDIO DE UNA VARIABLE 12 Grupo i 0 A B AB Total fi 2892 2625 570 226 6313 pˆi 0,458 0,416 0,090 0,036 1 Los t´erminos fi y pˆi hacen referencia, respectivamente, a los conceptos de frecuencia y proporci´on y se denominan com´ unmente frecuencia absoluta y frecuencia relativa. La frecuencia relativa se expresa en ocasiones mediante un porcentaje, de manera que en nuestro caso tendr´ıamos 45.8 %, 41.6 %, 9.0 % y 3.6 %. El s´ımbolo ∧ que encontramos encima de pi hace referencia al hecho de que la proporci´on es relativa a la muestra, en contraposici´on con el estudio poblacional o probabil´ıstico que abordaremos en cap´ıtulos posteriores. Ejercicio 3. Si repiti´eramos el estudio con otra muestra diferente pero de un tama˜ no similar, ¿cabr´ıa esperar una distribuci´on de frecuencias similar? ¿Por qu´e? Ejemplo 2: variable cuantitativa. Las edades en a˜ nos en un grupo de n = 25 estudiantes universitarios son las siguientes: 23, 21, 18, 19, 20, 18, 23, 21, 18, 20, 19, 22, 18, 19, 19, 18, 23, 22, 19, 22 , 21, 18, 24, 24, 20. Al contrario que en el ejemplo anterior, los datos que obtenemos son num´ericos. Se denotar´a por x1 el primero de ellos seg´ un el orden en que nos llegan los datos, es decir, en nuestro caso x1 = 23. As´ı se denotar´a x2 = 21 y sucesivamente hasta llegar a x25 = 20. Para organizar esta informaci´on debemos considerar el valor m´as peque˜ nos que aparece, en nuestro caso 18. Dicho valor se denotar´a en lo sucesivo por x1 . Se contabilizar´a el n´ umero de ocasiones en las que se presenta, el cual ser´a su frecuencia absoluta y se denotar´a por f1 , que en nuestro caso es 6; el segundo valor es x2 = 19, que aparece f2 = 5 veces y as´ı sucesivamente hasta llegar a x7 = 24 que aparece f7 = 2 veces. En total tenemos n = 25 datos que se distribuyen entre k = 7 valores diferentes. As´ı pues, obtenemos la siguiente tabla de frecuencias absolutas a la que a˜ nadimos las frecuencias relativas: xi 18 19 20 21 22 23 24 Total fi 6 5 3 3 3 3 2 25 pˆi 0.24 0.20 0.12 0.12 0.12 0.12 0.08 1 La suma de sus respectivas frecuencias absolutas debe ser igual al n´ umero total de datos. An´alogamente, la suma de sus frecuencias relativas ha de ser igual a 1: k X i=1 fi = n k X pˆi = 1 i=1 N´otese que, al tratarse de datos num´ericos, existe un orden preestablecido en los mismos, cosa que no suced´ıa en el ejemplo anterior. Eso nos permite construir otra columna, la de frecuencias ´ GRAFICA ´ 1.2. REPRESENTACION 13 absolutas acumuladas, donde se anota, para cada valor xj , el n´ umero Fj total de datos menores o iguales al mismo, es decir, j X Fj = fi i=1 A esta columna puede a˜ nad´ırsele la de frecuencias relativas acumuladas que resulta de dividir las anteriores por el n´ umero total de datos. Cuando no se utilizaban programas estad´ısticos estas u ´ltimas columnas eran de utilidad en el c´alculo de la mediana. Hi = Fi /n xi 18 19 20 21 22 23 24 Total 1.2. fi 6 5 3 3 3 3 2 25 pˆi 0.24 0.20 0.12 0.12 0.12 0.12 0.08 1 Fi 6 11 14 17 20 23 25 Hi 0.24 0.44 0.56 0.68 0.80 0.92 1 Representaci´ on gr´ afica El segundo paso del proceso consiste en ilustrar mediante un gr´afico lo obtenido en la tabla de frecuencias. Existen varios tipos de gr´aficos. El m´as simple es el conocido como diagrama de sectores. En el caso del ejemplo 1, la tabla de frecuencia quedar´ıa plasmada seg´ un la figura 1.1. Figura 1.1: Diagrama sectores grupo sangu´ıneo Para ilustrar la tabla de frecuencias del ejemplo 2 podr´ıamos escoger tambi´en un diagrama de sectores. No obstante, dado el orden natural que existe en los valores de la variable, se suele optar por otro tipo de gr´afico denominado diagrama de barras. La figura 1.2 recoge el diagramas de barras para las frecuencias absolutas. Ejercicio 4. Explica qu´e te sugiere la figura 1.2. Los diagramas de barras para las frecuencias relativas ofrecer´ıan un aspecto id´entico al de los anteriores gr´aficos pero con diferente escala en el eje OY. Las l´ıneas que unen las distintas barras se denominan pol´ıgonos de frecuencia. CAP´ITULO 1. ESTUDIO DE UNA VARIABLE 14 Figura 1.2: Diagrama de barras para edad alumnos 6 5 Recuento 4 3 2 1 0 18 19 20 21 22 23 24 Edad La variable estudiada en el ejemplo 2 admite 7 posibles valores, de ah´ı que el diagrama de barras resulte muy ilustrativo. Imaginemos por un momento qu´e suceder´ıa si en vez de cuantificar la edad por a˜ nos cumplidos se midiera por d´ıas, o incluso por segundos. En ese caso, lo m´as probable ser´ıa que no hubiera dos estudiantes con la misma edad, con lo que la tabla de frecuencias perder´ıa su sentido u ´ltimo, pues consistir´ıa en una larga ordenaci´on vertical de los valores obtenidos en la cual todos ellos presentar´ıan frecuencia absoluta 1. El diagrama de barras resultante se antojar´ıa claramente mejorable en cuanto a su poder ilustrativo. Es lo que ocurre si, por ejemplo, representamos el diagrama de barras correspondiente a la medici´on de la colesterolemia (mg/cm3 ) en una muestra de n = 30 individuos, como se aprecia en la figura 1.3: Página 1 Figura 1.3: Diagrama de barras para colesterolemia 1,0 Recuento 0,8 0,6 0,4 0,2 0,0 6 27 56 25 34 18 36 96 09 30 7. 74 20 25 72 24 66 50 28 1. 91 20 93 76 95 52 52 94 6. 41 19 55 7 83 75 18 87 8. 49 18 28 5 57 33 99 97 7. 51 18 65 1 34 51 54 29 2. 36 18 04 6 97 34 18 26 1. 90 18 18 1 11 55 93 40 9. 86 17 95 16 95 21 38 64 4. 29 17 03 3 09 84 64 58 3. 85 5 17 12 73 43 90 29 91 0. 6 17 11 68 72 57 40 98 1 4. 34 16 5 6 72 66 21 64 7. 16 15 93 5 51 70 55 50 5. 14 15 20 91 14 2. 13 Por lo tanto, cuando estamos ante un continuo de datos, por as´ı decirlo, y si nuestra intenci´on es obtener una gr´afico que nos ayude a entender f´acilmente la distribuci´on de los mismos, se antoja necesario agrupar los datos en clases (intervalos). De esta manera, en la columna de frecuencias absolutas se contabilizar´a el n´ umero de veces que aparece cada clase. Las dem´as columnas se elaborar´an a partir de ´esta como ya sabemos. Los gr´aficos correspondientes se denominan histogramas. En el caso del ejemplo 3 podemos obtener el histograma de frecuencias absolutas que aparece en la figura 1.4. En definitiva, agrupar en clases significa simplificar, perder una parte de la informaci´on, ´ GRAFICA ´ 1.2. REPRESENTACION 15 Figura 1.4: Histograma para colesterolemia 15 Frecuencia 10 5 0 125 150 175 200 225 Colesterolemia en aras de una mejor ilustraci´on de la misma. El procedimiento a seguir a la hora de construir las clases y representar los histogramas puede llegar a resultar bastante complejo a la par que puramente convencional. En Milton (2007) podemos encontrar un algoritmo perfectamente descrito. En la actualidad, todas las tareas gr´aficas se encomiendan a programas estad´ısticos que tiene implementados sus propios algoritmos. Por todo ello pasaremos de puntillas por esta cuesti´on. Tan s´olo destacaremos que el asunto m´as crucial en lo que respecta al aspecto del gr´afico es el n´ umero de intervalos que debemos considerar. Parece claro que dicho n´ umero debe guardar alg´ un tipo de relaci´on con el n´ umero total de datos n. Efectivamente, si el n´ umero de intervalos escogido es demasiado peque˜ no el gr´afico resultara excesivamente simplista, sobresuavizado, como en el gr´afico de la izquierda de la figura 1.5; por contra, si el n´ umero de intervalos es demasiado grande el histograma resultar´a demasiado abrupto, como en el gr´afico de la derecha. Página 1 Figura 1.5: Colesterolemia con 3 y 50 clases 3 20 15 Frecuencia Frecuencia 2 10 1 5 0 0 125 150 175 200 125 225 150 175 200 225 Colesterolemia Colesterolemia Con car´acter orientativo, la ley de Sturges (el programa SPSS no la respeta) sugiere que, si disponemos de n datos, el n´ umero de intervalos debe ser la parte entera de 1 + log2 n. De esta forma, si hay entre 16 y 31 datos, se deber´a tomar 5 clases, si hay entre 32 y 63, se tomar´an 6, etc. Insistimos en que esta ley es meramente orientativa. En nuestro caso, quedar´ıa como se ilustra en la figura 1.6. Ejercicio 5. Explica qu´e te sugiere la figura 1.6. Veamos otro ejemplo: Página 1 Página 1 CAP´ITULO 1. ESTUDIO DE UNA VARIABLE 16 Figura 1.6: Colesterolemia con 6 intervalos 12 10 Frecuencia 8 6 4 2 0 125 150 175 200 225 Colesterolemia Ejemplo 3: variable cuantitativa continua. La exposici´on aguda al cadmio produce dolores respiratorios, da˜ nos en los ri˜ nones y el h´ıgado, y puede ocasionar la muerte. Por esta raz´on se controla el nivel de polvo de cadmio y de humo de o´xido de cadmio en el aire. Este nivel se mide en miligramos de cadmio por metro c´ ubico de aire. Una muestra de 35 lecturas arroja estos datos (Basado en un informe de Environmental Management, septiembre de 1981): Cuadro 1.1: Concentraci´on cadmio 0.044 0.030 0.052 0.044 0.046 0.020 0.066 0.052 0.049 0.030 0.040 0.045 0.039 0.039 0.039 0.057 0.050 0.056 0.061 0.042 0.055 0.037 0.062 0.062 0.070 0.061 0.061 0.058 0.053 0.060 0.047 0.051 0.054 0.042 0.051 Página 1 En este caso sucede tambi´en que la variedad de valores posibles es demasiado amplia en relaci´on con el n´ umero de datos, es decir, que ´estos no se repiten o se repiten demasiado poco como para que merezca la pena construir una tabla de frecuencias con su correspondiente diagrama de barras, de ah´ı que optemos tambi´en por un histograma con 5-6 intervalos. Ejercicio 6. Representar los datos anteriores haciendo uso de una hoja de c´alculo o un programa estad´ıstico. Aunque no es ´esa la definici´on formal del t´ermino, en el contexto de la Estad´ıstica Descriptiva se denominan continuas las variables num´ericas que precisan de un histograma para ser representadas, en contraposici´on con las que pueden representarse aceptablemente por un diagrama de barras, que se denominan discretas. No obstante, el diagrama de barras puede ser igualmente u ´til para representar variables cualitativas, en especial si son de tipo ordinal. Otro tipo de gr´afico de gran inter´es en estas situaciones y que guarda gran similitud con el histograma de frecuencias absolutas es el denominado diagrama tallo-hoja, en el que cada dato se identifica con una cifra de la derecha que indica el valor de las unidades, siendo la correspondiente a su izquierda el valor de las decenas. Tambi´en consideraremos los denominados diagrama de caja o box-plot, pero eso ser´a m´as adelante. Ejercicio 7. Identificar los datos del ejemplo 3 en el diagrama tallo-hoja de la figura 1.7. 1.3. VALORES T´IPICOS 17 Figura 1.7: Diagrama tallo-hoja para los datos del ejemplo 3 La Campana de Gauss: Para acabar esta secci´on, destacamos que histogramas como el de la figura 1.6 sugieren un tipo de curva muy bien caracterizada que denominamos curva normal o campana de Gauss. Concretamente, en casos como estos solemos afirmar que los datos se ajustan aproximadamente a un modelo de distribuci´on tipo normal. Hablamos de tipo porque no se trata de un modelo u ´nico sino de una familia que depende de dos par´ametros. Variables que se ajustan aproximadamente a un modelo normal son relativamente frecuentes en la naturaleza, de ah´ı que la curva normal desempe˜ ne un papel destacado en la Estad´ıstica. Fue estudiada inicialmente por Laplace y Gauss. Ambos se ocupaban de problemas de astronom´ıa y en ambos casos una distribuci´on normal explic´o el comportamiento de los errores en medidas astron´omicas. La aplicaci´on de la distribuci´on normal no qued´o reducida al campo de la astronom´ıa. Las medidas f´ısicas del cuerpo humano o de un car´acter ps´ıquico en una poblaci´on, las medidas de calidad de productos industriales y de errores en procesos f´ısico-qu´ımicos de medici´on en general, se distribuyen con frecuencia seg´ un un modelo de campana de Gauss. Desde un punto de vista te´orico es el denominado Teorema Central del L´ımite el que confiere a la distribuci´on ´ normal un papel preponderante en la Estad´ıstica. Este viene a decirnos, en t´erminos intuitivos, lo siguiente: una variable cuyo resultado se debe a una suma de causas independientemente y de similar importancia se distribuye aproximadamente seg´ un un modelo de distribuci´on tipo normal. 1.3. Valores t´ıpicos El tercer paso del proceso descriptivo consiste en calcular una serie de n´ umeros cuyo prop´osito es sintetizar la informaci´on que aportan los n datos de la muestra considerada. Los valores t´ıpicos son, precisamente, esos n´ umeros que pretenden caracterizar la muestra. Esta fase del estudio s´olo tiene sentido cuando la variable estudiada es cuantitativa. Distinguiremos entre medidas de centralizaci´on, medidas de posici´on, medidas de dispersi´on y medidas de forma: 1.3.1. Medidas de centralizaci´ on Las m´as importantes sin duda aunque por s´ı mismas no suelen bastar para resumir la informaci´on. La idea puede ser la siguiente: si pretendemos explicar la mayor parte posible de informaci´on con un u ´nico n´ umero, ¿cu´al escogemos? Buscamos pues un n´ umero representativo, un valor central en alg´ un sentido. De todos los que mencionaremos a continuaci´on, los que realmente nos interesan son la media aritm´etica y la mediana. Moda: es el valor de la muestra que m´as se repite. CAP´ITULO 1. ESTUDIO DE UNA VARIABLE 18 Media aritm´ etica: es el valor central en sentido aritm´etico. Se obtiene sumando los n datos de la muestra y dividi´endolos por el tama˜ no de ´esta, es decir, x= Pn i=1 xi n donde cada dato xi aparece en el sumatorio tantas veces como se repita en la muestra, es decir, si los datos est´an agrupados en una tabla de frecuencias, se puede calcular tambi´en de la forma: Pk x= i=1 n xi fi = k X xi pˆi (1.1) i=1 Como podemos apreciar en la expresi´on anterior, a cada dato xi se le asigna un peso pˆi equivalente a la proporci´on que representa en la muestra. Podemos establecer una analog´ıa entre la media aritm´etica y el concepto f´ısico de centro de gravedad, es decir, la media aritm´etica puede entenderse como el centro de gravedad de los datos de la muestra, y como tal puede verse muy afectada ante la presencia de valores extremos. nos. La media se En el ejemplo 2 de las edades de 25 estudiantes tenemos x = 20.36 a˜ expresa, l´ogicamente, en las mismas unidades que los datos originales. Indicar dicha unidad es aconsejable. El hecho de que los datos est´en agrupados en intervalos, como ocurre en el ejemplo 3, no debe afectar al c´alculo de la media. Es decir, la media debe calcularse a partir de los datos originales sin agrupar. En ese ejemplo, obtenemos precisamente x = 0.0493. Ejercicio 8. Qu´e le sucede a la media aritm´etica si a todos los datos les sumamos una misma cantidad k? ¿Y si los multiplicamos por una misma cantidad k? Ejercicio 9. ¿Es cierto que sumar n datos es equivalente a sumar la media de los mismos n veces? Ejercicio 10. Averigua qu´e entendemos por esperanza de vida. Media geom´ etrica: es el valor central en el sentido del producto, pues se define como la ra´ız n-´esima del producto de los datos de la muestra. Media truncada: es la media aritm´etica que se obtiene una vez se han excluido el 5 % de datos m´as extremos. Mediana: es el valor central x˜ en el sentido del orden, es decir, aqu´el que quedar´ıa en el medio una vez ordenados los datos de menor a mayor, repiti´endose si es necesario tantas veces como aparezcan en la muestra. Para calcularla basta pues con ordenar los datos y determinar la posici´on del medio. Si el n´ umero de datos n es impar no cabe duda de que la mediana es el dato n+1 que ocupa la posici´on 2 . Si n es par tenemos un conflicto que puede resolverse mediante un convenio: definir la mediana como la semisuma de los datos que ocupen las posiciones n2 y n2 +1. En este proceso puede ser de utilidad la columna de las frecuencias absolutas acumuladas o un diagrama tallo-hoja. De todas formas, si la muestra es grande estas u ´ltimas consideraciones resultan irrelevantees, m´axime si delegamos el c´alculo en un programa estad´ıstico. En el ejemplo 2, el valor mediano es 20, que ocupa la posici´on 13. En el ejemplo 3 tenemos x˜ = 0.051, que ocupa la posici´on 17. Al contrario de lo que sucede con la media, la mediana es robusta en el sentido de que no se ve seriamente afectada por la presencia de valores extremos. Efectivamente, es obvio que podemos reemplazar el valor mayor de la muestra por otro mucho m´as grande sin que ello 1.3. VALORES T´IPICOS 19 Figura 1.8: Volumen tumor 40,0 Frecuencia 30,0 20,0 10,0 0,0 ,00 10,00 20,00 30,00 40,00 50,00 Volumen tumor afecte a la mediana. Esta cualidad podr´ıa considerarse negativa por denotar un car´acter menos informativo que la media pero tambi´en puede resultar positiva cuando una clara asimetr´ıa con presencia de valores extremos desplaza fuertemente la media rest´andole representatividad. Es lo que puede suceder en un caso como el de la figura 1.8, en el que se recogen el volumen de un tumor de pr´ostata de n = 97 pacientes. De este tipo de distribuci´on asim´etrica se dice que tiene un sesgo positivo o hacia la derecha. Ejercicio 11. ¿Qu´e relaci´on se da entre la media y la mediana si el sesgo es positivo, es decir, cu´al es mayor? ¿Qu´e relaci´on se dar´a entre la media y la mediana si la distribuci´on es normal? Ejercicio 12. Calcula la media y la mediana del siguiente conjunto de datos: 8,0,10,9,9. 1.3.2. Medidas de posici´ on Página 1 Se trata de una serie de n´ umeros que dividen la muestra ordenada en partes con la misma cantidad de datos. La principal medida de posici´on ya la hemos estudiado: la mediana, pues divide la muestra en dos mitades. Efectivamente, sabemos que el 50 % de los datos debe ser inferior a la mediana y el resto superior. Cuartiles: si pretendemos dividir la muestra ordenada en cuatro partes iguales obtenemos los denominados cuartiles, que se denotan por Q1 , Q2 y Q3 . El primero deja a su izquierda (o debajo, seg´ un se prefiera) el 25 % de los datos; el segundo deja a la izquierda el 50 %, por lo que se trata de la propia mediana; el tercero deja a la derecha el 25 %. Respecto al c´alculo de Q1 y Q3 , lo ideal es encomendarse a un programa estad´ıstico. Si no se cuenta con ´el convenimos, por ejemplo, lo siguiente: para una muestra de tama˜ no n y ordenada de menor a mayor Q1 ser´a el dato que tenga por posici´on la parte entera de n/4. Q3 ser´a el datos que ocupe esa posici´on pero contando desde el final. Deciles Si dividimos la muestra en diez partes iguales obtenemos los denominados deciles que van de D1 a D9 . Obviamente, la mediana coincidir´a con el el decil D5 . Percentiles Si dividimos la muestra en 100 partes iguales, obtendremos los percentiles, que van de p1 a p99 . De nuevo, la mediana coincide con el percentil 50 y los cuartiles Q1 y Q3 CAP´ITULO 1. ESTUDIO DE UNA VARIABLE 20 con p25 y p75 , respectivamente. Los percentiles se utilizan mucho en pediatr´ıa para analizar el crecimiento de los reci´en nacidos. En general, podemos hablar de los cuantiles. Dado un valor γ en el intervalo (0, 1), el cuantil γ se define como el valor que deja a su izquierda el γ × 100 % de los datos. De esta forma, el decil D2 ser´ıa el cuantil 0.20, por ejemplo. Hemos de tener en cuenta que s´olo para una muestra amplia (la cual hace imprescindible el uso de un programa estad´ıstico) tiene sentido considerar divisiones finas de la misma. Por ello, si contamos con pocos datos es absurdo hablar de percentiles, o incluso de deciles. 1.3.3. Medidas de dispersi´ on Tienen por objeto completar la informaci´on que aportan las medidas de centralizaci´on pues miden el grado de dispersi´on de los datos o, lo que es lo mismo, la variabilidad de la muestra. Las fundamentales son la desviaci´on t´ıpica y el rango intercuart´ılico. Rango: es el m´as inmediato pues expresa la diferencia entre el valor mayor y el menor. En el ejemplo 2 ser´ıa igual a 24 − 18, es decir, 6. Varianza: nos da una medida de dispersi´on relativa al tama˜ no muestral de los distintos datos respecto a la media aritm´etica x. Una primera definici´on es la siguiente: Pn (xi − x)2 2 s = i=1 n El hecho deP elevar las diferencias respecto a x al cuadrado se debe a que, como es f´acil de comprobar, ni=1 (xi −x) = 0, pues los datos que quedan a la derecha de la media se compensan con los que quedan a su izquierda. Se podr´ıa haber optado por considerar el valor absoluto de las diferencias, lo cual dar´ıa a lo que se conoce como desviaci´on media, pero eso generar´ıa numerosos inconvenientes de ´ındole matem´atica. Si los datos est´an tabulados, la expresi´on anterior equivale a la siguiente: k X 2 (1.2) s = (xi − x)2 pˆi i=1 El c´alculo de la varianza lo encomendamos el programa estad´ıstico. En el ejemplo 2, de las edades en a˜ nos de 25 alumnos, se obtiene una varianza s2 = 4.157 a˜ nos2 . Desviaci´ on t´ıpica: podemos observar que en la varianza anterior las unidades originales se perdieron por la necesidad de elevar al cuadrado las diferencias. Para recuperarlas basta con efectuar la ra´ız cuadrada de la varianza obteniendo lo que denominamos desviaci´on t´ıpica, que se denotar´a por s. As´ı pues, r Pn 2 i=1 (xi − x) s= n No obstante, con vista a una posterior Inferencia Estad´ıstica, tanto la varianza como la desviaci´on t´ıpica aparecen por defecto divididas por n − 1 en vez de n, lo cual es apenas apreciable cuando n es grande, por o que no debe desviar nuestra atenci´on de la esencia del par´ametro. En el ejemplo 2 obtenemos s = 2.039 a˜ nos. Ejercicio 13. ¿Puede ser negativa la desviaci´on t´ıpica? ¿C´omo se interpreta una desviaci´on t´ıpica nula? Ejercicio 14. ¿Qu´e le sucede a la desviaci´on t´ıpica si a todos los datos les sumamos una misma cantidad k? ¿Y si los multiplicamos por una misma cantidad k? 1.3. VALORES T´IPICOS 21 Ejercicio 15. Se denomina tipificaci´on o estandarizaci´on a la acci´on de restar a cada dato xi de la muestra la media aritm´etica y, posteriormente, dividir el resultado entre la desviaci´on t´ıpica, es decir, calcular xi − x zi = (1.3) s ¿Cu´ales ser´an entonces la media y la desviaci´on t´ıpica de los datos tipificados? ¿En qu´e dimensiones se expresar´an? La desviaci´on t´ıpica funciona como complemento de la media dado que, mientras la u ´ltima indica el centro aritm´etico de los datos, la primera expresa el grado de dispersi´on respecto a dicho centro. De esta forma, el par de n´ umeros (x, s) pretende resumir la informaci´on contenida en los n datos de la muestra. En concreto, si nuestros datos se distribuyeran seg´ un una distribuci´on normal, el mero conocimiento de x y s permitir´ıa reproducir con exactitud el histograma. As´ı, ocurre por ejemplo que entre los valores x − s y x + s se encuentra una proporci´on muy cercana al 68 % de los datos, o que entre x − 2 · s y x + 2 · s se encuentra una proporci´on muy cercana al 95 %. En ese sentido afirmamos que el par (x, s) resume perfectamente la informaci´on contenida en una muestra cuando los datos de la misma se distribuyen seg´ un una curva normal. Entendemos tambi´en que, a medida que nos alejamos de dicho modelo el par, anterior pierde su capacidad de s´ıntesis. De hecho, sabemos que en determinadas situaciones la media aritm´etica puede considerarse menos representativa que la mediana. En tal caso necesitamos una medida de dispersi´on que complemente dicho valor central. Rango intercuart´ılico o amplitud intercuartil: pretende ser un complemento adecuado a la mediana. Est´a basado al igual que ´esta en el orden de los datos y se define mediante RI = Q3 − Q1 . En el caso de los datos del ejemplo 2, obtenemos RI = 2. A partir de los cuartiles y el rango intercuart´ılico podemos construir un gr´afico denominado de cajas o box-plot, muy utilizado. Se trata de una caja cuyos bordes son los cuartiles primero y tercero, con una linea gruesa a la altura de la mediana. Conociendo el rango intercuart´ılico se determinan unos l´ımites (distan del los cuartiles Q1 y Q2 1.5 veces el rango intercuart´ılico) a partir de los cuales los valores se considerar´an extremos y se marcan los valores no extremos m´as pr´oximos a dichos l´ımites. Los valores que queden fuera de esos l´ımites o vallas se representar´an mediante c´ırculos o asteriscos seg´ un el grado de extremismo que alcancen. Figura 1.9: Box plot para volumen tumor 50,00 94 Volumen tumor 40,00 97 30,00 86 55 91 76 20,00 75 10,00 ,00 En definitiva, si pretendemos resumir lo mejor posible la informaci´on contenida en la muestra debemos escoger al menos una medida de centralizaci´on junto con otra de dispersi´on. Lo m´as frecuente es considerar el par (x, s). Esta opci´on es la ideal en el caso de que los datos se distribuyan seg´ un una curva normal. A medida que nos diferenciamos de ese modelo de distribuci´on la media adolece de falta de representatividad y el par anterior pierde su capacidad de resumen. La otra opci´on es el par (˜ x, RI ). Nos decantaremos por esta opci´on cuando observemos una fuerte asimetr´ıa con presencia de valores extremos. Esta elecci´on deber´ıa ir acompa˜ nada del uso de t´ecnicas no param´etricas en la posterior inferencia (cap´ıtulo 5). Página 1 CAP´ITULO 1. ESTUDIO DE UNA VARIABLE 22 Por ejemplo, en el siguiente cuadro se muestra una descriptiva b´asica de cinco variables medidas en mujeres de unos 20 a˜ nos, distinguiendo entre celiacas y no celiacas: Cuadro 1.2: Ejemplo descriptiva b´asica Celiaquia Media Menarquía años Talla en cm Sana Celiaca Desviación típica Desviación típica 12.74 1.48 N válido Media N=79 13.33 1.90 N válido N=78 163.94 5.12 N=79 164.20 5.59 N=78 Antigladina IgG 4.25 1.10 N=79 8.29 4.19 N=78 Antigladina IgA 25.65 10.95 N=79 41.35 12.69 N=78 Hemoglobina g/dl 14.31 2.35 N=79 10.93 3.35 N=78 Coeficiente de variaci´ on: se trata de un coeficiente adimensional relacionado con la media y la desviaci´on t´ıpica que es de gran utilidad para comparar la dispersi´on de distintos grupos de datos, dado que nos da una medida de la dispersi´on de los datos relativa al orden de magnitudes que estos presentan. Concretamente, se define mediante C.V. = s × 100. x Ejercicio 16. Se tienen 30 datos num´ericos correspondientes a la medici´on del peso en kg. de 30 individuos. ¿En qu´e dimensiones se expresar´an la media aritm´etica, varianza, desviaci´on t´ıpica y coeficiente de variaci´on? Ejercicio 17. Considera los dos grupos de datos (a) y (b) siguientes: (a)1.80, 1.79, 1.77, 1.83, 1.52. (b) 180, 179, 177, , 183, 152. ¿Tienen la misma media?¿Tienen la misma desviaci´on t´ıpica?¿Tienen en com´ un alg´ un par´ametro descriptivo de los considerados anteriormente? 1.3.4. Medidas de forma Por u ´ltimo, mencionaremos dos par´ametros que pretenden dar cierta idea de la forma en la que se distribuyen los datos. Deben guardar pues una estrecha correspondencia con lo observado en los histogramas, diagramas tallo-hoja y diagramas de caja. Las dos medidas que definimos a continuaci´on son muy dif´ıciles de calcular si no se hace uso de un programa estad´ıstico. Pero lo que nos interesa de ellas no es su c´alculo sino su interpretaci´on. Coeficiente de asimetr´ıa: es, como su propio nombre indica, una medida del grado de asimetr´ıa o sesgo que se da en la distribuci´on de los datos. Se define mediante Pn (xi − x)k m3 g1 = 3 , siendo mk = i=1 , k = 1, 2, 3... s n Página 1 Distinguimos a grandes rasgos tres situaciones: 1. g1 > 0: Distribuci´on asim´etrica de los datos con sesgo positivo (figura 1.8). 2. g1 < 0: Distribuci´on asim´etrica con sesgo negativo. 3. g1 = 0: Distribuci´on sim´etrica. 1.3. VALORES T´IPICOS 23 Coeficiente de aplastamiento o de Curtosis: expresa el grado de aplastamiento de una distribuci´on sim´etrica respecto al que corresponder´ıa a una distribuci´on normal con su media y desviaci´on t´ıpica, de manera que un valor 0 equivale a una campana de Gauss, mientras que un valor negativo indica un aplastamiento excesivo. Un valor positivo indica lo contrario. Otras cuestiones propuestas Ejercicio 18. Se midi´o, a trav´es de cierto aparato, una determinada variable bioqu´ımica, obteniendo un total de 146 datos num´ericos, que presentaron una media aritm´etica de 4.2 y una desviaci´on t´ıpica de 1.1, en las unidades de medida correspondientes. Tras representar el histograma de frecuencias absolutas, se comprob´o que los datos configuraban aproximadamente una Campana de Gauss. Indica un intervalo que contenga aproximadamente al 68 % de los datos. Se averigua posteriormente que el aparato de medida comete un error sistem´atico consistente en indicar, en todo caso, media unidad menos que el verdadero valor de la variable. ¿Cu´ales ser´an entonces la media aritm´etica y desviaci´on t´ıpica de los 146 verdaderos valores? Ejercicio 19. Se mide cierta variable sobre una muestra de 10 individuos, obteni´endose los siguientes datos. 4 5 4.5 3.9 5.2 4 5.2 5.3 23 4.1 Dar una medida de centralizaci´on y otra de dispersi´on adecuadas. Ejercicio 20. Indica dos grupos, de 5 datos cada uno, que presenten... La misma media pero distinta desviaci´on t´ıpica. La misma desviaci´on t´ıpica pero distinta media. La misma mediana y distinta media. La misma media y distinta mediana. Ejercicio 21. Los individuos A y B manejan un ec´ografo. Se pretende dilucidar cu´al de los dos tiene mayor precisi´on a la hora de efectuar mediciones. Para ello se asigno a A la medici´on de un mismo objeto en 10 ocasiones diferentes, anot´andose los resultados. Al individuo B se le asigna un objeto diferente que mide en otras 10 ocasiones. Razona qu´e par´ametro (o par´ametros) estad´ıstico consideras m´as apropiado para efectuar la comparaci´on. Ejercicio 22. Razona si son verdaderas o falsas cada una de las siguientes afirmaciones: Si una muestra de datos presenta media 0, su desviaci´on t´ıpica ser´a peque˜ na. Cuanto mayor es el tama˜ no de la muestra, mayor es su varianza. Cuanto mayor es el tama˜ no de la muestra, mayor es su media. Si g1 ' 0 la media y la mediana deben ser parecidas. Ejercicio 23. La siguiente tabla representa el n´ umero de infartos de miocardio por d´ıa que se atendieron en un servicio especializado durante 30 d´ıas: Infartos 0 1 2 3 4 5 6 fi 2 3 8 11 2 3 1 24 CAP´ITULO 1. ESTUDIO DE UNA VARIABLE a) Representar el diagrama de barras para frecuencias absolutas y frecuencias absolutas acumuladas. b) Calcular la media, varianza, desviaci´on t´ıpica y coeficiente de variaci´on de los datos anteriores. c) Calcular la mediana y el rango intercuart´ılico. Ejercicio 24. Se ha desarrollado una nueva vacuna contra la difteria para aplicarla a ni˜ nos. El nivel de protecci´on est´andar obtenido por antiguas vacunas es de 1 µg/ml un mes despu´es de la inmunizaci´on. Se han obtenido estos datos del nivel de protecci´on de la nueva vacuna al transcurrir un mes: (Basado en un informe del Journal of Family Practice, enero 1990.) 12.5 13.5 13 13.5 13 12.5 13.5 14 13.5 13 13 14 14.5 13 12 13.5 13.5 12.5 12.5 12.5 a) Representa el diagrama de barras para las frecuencias relativas acumuladas. b) Calcula la media, mediana, desviaci´on t´ıpica y rango intercuart´ılico. c) ¿Qu´e proporci´on de datos son inferiores o iguales a 13? Ejercicio 25. Considerar los datos del ejemplo 3. a) Obtener mediante la calculadora cient´ıfica los valores de la media artim´etica, la desviaci´on t´ıpica y el coeficiente de variaci´on. b) Obtener, a partir del diagrama tallo-hoja, la mediana y el rango intercuart´ılico. c) Indica un par de n´ umeros que resuman lo mejor posible esos 35 datos. d) Razona cu´al debe ser el signo del coeficiente de simetr´ıa. ¿Y el del coeficiente de aplastamiento? Ejercicio 26. Los datos del siguiente diagrama tallo-hoja corresponden a la concentraci´on de mercurio [µgr/cm3 ] en la sangre de 25 individuos de una zona contaminada. Se utiliza como unidad 1: 0 8 1 0 2 2 0 5 7 3 0 2 5 5 6 6 8 4 0 0 1 4 5 5 5 0 2 3 6 1 2 7 0 Calcula la moda, media, mediana, desviaci´on t´ıpica y rango intercuart´ılico de estos 25 datos. ¿Qu´e par de valores consideras que resumen adecuadamente la informaci´on de toda la muestra? ¿Por qu´e? ¿Qu´e valores cabe esperar para los coeficientes de simetr´ıa y aplastamiento? Ejercicio 27. Considera los dos diagramas de cajas de la figura 1.10, correspondiente a la puntuaci´on de ansiedad de Hamilton sobre 20 individuos que viven solos y otros 20 que viven acompa˜ nados. ¿Con qu´e diagrama tallo-hoja de la figura 1.11 se identifica cada grupo? Indica un par de medidas que resuma lo mejor posible la informaci´on que aportan los 20 datos. ¿Qu´e podemos decir del coeficiente de asimetr´ıa? 1.3. VALORES T´IPICOS 25 Figura 1.10: Puntuaci´on de ansiedad de Hamilton Puntuación de ansiedad de Hamilton 20,0 15,0 5 10,0 5,0 0,0 Viven solos Viven acompañados Estilo de vida Figura 1.11: Diagramas Tallo-hoja Página 1 Ejercicio 28. En una zona boscosa cerca de Seattle se tomaron 35 medidas de concentraciones de ozono (partes por bill´on), obteni´endose los siguientes resultados de la figura 1.12 y el cuadro ??. Comentar, a la luz de los gr´aficos y los coeficientes de forma, los aspectos m´as destacados de la distribuci´on de los datos y seleccionar un par de par´ametros que resuman lo mejor posible la informaci´on que contiene la muestra. Ejercicio 29. El conjunto de cinco datos {2.1, 3.4, 1.6, 7.8, 4.2} posee media aritm´etica 3.8 y desviaci´on t´ıpica 2.5 (redondeando a un decimal). Indica la mediana. Indica un conjunto de cinco datos cuya media aritm´etica sea 0 y cuya desviaci´on t´ıpica sea 1. Es aconsejable aprovechar los datos anteriores. Ejercicio 30. Se midi´o el peso en kg de 500 varones reci´en nacidos despu´es de la semana 38 de gestaci´on. Los resultados aparecen en la figura 1.13. Comentar los aspectos gr´aficos m´as destacados e indicar un par de medidas que resuman satisfactoriamente la informaci´on que CAP´ITULO 1. ESTUDIO DE UNA VARIABLE 26 Figura 1.12: Concentraci´on de ozono 220 20 210 35 Concentración de Ozono Frecuencia 15 10 200 190 180 5 170 0 160 170 180 190 200 210 220 160 Concentración de Ozono Cuadro 1.3: Concentraci´on de ozono Página 1 Página 1 aporta la muestra. Dar un valor aproximado para la mediana y para el percentil p84 . Razonar si deben aparecer valores extremos en el diagrama de caja. Ejercicio 31. Un total de 100 jugadores lanza tres dados cada uno y suman sus puntuaciones, obteni´endose por lo tanto 100 n´ umeros entre el 3 y el 18 cuyo histograma se representa en la figura 1.14. ¿C´omo se explica a nivel intuitivo que los datos se ajusten aproximadamente a una curva normal? Seg´ un el gr´afico, ¿cu´al es aproximadamente el valor de la media? ¿Y el de la mediana? ¿Y el de la desviaci´on t´ıpica? Ejercicio 32. Tipifica (ver (1.3)) los valores correspondientes al peso en kg de 10 personas: 35,92,71,64,72,101,45,83,60,72. ¿C´omo se interpreta una puntuaci´on tipificada positiva? ¿Y negativa? ¿Cu´ales ser´an las puntuaciones tipificadas de los mismos datos expresados en gramos? Ejercicio 33. Cuando los datos de una variable se ajustan aproximadamente a un modelo de distribuci´on normal, la distribuci´on de las puntuaciones tipificadas sigue a su vez un modelo de distribuci´on que se denomina normal est´andar, cuya media es 0 y cuya desviaci´on t´ıpica es 1.3. VALORES T´IPICOS 27 Figura 1.13: Peso reci´en nacidos Figura 1.14: Suma de tres dados n = 100 40,0 Frecuencia 30,0 20,0 10,0 0,0 0 5 10 15 20 Suma 1. El modelo se denota por N (0, 1). Es frecuente en general calificar como extremos a los datos m´as alejados del centro de la distribuci´on hasta completar un 5 %. Si la distribuci´on es del tipo campana de Gauss, ser´an entonces calificados como extremos los datos cuya distancia a la media sea superior al doble de la desviaci´on t´ıpica. ¿Por qu´e? ¿C´omo debe ser la puntuaci´on tipificada de un dato extremo en una campana de Gauss, es decir, qu´e caracteriza a los valores extremos en una distribuci´on normal est´andar? Página 1 Figura 1.15: Distribuci´on N (0, 1) 95 % Extremos 2.5 % -2 Extremos 2.5 % 2 28 CAP´ITULO 1. ESTUDIO DE UNA VARIABLE Cap´ıtulo 2 Relaci´ on entre variables num´ ericas Si en el cap´ıtulo anterior se afrontaba el estudio descriptivo de una variable (cualitativa o cuantitativa), en el presente se aborda el estudio conjunto de varias variables. Nos centraremos aqu´ı principalmente en el caso de dos variables num´ericas, aunque tambi´en consideraremos el estudio conjunto de m´as de dos e, incluso, introduciremos una variable cualitativa en la u ´ltima secci´on. El objetivo es analizar la posible relaci´on entre las variables consideradas. En general, entendemos que entre dos variables, num´ericas o no, existe relaci´on o dependencia cuando un cambio en el valor de una de ellas se asocia a un cambio en el de la otra. La situaci´on contraria, es decir, la ausencia de relaci´on, se denomina independencia. Por ejemplo, nada nos hace pensar que un valor mayor o menor en la u ´ltima cifra del DNI se asocie a un valor mayor o menor en la concentraci´on de plaquetas en la sangre, por lo que, en principio, podemos pensar que ambas variables son independientes. Sin embargo, s´ı cabe pensar que existe relaci´on entre la talla de un individuo y su peso porque un talla elevada se asocia a un peso mayor. Para llevar a cabo el estudio de relaci´on entre las variables es preciso efectuar un an´alisis previo de las mismas por separado seg´ un vimos en el cap´ıtulo anterior. El estudio de la relaci´on entre variables cualitativas lo abordaremos en el siguiente cap´ıtulo. En buena l´ogica, deber´ıamos dedicar otro cap´ıtulo m´as a la relaci´on entre una variable cualitativa y otra num´erica, pero este tema se tratar´a de manera m´as exhaustiva en la segunda parte del manual. En esta primera parte nos contentaremos con una breve introducci´on que incluiremos al final del presente cap´ıtulo. Dado que nos encontramos en un contexto descriptivo, el an´alisis de los datos pasa en principio por organizarlos en tablas, representarlos gr´aficamente y calcular los respectivos valores t´ıpicos aunque, dado el tipo de gr´afico que vamos a utilizar, la tabulaci´on no tiene mayor inter´es. 2.1. Relaci´ on entre dos variables num´ ericas Supongamos que contamos con n individuos o unidades experimentales sobre los que se miden num´ericamente dos caracteres, dando lugar a sendas variables cuantitativas X e Y . De la medici´on de dichos caracteres sobre las unidades experimentales resultar´an n pares de datos num´ericos, que se denotar´an as´ı: (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ). La primera componente del par (xi , yi ), es decir, el valor xi , corresponde a la medici´on de X en la i-´esima unidad experimental y la segunda corresponde a la variable Y . Veamos un ejemplo de car´acter did´actico con una peque˜ na muestra de tama˜ no n = 12: Ejemplo 4: dos variables cuantitativas. Se indica a continuaci´on el peso (kg) y la estatura (cm) de 12 personas (no se especifica edad, sexo ni ning´ un otro aspecto): X =peso(kg) Y =altura(cm) 80 45 63 94 24 75 56 174 152 160 183 102 183 148 29 52 61 34 21 78 152 166 140 98 160 ´ ENTRE VARIABLES NUMERICAS ´ CAP´ITULO 2. RELACION 30 El estudio debe empezar con una estad´ıstica descriptiva de cada variable por separado, que deber´ıa incluir sendos histogramas, as´ı como al menos una medida de centralizaci´on y otra de dispersi´on (en principio estamos pensando en la media y la desviaci´on t´ıpica). A continuaci´on, nos dedicamos al estudio descriptivo de la relaci´on entre ambas variables. 2.2. Diagrama de dispersi´ on As´ı pues, lo primero que nos interesa realmente el la representaci´on gr´afica de la muestra. Esta tarea debe encomendarse a un programa estad´ıstico aunque, en este caso y dado el escaso tama˜ no de la misma, podemos hacerlo nosotros mismos. 2.2.1. Diagrama de dispersi´ on simple El gr´afico m´as adecuado para apreciar la relaci´on entre dos variables num´ericas es el denominado diagrama de dispersi´on o nube de puntos, que consiste en identificar cada unidad experimental (xi , yi ) con el punto del plano que tenga por coordenadas xi para el eje OX e yi para OY. De esta forma, los datos anteriores se representan seg´ un la figura 2.1. Figura 2.1: Altura vs peso 200,0 Altura 175,0 150,0 125,0 100,0 20 40 60 80 100 Peso En la figura 2.2 se aprecia la relaci´on entre la longitud y la anchura de la cabeza para n = 356 espermatozoides pertenecientes a cierta especie animal. Tanto en dicha figura como en la anterior se observa en la muestra una relaci´on positiva en el sentido de que el crecimiento de una variable se asocia al crecimiento de la otra. Sin embargo, en la figura 2.3, donde se muestran n = 12 mediciones de las concentraciones de hormona paratiroidea (µg/ml) y calcio (mg/100ml) en sangre, se aprecia una correlaci´on inversa, es decir, valores alto de la hormona se asocian fuertemente a valores bajos de calcio y viceversa. Para llegar a una conclusi´on de este tipo es indiferente cu´al de las dos variables se identifique con el eje OX. En los casos anteriores decimos que nos encontramos ante un problema de correlaci´on, puesto que las variables estudiadas desempe˜ nan roles intercambiables. Otro denominador Página 1 com´ un a los tres ejemplos considerados es el hecho de que a relaci´on entre el incremento de la ´ 2.2. DIAGRAMA DE DISPERSION 31 Figura 2.2: Anchura vs longitud cabeza espermatozoides 5,200 5,100 Anchura 5,000 4,900 4,800 4,700 4,600 4,500 7,800 8,000 8,200 8,400 8,600 8,800 9,000 9,200 Longitud Figura 2.3: Ca vs Pth Concentración de calcio (mg/100ml) 11,00 10,00 9,00 8,00 7,00 Página 1 6,00 5,00 0,00 1,00 2,00 3,00 4,00 5,00 Concentración de hormona paratiroidea (mug/ml) variable X y el correspondiente incremento (posiblemente negativo) de Y es constante. Dicho de una manera m´as gr´afica, la nube se forma en torno a una l´ınea recta, que puede ser creciente o decreciente. Decimos entonces que nos encontramos ante un problema de correlaci´on lineal, que no es, ni mucho menos, la u ´nica forma de correlaci´on posible. Lo que s´ı es claro es que es la m´as sencilla y es relativamente frecuente. Simplificando al m´aximo podr´ıamos afirmar que, entre dos variables que se distribuyen seg´ un sendos modelos de campana de Gauss cabe esperar una relaci´on de tipo lineal, es decir, que linealidad y normalidad pueden considerarse caras de una misma moneda. No obstante, en el apartado 2.4.1 abordaremos de manera introductoria el estudio de correlaci´on no lineal. 2.2.2. Diagrama de dispersi´ on matricial Página 1 Cuando estudiamos conjuntamente m´as de dos variables num´ericas precisamos un tipo de gr´afico m´as complejo. La mejor opci´on, posiblemente, es el gr´afico de dispersi´on matricial que confronta las diferentes variables por parejas. Se trata pues de una matriz de gr´aficos de dispersiones simples. En la figura 2.4 se muestra el gr´afico de dispersi´on matricial para las variables longitud de f´emur (F), circunferencia craneal (C) y circunferencia abdominal (A), ´ ENTRE VARIABLES NUMERICAS ´ CAP´ITULO 2. RELACION 32 medidas en mm para 40 fetos de 26 semanas de gestaci´on. A C F Figura 2.4: F´emur-cr´aneo-abdomen F 2.3. C A Coeficientes de correlaci´ on y determinaci´ on Abordamos a continuaci´on el c´alculo de valores t´ıpicos en el estudio de correlaci´on lineal. En primer lugar, necesitamos conocer la media y desviaci´on t´ıpica de cada una de las variables por separado, es decir, rP P 2 x i i (xi − x) x= i , sx = , n n rP P 2 i (yi − y) i yi y= , sy = n n En el ejemplo 4 correspondiente a los datos de peso (X) y altura (Y ) se tiene: x = 56.92kg, sx = 22.96kg, y = 151.5cm, sy = 27.47cm Página 1 Hecho esto, nos interesa calcular un valor t´ıpico que exprese el grado de correlaci´on lineal entre ambas variables observado en la muestra. Al contrario que los par´ametros anteriores, dicho valor debe conjugar las informaciones que aportan ambas variables. Empezaremos definiendo la covarianza muestral como sigue: Pn (xi − x)(yi − y) sxy = i=1 n La covarianza, que en el caso del ejemplo 4 se expresar´a en kg · cm, puede ser tanto positiva como negativa, pero debe quedar necesariamente acotada por los valores siguientes − sx · sy ≤ sxy ≤ + sx · sy ´ Y DETERMINACION ´ 2.3. COEFICIENTES DE CORRELACION 33 En el ejemplo 4 y teniendo en cuenta los valores de las desviaciones t´ıpicas, se tiene que sxy debe estar comprendido entre −630.71 y 630.71, siendo concretamente su valor 577.86 kg · cm. La covarianza pretende expresar el grado de correlaci´on lineal existente entre las variables X e Y de la siguiente forma: Un valor positivo de sxy significa una tendencia creciente en la nube de puntos, es decir: si los valores de X crecen, los de Y tambi´en. Existir´a por tanto correlaci´on directa entre ambas variables, seg´ un la muestra. El caso extremo sxy = +sx ·sy significa una correlaci´on lineal perfecta, es decir, que la nube de puntos est´a incluida en una u ´nica recta, que ser´a adem´as creciente. Un valor negativo de sxy significa una tendencia decreciente en la nube de puntos, es decir: si los valores de X crecen, los de Y decrecen. Existir´a por tanto correlaci´on inversa entre ambas variables, seg´ un la muestra. El caso extremo sxy = −sx · sy significa una correlaci´on lineal perfecta, es decir, que la nube de puntos est´a incluida en una u ´nica recta, que ser´a adem´as decreciente. sxy = 0 se traduce, por contra, en la ausencia de relaci´on lineal en los datos de la muestra. En la figura 2.5 se ilustra lo dicho anteriormente. Figura 2.5: izquierda sxy = sx sy ; centro sxy ' 0; derecha sxy = −sx sy Y 6 r r r Y r 6 r r r r Y 6 r r r r r r r - X r r r r - X r r - X Seg´ un lo dicho, en la figura 2.1 correspondiente al ejemplo 4 se observa una alto grado de correlaci´on lineal positiva. En la figura 2.6 se aprecia el porqu´e. Efectivamente, en la figura 2.6 las l´ıneas de referencia se corresponden con las medias x y y. Determinan cuatro cuadrantes. Los puntos que se encuentran en los Pncuadrantes superior derecho e inferior izquierdo aportan sumandos positivos a la expresi´on i=1 (xi − x)(yi − y). Los que se encuentran en los restantes aportan sumandos negativos. En este caso, abunda claramente lo primero, por lo cual la suma resultante ser´a un n´ umero positivo y bastante grande. Para evaluar qu´e entendemos por grande hemos de tener en cuenta la cota m´axima que se puede alcanzar, que no es universal. Nos referimos a sx sy . De hecho, un cambio de unidades (pasar de cent´ımetros a metros, por ejemplo), hace variar tanto las desviaciones t´ıpicas como la covarianza. Todo ello complica la interpretaci´on del par´ametro sxy . Nos interesar´ıa pues otro par´ametro que se interprete de forma an´aloga pero cuyas cotas sean universales. La soluci´on es f´acil considerando sxy rxy = sx · sy 34 ´ ENTRE VARIABLES NUMERICAS ´ CAP´ITULO 2. RELACION Figura 2.6: Altura vs peso 200 Altura 175 150 125 100 20 40 60 80 100 Peso Este par´ametro, que se denotar´a igualmente por r a secas, se denomina coeficiente de correlaci´on lineal muestral, se interpreta en los mismos t´erminos con la salvedad de que se encuentra en todo caso entre -1 y 1 y alcanza esos valores cuando se da en la muestra una correlaci´on lineal perfecta, bien sea inversa o directa, respectivamente. La proximidad a 0 indica que en la muestra se observa escasa correlaci´on lineal. As´ı, a los datos del ejemplo 4 le corresponde r = 0.9161. Ejercicio 34. ¿En qu´e dimensiones se expresar´a el coeficiente r en el ejemplo 4? Ejercicio 35. ¿Qu´e le sucede a r si permutamos las variables en el ejemplo 4, es decir, si identificamos el peso con el eje OY y la altura con el eje OX? Página 1 2 , denominado coeficiente Desde el punto de vista formal es m´as interesante el par´ametro rxy de determinaci´on muestral. M´as adelante veremos su interpretaci´on. En el caso del ejemplo 4 tenemos r2 = 0.83. A la figura 2.7 le corresponde un coeficiente de correlaci´on r =0.618, lo cual expresa una correlaci´on positiva pero m´as d´ebil que la observada anteriormente, cosa que debe quedar clara si en el diagrama de dispersi´on trazamos las lineas de referencia que pasan por las medias. Figura 2.7: Anchura vs altura cabeza espermatozoides 5,200 5,100 Anchura 5,000 4,900 4,800 4,700 4,600 4,500 7,800 8,000 8,200 8,400 8,600 8,800 9,000 9,200 Longitud Ejercicio 36. La figura 2.4 se corresponde con una matriz de coeficientes de correlaci´on. ¿Qu´e caracter´ısticas generales tendr´a una matriz de este tipo? ¿Entre qu´e dos variables se dar´a un mayor coeficiente de correlaci´on? ´ LINEAL 2.4. REGRESION 2.4. 35 Regresi´ on lineal En el caso de que se observe una correlaci´on lineal significativa entre los datos de X y los de Y (realmente, el l´ımite entre lo que consideramos significativo y no significativo lo estableceremos en la segunda parte), puede ser interesante obtener una ecuaci´on que permita relacionar de manera aproximada ambas variables. Esto es de especial inter´es cuando una de las variables puede medirse de manera sencilla pero otra no. Si entre ambas existe un alto grado de correlaci´on el valor de la primera puede utilizarse para pronosticar con mayor o menor fiabilidad el de la segunda. Por ejemplo, la longitud del f´emur en un feto de 26 semanas puede medirse de forma sencilla mediante un ec´ografo. Si dicha longitud correlaciona con el peso (gr), como se aprecia en la figura 2.8, podemos servirnos de la misma para predecirlo. En nuestro caso, dado que estamos considerando por el momento relaciones exclusivamente lineales, la ecuaci´on que buscamos ser´a del tipo Y = B0 + B1 X y se denomina ecuaci´on de regresi´on lineal muestral simple. Se corresponde obviamente con un recta de pendiente B1 y t´ermino independiente B0 . Parece l´ogico pensar que la recta id´onea ser´a la que mejor se ajuste a nuestra nube de puntos, aunque habr´a que especificar primeramente que entendemos por ajuste. En nuestro caso utilizaremos el criterio muy utilizado en Matem´aticas conocido como el de M´ınimos Cuadrados, cuya conveniencia fue argumentada hace casi dos siglos por el propio Gauss. Veamos en qu´e consiste. Como hemos dicho, una recta en el plano puede expresarse de la forma Y = B0 + B1 X. Dada una unidad experimental de la muestra (xi , yi ), al valor xi correspondiente a la variable X (abcisas) le corresponde, seg´ un la recta anterior, el valor B0 + B1 xi para la variable Y (ordenadas). La diferencia entre dicho valor y el que realmente corresponde a la variable Y , es decir, yi , se considera un error cometido al intentar explicar yi mediante la ecuaci´on anterior. El m´etodo de m´ınimos cuadrados propone cuantificar el error total mediante la suma de los cuadrados de los errores particulares, es decir, n X [yi − (B0 + B1 xi )]2 i=1 La recta que minimice dicho error ser´a la soluci´on deseada. La soluci´on a este problema de minimizaci´on resulta ser la siguiente: B1 = sxy /s2x B0 = y − B1 x. En la figura 2.8 la recta de regresi´on lineal correspondiente a la muestra de fetos estudiada. Su ecuaci´on es Peso=-29.1+13.1F´emur. N´otese que, en un problema de regresi´on, las variables X e Y no desempe˜ nan roles intercambiables, sino que deben quedar perfectamente especificadas por el contexto. Cabe realizar tres observaciones: (i) El signo de B1 es el que le otorga la covarianza sxy , que es a su vez el mismo de r. Es decir, que si la correlaci´on es directa, la recta de regresi´on tiene pendiente positiva, y si es inversa, negativa, como cab´ıa esperar. (ii) En todo caso, la recta pasar´a por el punto (x, y). Por decirlo de alguna forma, pasa por el centro de la nube de puntos. En particular, si la correlaci´on es nula la recta se asociar´a a una funci´on constante que asigna en todo el valor medio a la variable Y independientemente del valor de X. ´ ENTRE VARIABLES NUMERICAS ´ CAP´ITULO 2. RELACION 36 Figura 2.8: Peso del feto vs longitud de femur 700 Peso 600 500 400 300 200 25 30 35 40 45 50 F (iii) La recta de regresi´on puede calcularse siempre, independientemente del grado de correlaci´on existente entre las variables. Ejercicio 37. ¿Qu´e peso predecir´ıas a un feto cuyo f´emur mide 35mm? Ejercicio 38. Seg´ un la ecuaci´on de regresi´on, ¿cu´antos gramos aumenta o disminuye el peso del feto por cada mm que aumenta el f´emur? En la figura 2.9 se representa la recta de regresi´on lineal correspondiente a la muestra del ejemplo 4, en la que se miden la talla y el peso de 12 adultos, cuya ecuaci´on resulta ser y = 89.11 + 1.10x. Obviamente, el inter´es pr´actico de esta ecuaci´on es nulo pues ambas variables pueden medirse trivialmente. No obstante, puede servirnos de ejemplo para observar los errores cometidos por dicha ecuaci´on a la hora de explicar los verdaderos valores de la Página 1 variable Y , marcados con l´ıneas discontinuas. Figura 2.9: Peso vs altura ´ LINEAL 2.4. REGRESION 37 Desde un punto de vista num´erico, en la primera columna del cuadro 2.1 se muestran los valores de X para los 12 datos de la figura; en la segunda, los correspondientes valores de Y ; en la tercera, los valores de las ordenadas que se obtienen seg´ un la recta de regresi´on y = 89.11 + 1.10x; por u ´ltimo, en la cuarta columna tenemos precisamente las diferencias al cuadrado entre los valores reales de Y y sus predicciones, de manera que su suma cuantifica el error cometido por la recta de regresi´on. xi 80 45 63 94 24 75 56 52 61 34 21 78 Cuadro 2.1: Errores de regresi´on yi (B0 + B1 xi ) [yi − (B0 + B1 xi )]2 174 176.80 7.86 152 138.44 183.94 160 158.17 3.36 183 192.15 83.70 102 115.42 180.05 183 171.32 136.37 148 150.50 6.23 152 146.11 34.69 166 155.98 100.48 140 126.38 185.51 98 112.12 199.66 160 174.61 213.47 1335.32 Esa suma total, denominada error cuadr´atico, podr´a resultarnos grande o peque˜ na, pero lo cierto es que cualquier otra recta que podamos considerar ofrecer´a un error cuadr´atico mayor. Tambi´en es claro que cuantos m´as puntos tengamos mayor ser´a el error cuadr´atico. Necesitamos pues una medida del grado de error relativa al tama˜ no de la muestra. Ese par´ametro se 1 denomina varianza residual o parcial : n s2y←x 1X [yi − (B0 + B1 xi )]2 = n i=1 La varianza residual viene a expresar pues la parte de la variabilidad de los datos de Y no explicada por la variabilidad de los datos de X mediante la recta de regresi´on lineal. Este valor debe pues relacionarse de alguna forma con rxy . Efectivamente, puede demostrarse f´acilmente que s2y←x 2 = 1 − rxy s2y 2 Es decir, 1 − rxy se interpreta como la proporci´on de la varianza de Y que no logra explicar la 2 ecuaci´on de regresi´on o, dicho de otra forma, rxy es interpreta como la proporci´on de variabilidad de Y explicada por X. En el caso de la predicci´on del peso mediante la longitud del f´emur en fetos, la muestra aporta un valor de r2 = 0.643 (r = 0.802), lo cual se traduce en que, en esta muestra concreta, la recta de regresi´on permite explicar a partir de la longitud del f´emur un 64.3 % de la variabilidad del peso o, lo que es lo mismo, que conlleva un 35.7 % de error. Obviamente, r2 mide globalmente 1 Realmente no deber´ıamos dividir entre n sino entre n − 2 pero no entraremos aqu´ı en esos detalles ´ ENTRE VARIABLES NUMERICAS ´ CAP´ITULO 2. RELACION 38 Figura 2.10: Interpretaci´on intuitiva de r2 Y X r2 la fiabilidad de las predicciones. En la segunda parte ampliaremos este estudio valorando dicha fiabilidad de manera m´as precisa. X Los casos extremos ser´ıan r2 = 1 y r2 = 0. El primero1 se corresponde con s2y←x = 0, es Y decir, la recta de regresi´on lineal predice sin error los datos de Y a partir de X. Se da por lo tanto una correlaci´on lineal perfecta. El caso r2 = 0 se corresponde con s2y←x = s2y . Significa que toda la variabilidad de Y es error de regresi´on, es decir, que la recta de regresi´on no ayuda en absoluto a predecir los valores de Y . Tal es aproximadamente el caso de la figura 2.11, donde se expresan las tallas e ´ındices de masa corporal R2 de 100 individuos adultos. A esta muestra le corresponde r = −0.035. Figura 2.11: IMCvs TallaX 2 índice de masa corporal 40,00 30,00 20,00 10,00 140 150 160 170 180 190 200 Talla Ejercicio 39. ¿C´omo interpretamos el valor de r = −0.035 en la figura 2.11? ¿Te resulta parad´ojico? ¿C´omo ser´a r si reemplazamos la talla por el peso: positivo, negativo o pr´oximo a 0? Ejercicio 40. En el ejemplo de relaci´on entre el peso y la longitud del f´emur del feto, ¿afectar´ıa al valor de r2 el hecho de expresar el peso en kg en lugar de en gr? ´ LINEAL 2.4. REGRESION 39 Ejercicio 41. En el mismo ejemplo, si reemplazamos la muestra de n = 40 fetos por otra diferente, de otros 40 fetos, por poner un n´ umero, ¿obtendremos un mismo valor de r2 ?¿Obtendremos una misma ecuaci´on de regresi´on? ¿Ser´an parecidas? 2.4.1. Regresi´ on lineal m´ ultiple Ya hemos visto que en lo que respecta a las variables peso y longitud de f´emur (F), el grado de correlaci´on observado en la muestra de n = 40 fetos es r = 0.802, por lo que la ecuaci´on de regresi´on obtenida para dicha muestra, Peso=-29.1+13.1F permite explicar un 64.3 % (r2 ) de la variabilidad del peso. Que esta proporci´on resulte grande o peque˜ na depende del grado de fiabilidad que necesitemos en la predicci´on. Efectivamente y si nos permitimos una peque˜ na incursi´on en la Inferencia Estad´ıstica, es posible asignar a una predicci´on particular un margen m´aximo error mediante una cierta f´ormula que depende de tres factores: El valor de r2 . Obviamente, cuanto m´as se aproxime a 1 menor ser´a el margen de error, hasta el punto de que el caso r2 = 1se asocia a predicciones exactas. El tama˜ no de muestra n. Cuanto mayor sea n menor ser´a el margen de error, dado que la ecuaci´on calculada ser´a m´as fiable o estable. La distancia del individuo para el que se efect´ ua la predicci´on respecto al centro de la muestra. Cuanto m´as lejano sea el individuo mayor ser´a el margen de error, pues el problema de regresi´on tiene un car´acter local, es decir, la ecuaci´on no puede extrapolarse alegremente lejos del entorno de los datos. As´ı por ejemplo, en nuestro caso, para un feto con una tama˜ no de f´emur dentro del rango de los datos estudiados se le asigna un margen m´aximo de error de unos 100 gramos en el pron´ostico. Ejercicio 42. ¿Crees que a medida que el tama˜ no de muestra se hace mayor el margen de error de las predicciones tiende a 0? Si el margen de error de nuestras predicciones resulta insatisfactorio, podr´ıan considerarse dos posibles soluciones: aumentar el tama˜ no de la muestra o explicar el peso a trav´es de otra variable mejor, quiz´as la circunferencia craneal (C) o la abdominal (A). No obstante, lo m´as interesante es utilizar las tres variables medidas directamente por el ec´ografo, F, C y A, como variables independientes X1 , X2 y X3 en una ecuaci´on de tipo lineal cuya variable dependiente, Y , sea el peso (ni que decir tiene que a esta ecuaci´on podr´ıan a˜ nadirse m´as variables independientes). Es decir, se trata de construir a partir de la muestra una ecuaci´on del tipo Y = B0 + B1 X1 + B2 X2 + B3 X3 En general, la ecuaci´on concreta que buscamos, siguiendo de nuevo el criterio de m´ınimos cuadrados, es la que minimice la suma n X [yi − (B0 + B1 x1 + B2 x2 + B3 x3 )]2 i=1 La soluci´on a este problema la obtendremos mediante un programa estad´ıstico. En el problema del peso del feto, la ecuaci´on de regresi´on m´ ultiple obtenida para la muestra considerada es Peso = −149.0 + 12.6 · F + 9.8 · C − 9.4 · A (2.1) Ejercicio 43. Seg´ un eso, ¿qu´e peso cabr´ıa predecir a un feto con medidas F=43, C=172, A=167? 40 ´ ENTRE VARIABLES NUMERICAS ´ CAP´ITULO 2. RELACION r2 Para valorar globalmente la la correlaci´on entre estas tres variables y el peso necesitamos un valor t´ıpico que generalice el coeficiente de correlaci´on simple al cuadrado, r2 . Dicho coeficiente, que se obtiene mediante c´alculos matriciales, se denomina coeficiente de correlaci´on m´ultiple al cuadrado, y se denota por R2 . Expresa, por lo tanto, la proporci´on de variabilidad de Y explicada entre todas las variables independientes. Figura 2.12: Interpretaci´on intuitiva R2 X1 Y R2 X2 Ejercicio 44. Seg´ un eso, ¿puede disminuir R2 si se introduce una nueva variable independiente en la ecuaci´on, por ejemplo la longitud de la tibia? En el caso del peso del feto, obtenemos un valor R2 = 0.915, lo cual justifica la inclusi´on de las dos nuevas variables dado que inicialmente ten´ıamos r2 = 0.643. Puede llegar a pensarse que del hecho de a˜ nadir variables independientes a la ecuaci´on s´olo se derivan ventajas, pero no es as´ı. En primer lugar, estas variables hay que medirlas; en segundo lugar, nos impiden tener una visi´on gr´afica sencilla de los datos, pues debemos recurrir a los aparatosos diagramas de dispersi´on matricial; por u ´ltimo, pueden generar ciertas confusiones como consecuencia de la posible correlaci´on lineal entre las distintas variables independientes, cosa que puede apreciarse incluso en la ecuaci´on propuesta para el peso del feto. Lo m´as aconsejable es introducir una nueva variable en la ecuaci´on s´olo si su presencia incrementa sustancialmente el valor de R2 . Ejercicio 45. ¿Qu´e aspecto de la ecuaci´on (2.1) puede resultar parad´ojico? 2.4.2. Regresi´ on no lineal Hasta ahora hemos afrontado u ´nicamente el estudio de aquellas muestras en las que la relaci´on entre las variables X e Y es de tipo claramente lineal, excluyendo situaciones dudosas como la de figura 2.13. Corresponde al diagrama de dispersi´on simple entre el marcador tumoral PSA y el volumen de un tumor prost´atico estudiado en una muestra de n = 97 pacientes. Se incluye la recta de regresi´on lineal. La recta de regresi´on logra un aceptable ajuste a la nube de puntos, obteni´endose r = 0.625. No obstante, un estudio m´as profundo de ambas variables revela una relaci´on lineal mucho m´as clara entre los logaritmos del volumen y del PSA, tal y como queda patente en el gr´afico de la figura 2.14, al que corresponde un coeficiente de correlaci´on r = 0.734. ´ LINEAL 2.4. REGRESION 41 Figura 2.13: Volumen tumor vs PSA 50,00 Volumen tumor 40,00 30,00 20,00 10,00 ,00 ,00 50,00 100,00 150,00 200,00 250,00 300,00 PSA Figura 2.14: Log volumen vs log PSA 4,000 Logaritmo Volumen 3,000 2,000 1,000 ,000 -1,000 Página 1 -2,000 ,000 2,000 4,000 6,000 Logaritmo PSA La ecuaci´on de la recta de regresi´on representada en la figura anterior es y = −0.590 + 0.750x. Por lo tanto, las variable originales se relacionan aproximadamente seg´ un la ecuaci´on log vol = −0.509 + 0.750 log PSA Luego, despejando, obtenemos vol = 0.601 · PSA0.750 , que es la curva que se representa en la figura 2.15. Este ejemplo ilustra c´omo, en ciertas ocasiones, podemos lograr una mejor explicaci´on de la variable dependiente si no nos restringimos a ecuaciones de tipo lineal, lo cual suele traducirse a grandes rasgos en considerar distintas transformaciones de las variables en juego, en especial la logar´ıtmica. El programa estad´ıstico SPSS ofrece la posibilidad de tantear con diferentes posibilidades. No obstante, debemos advertir que este tipo de estudios puede llegar a ser bastante complicado. En todo caso, al igual que la mediana (valor t´ıpico basado en las posiciones Página 1 o rangos de los datos) puede reemplazar a la media cuando se observa un fuerte sesgo en la ´ ENTRE VARIABLES NUMERICAS ´ CAP´ITULO 2. RELACION 42 Figura 2.15: PSA vsVolumen volumen tumor tumor 50,00 40,00 30,00 20,00 10,00 ,00 ,00 100,00 200,00 300,00 PSA distribuci´on de los datos, podemos reemplazar el coeficiente de correlaci´on lineal r por el denominado coeficiente de correlaci´on de Spearman rS cuando observemos una relaci´on no lineal entre las variables. Consiste en el coeficiente de correlaci´on lineal entre los rangos de los datos para ambas variables. En el caso del ejemplo anterior su valor es rS = +0.700. Ejercicio 46. Si entre dos variables se da una relaci´on de tipo exponencial y = a · bx , ¿qu´e transformaciones debemos aplicar a las variables X e Y para obtener una relaci´on lineal? Ejercicio 47. En las figuras 2.16 y 2.17, extra´ıdas de Wikipedia, se ilustra la relaci´on entre la esperanza de vida global y la renta per c´apita por un lado, y entre la esperanza de vida de los hombres y la de las mujeres por otro, calculadas todas ellas en 2009 para todos los pa´ıses del mundo. Comenta qu´e te sugiere cada gr´afico. 2.5. Relaci´ on entre una variable num´ erica y otra cualitativa Como ya hemos comentado, este problema lo trataremos de manera m´as extensa en la segunda parte. El estudio a nivel meramente descriptivo es escueto y hemos optado por ubicarlo Página 1 en este cap´ıtulo porque, desde un punto de vista te´orico, el problema se formaliza mediante el mismo modelo que el de regresi´on. Ejemplo 5: cualitativa vs num´ erica. Se estudia la posible relaci´on entre la acidosis en reci´en nacidos y la glucemia medida en el cord´on umbilical. Para ello se toma una muestra de 200 reci´en nacidos distribuidos a partes iguales en cuatro grupos: sanos, enfermos con acidosis respiratoria, con acidosis metab´olica y mixta. Los datos quedan representados mediante los diagramas de dispersi´on en la figura 2.18 y mediante diagramas de caja (m´as habitual) en la figura 2.19. ´ ENTRE UNA VARIABLE NUMERICA ´ 2.5. RELACION Y OTRA CUALITATIVA 43 Figura 2.16: Esperanza de vida vs renta Figura 2.17: Esperanza de vida hombres vs mujeres Podemos observar que los niveles de glucemia son mayores en los enfermos con acidosis respiratoria que en los sanos, al menos por t´ermino medio (mediano); que los niveles de glucemia en los enfermos de acidosis metab´olica es a´ un mayor y que los enfermos de acidosis mixta poseen valores de glucemia similares al de los individuos sanos, al menos, insistimos, por t´ermino medio. Simplificando el asunto, podemos afirmar que la relaci´on entre un variable cualitativa y otra num´erica se traduce en un problema de comparaci´on de las diferentes medias (o medidas de centralizaci´on en general) que dicha variable num´erica alcanza en las distintas categor´ıas de la variable cualitativa. Concretamente, entendemos las distancias entre las medias como una prueba de la relaci´on entre ambas variables, que ser´a m´as fuerte cuanto mayor sean dichas diferencias. la cuesti´on es algo m´as compleja pues esta distancia debe evaluarse teniendo en cuenta el grado de variabilidad que presentan los datos, lo cual afecta a la variabilidad de las propias medias aritm´eticas calculadas. Es una situaci´on an´aloga a la de regresi´on lineal, pues se trata en definitiva de medir la proporci´on de variabilidad explicada por la variable cualitativa, lo cual da lugar a un coeficiente R2 . No obstante, no entraremos en esos detalles, por lo menos por el momento. Ello es debido a que el problema de comparaci´on de medias presenta una ´ ENTRE VARIABLES NUMERICAS ´ CAP´ITULO 2. RELACION 44 Figura 2.18: Glucemia vs acidosis (nube de puntos) Nivel de glucemia en el cordón umbilical 105,000 85,000 65,000 45,000 25,000 Control Acidosis Respiratoria Acidosis Metabólica Acidosis Mixta Tipo de acidosis Figura 2.19: Glucemia vs acidosis (box-plots) Nivel de glucemia en el cordón umbilical 90,000 80,000 70,000 60,000 Página 1 50,000 40,000 Control Acidosis Respiratoria Acidosis Metabólica Acidosis Mixta Tipo de acidosis casu´ıstica algo compleja que abordaremos en el contexto de la Inferencia Estad´ıstica (segunda parte). En esta primera parte nos contentaremos con un primer an´alisis meramente intuitivo a partir del gr´afico. Otras cuestiones propuestas Ejercicio 48. Indica un ejemplo de 4 pares de datos que presenten un coeficiente de correlaci´on lineal r = −1. Indica un ejemplo de 4 pares de datos que presenten un coeficiente de correlaci´on lineal r = 0. Ejercicio 49. En un estudio de regresi´on lineal se obtuvo, a partirPágina de1 una muestra de tama˜ no n = 12, una recta de regresi´on lineal y = 3.2 − 4.1x, y un coeficiente de correlaci´on lineal r = +0.93. ¿Existe alguna contradicci´on entre estos resultados? Ejercicio 50. En el diagrama de dispersi´on de la figura 2.20 se presentan 315 datos correspondientes a la ingesta y asimilaci´on de betacarotenos. ¿Qu´e conclusiones podr´ıamos extraer del mismo? ´ ENTRE UNA VARIABLE NUMERICA ´ 2.5. RELACION Y OTRA CUALITATIVA 45 Figura 2.20: Betacarotenos Plasma beta-carotene [ng/ml] 1500 1000 500 0 0 2000 4000 6000 8000 10000 Dietary beta-carotene [mcg/day] Ejercicio 51. ¿Qu´e diferencia hay entre un problema de correlaci´on y un problema de regresi´on? Ejercicio 52. Indicar qu´e valor aproximado puede tener r en los siguientes ejemplos: 5,00 -2,00 4,00 -4,00 Y Y Página 1 3,00 -6,00 2,00 -8,00 1,00 2,00 4,00 6,00 8,00 2,00 4,00 X 6,00 8,00 X 40,00 Y 30,00 20,00 10,00 2,00 4,00 6,00 8,00 Página 1X Página 1 Ejercicio 53. El sustrato Inosina monofosfato reacciona produciendo Xantosina monofosfato ante la presencia de la enzima IMP de Hidr´ogeno. Se intenta explicar la velocidad de dicha reacci´on (medida en incremento de la densidad del producto por minuto) a partir de la concentraci´on de sustrato (medido en µmoles/l). Tras medir ambas variable en 7 ocasiones, con las mismas condiciones ambientales, se obtuvo: [S] V 3.4 0.10 5.0 0.15 a) Representa la nube de puntos. 8.4 0.20 16.8 0.25 33.6 0.45 67.2 0.50 134.4 0.53 Página 1 46 ´ ENTRE VARIABLES NUMERICAS ´ CAP´ITULO 2. RELACION b) Realiza el siguiente cambio de variables: X = 1/[S], Y = 1/V . Efect´ ua un estudio de correlaci´on-regresi´on lineal entre las variables X e Y . c) En general, en los procesos de reacci´on ante la presencia de una enzima, la velocidad de la reacci´on se relaciona con la concentraci´on del sustrato seg´ un una ley del siguiente tipo: Vmax × [S] , V = Km + [S] donde Vmax es la velocidad m´axima posible en el proceso, que se corresponde con una concentraci´on de sustrato muy grande, y donde Km es una valor constante para condiciones ambientales fijas, denominado constante de Michaellis-Menten. Estima el valor de Km y Vmax en este proceso concreto. Ejercicio 54. Se midieron la presi´on sist´olica (mmHg) y la concetraci´on de colesterol LDL (mg/litro) a 462 personas obteni´endose, entre otros resultados, los s valores t´ıpicos que aparecen en el cuadro 2.2. Cuadro 2.2: SBP vs LDL Media Mediana Desviación típica Rango intercuartílico Coeficiente de correlación Presión (mmHg) 138.33 134 20.50 24 LDL (mg/litro) 57.40 43.4 20.71 25.2 0.158 Razona brevemente, a partir de estos resultados, cu´al de las dos variables posee un mayor sesgo positivo. Razona cu´al debe ser el valor del coeficiente de correlaci´on lineal entre la presi´on arterial y el LDL si medimos este u ´ltimo en mg/decilitro. Se detecta posteriormente a la toma de datos que el medidor de tensi´on arterial comete un error sistem´atico consistente en indicar siempre 2mmHg m´as de la cuenta. Sabido esto, ¿cu´ales deben ser los verdaderos valores de la mediana y el rango intercuart´ılico de la presi´on arterial? ¿Cu´al debe ser el verdadero valor el coeficiente de correlaci´on lineal entre la presi´on arterial y el LDL (medido en mg/litro)? Ejercicio 55. El diagrama de dispersi´on de la figura 2.21 representa el ´area de la cabeza y la velocidad para una muestra de n = 356 espermatozoides con r = 0.20. ¿Qu´e proporci´on de variabilidad de la velocidad es explicada linealmente por el tama˜ no de la cabeza? ¿Qu´e proporci´on de variabilidad del tama˜ no de la cabeza es explicado linealmente por la velocidad? ¿Qu´e puedes extraer de este dato en t´erminos pr´acticos? Ejercicio 56. Observa la figura 5.7 y comenta a un nivel puramente intuitivo si existe relaci´on entre el estilo de vida y el nivel de ansiedad seg´ un la escala de Hamilton. Ejercicio 57. Se lleva a cabo un estudio con n = 100 individuos para determinar si el tipo de dieta (distinguiendo entre A y B) influye en el IMC (contamos con 54 individuos que siguen la dieta A y 46 que siguen la B). En la figura 2.22 se muestra el correspondiente diagrama de cajas. Responde a la cuesti´on a un nivel puramente intuitivo. ´ ENTRE UNA VARIABLE NUMERICA ´ 2.5. RELACION Y OTRA CUALITATIVA ´ Figura 2.21: Area vs velocidad 180,0 Velocidad 160,0 140,0 120,0 100,0 80,0 30,000 32,000 34,000 36,000 38,000 40,000 Área cabeza Figura 2.22: Dieta vs IMC 40,00 índice de masa corporal Página 1 30,00 20,00 10,00 ,00 Dieta A Dieta B Tipo de dieta 47 48 ´ ENTRE VARIABLES NUMERICAS ´ CAP´ITULO 2. RELACION Cap´ıtulo 3 Relaci´ on entre variables cualitativas En el cap´ıtulo anterior se estudi´o la relaci´on entre dos variables num´ericas y entre una num´erica y otra cualitativa. Para completar el esquema l´ogico falta estudiar la relaci´on entre dos variables cualitativas. Entendemos que existe relaci´on entre ambas cuando un cambio de categor´ıa en una variable se asocia a un cambio de categor´ıa en la otra y viceversa. El hecho de expresar un car´acter de forma cualitativa puede resultar m´as sencillo que medirla num´ericamente, lo cual explica la abundancia de dise˜ nos de tipo cualitativos en la investigaci´on experimental. Parad´ojicamente, desde un punto de vista meramente estad´ıstico, el tratamiento de las variables cualitativas es mucho m´as engorroso que el de las num´ericas, cosa que tendremos la oportunidad de apreciar en este mismo cap´ıtulo. 3.1. Estudio general de las tablas de contingencia Empezaremos con un estudio de car´acter general para pasar despu´es a analizar problemas m´as concretos en el contexto biom´edico. En todo caso, repetiremos las mismas fases que en los cap´ıtulos anteriores pues estamos en un marco descriptivo, es decir: tabulaci´on, representaci´on gr´afica y c´alculo de los valores t´ıpicos correspondientes al estudio de relaci´on. 3.1.1. Tabla de contingencia Partimos de una muestra compuesta por n individuos o unidades experimentales pertenecientes a una determinada poblaci´on sobre los que se eval´ uan simult´aneamente dos caracteres cualitativos A y B, en los que se distinguen r y s categor´ıas, respectivamente. Es decir, la evaluaci´on del car´acter A puede dar lugar a r resultados posibles, A1 , A2 , ..., Ar , y la del car´acter B, a s resultados posibles, B1 , B2 , ..., Bs . Reservaremos el sub´ındice i para denotar los niveles de A y el j para los de B. Los datos se organizan mediante una tabla de frecuencias bidimensional denominada tabla de contingencia, seg´ un vemos en el siguiente ejemplo. Ejemplo 6: dos variables cualitativas. Se realiza un estudio a nivel cualitativo para considerar la posible asociaci´on entre el nivel de SO2 en la atm´osfera y el estado de salud de cierta especie arb´orea, en funci´on del nivel de cloroplastos en las c´elulas de sus hojas. Se distinguen tres tipos de ´areas seg´ un el nivel de SO2 : nivel alto, medio y bajo. As´ı mismo, se distinguen otros tres niveles de salud en los a´rboles: alto, medio y bajo. En cada zona se seleccion´o una muestra de 20 ´arboles, con lo que el n´ umero total es n = 60. En cada caso se determina su nivel de cloroplastos. La tabla obtenida tras clasificar los 60 ´arboles fue la siguiente: 49 ´ ENTRE VARIABLES CUALITATIVAS CAP´ITULO 3. RELACION 50 Nivel cloroplastos Nivel SO2 (3 × 3) Alto Medio Bajo Total Alto 3 5 7 15 Medio Bajo 4 13 10 5 11 2 25 20 Total 20 20 20 60 Empecemos con una breve descripci´on de la tabla. En este caso se distinguen r = 3 categor´ıas o niveles para el car´acter A fila (nivel de SO2 ) y otras s = 3 categor´ıas para el car´acter B columna (nivel cloroplastos). De ah´ı que la tabla sea del tipo 3 × 3. Los valores que aparecen en las 9 casillas se denominan valores observados y se denotan mediante Oij . A la derecha se expresan las sumas de las diferentes filas, que se denotan por Oi· , mientras que abajo se expresan las sumas de las columnas, que se denotan por O·j Variable B (3 × 3) B1 B2 B3 Total A1 O11 O12 O13 O1· A2 O21 O22 O23 O2· Variable A A3 O31 O32 O33 O3· Total O·1 O·2 O·3 n Todo nuestro estudio se basa en el an´alisis de las diferentes proporciones que se dan en la muestra, tanto brutas como condicionadas. Entre las primeras distinguimos las proporciones de las diferentes categor´ıas de A o de B. De esta forma, la proporci´on de ´arboles de la muestra que se encuentran en zonas con nivel alto de SO2 y la proporci´on de a´rboles de la muestra que presenta un nivel medio de cloroplastos son, respectivamente, 20 = 0.33, Pˆ (SO2 alto) = 60 25 Pˆ (Cloroplastos medio) = = 0.42 60 Tambi´en, dadas sendas categor´ıas de cada variable, podemos calcular la proporci´on que supone respecto al total de la muestra una combinaci´on o intersecci´on de ambas. Por ejemplo, 4 Pˆ (SO2 alto y Cloroplastos medio ) = = 0.067 60 Podemos hablar por u ´ltimo de de las siguientes proporciones denominadas condicionadas, pues se calculan suponiendo que se verifique una categor´ıa de las filas o de las columnas. As´ı, la proporci´on de ´arboles con SO2 alto que presenta un nivel bajo de cloroplastos y la proporci´on de a´rboles con nivel medio de cloroplastos que viven en un ambiente con SO2 alto son, respectivamente, 13 Pˆ Clor bajoSO2 alto = = 0.65, 20 4 Pˆ SO2 altoClor medio = = 0.16 25 En general se tiene que Oi· ˆ O·j ˆ Oij ˆ Oij ˆ Oij Pˆ (Ai ) = , P (Bj ) = , P (Ai ∩ Bj ) = , P (Ai |Bj ) = , P (Bj |Ai ) = n n n O·j Oi· (3.1) Hemos de destacar que las proporciones se denotan por Pˆ en lugar de P con la idea de resaltar que son par´ametros descriptivos, es decir, que se refieren a la muestra estudiada, no al total de la poblaci´on objeto del estudio, como veremos en la segunda parte. 3.1. ESTUDIO GENERAL DE LAS TABLAS DE CONTINGENCIA 51 Ejercicio 58. Indica las siguientes proporciones (puedes expresarlas en porcentajes): Proporci´on de ´arboles con alto nivel de cloroplastos entre aqu´ellos que crecen en zonas poco contaminadas, as´ı como la proporci´on de a´rboles que crecen en zonas poco contaminadas entre aqu´ellos que cuentan con alto nivel de cloroplastos. Proporci´on de ´arboles de la muestra que crecen en zonas poco contaminadas y adem´as cuentan con un alto nivel de cloroplastos. Proporci´on de ´arboles de la muestra que crecen en zonas poco contaminadas, as´ı como la proporci´on de ´arboles de la muestra que cuentan con un alto nivel de cloroplastos. 3.1.2. Diagrama de barras agrupadas Se trata de un gr´afico muy u ´til a la hora de ilustrar la asociaci´on existente entre las dos variables. Consiste en representar un diagrama de barras para las frecuencias absolutas Oij de las casillas pero agrupadas por filas o por columnas, seg´ un se desee. En este caso, se muestra en la figura 3.1 un diagrama de barras agrupadas por las categor´ıas de SO2 . Figura 3.1: Salud a´rboles vs contaminaci´on Gráfico de barras Nivel de cloroplastos Cloroplastos alto Cloroplastos medio Cloroplatos bajo 12,5 Recuento 10,0 7,5 5,0 2,5 0,0 SO2 alto SO2 medio SO2 bajo Nivel de SO2 Las marcadas diferencias entre los tres diagramas de barras hablan por s´ı solas de una considerable correlaci´on o asociaci´on entre las variables estudiadas. Podemos apreciar que, en las zonas muy contaminadas, la proporci´on (condicionada) de ´arboles enfermos es claramente mayor que en las zonas no contaminadas. A una conclusi´on id´entica se debe llegar condicionando en la variable contraria, siendo la elecci´on indiferente desde un punto de vista te´orico. En cada zona se da una distribuci´on diferente de los a´rboles seg´ un su estado de salud, lo cual indica que existe correlaci´on entre las variables, que ser´a mayor cuanto mayores sean las diferencias entre esas proporciones condicionadas. En el caso de que fueran id´enticas se podr´ıa hablar de una dependencia nula en la muestra observada. La cuesti´on es: ¿qu´e valor deber´ıa aparecer en cada celda en lugar de Oij para que la dependencia fuera nula? Dichos valores esperados en caso de dependencia nula se denotan por Eij . ´ ENTRE VARIABLES CUALITATIVAS CAP´ITULO 3. RELACION 52 Ejercicio 59. Supongamos que se lleva a cabo un estudio para analizar la posible relaci´on entre el factor Rh y el sexo. Se estudian un total de n = 100 personas con los siguientes resultados (parciales): Rh (2 × 2) + − Total M 40 Sexo F 60 Total 75 25 100 ¿Qu´e cantidad de datos Eij cabr´ıa esperar en cada una de las cuatro celdas para que la dependencia observada fuera nula? Podemos buscar una soluci´on particular para el ejercicio anterior. No obstante, de las ecuaciones (3.1) se deduce la soluci´on general Eij = Oi· × O·j n Equivalentemente, la dependencia es nula cuando, para cada combinaci´on de categor´ıas se verifica Pˆ (Ai ∩ Bj ) = Pˆ (Ai ) × Pˆ (Bj ) En el caso del ejemplo 6 se obtendr´ıa la siguiente tabla de valores esperados en el caso de dependencia nula, como podr´ıa ocurrir si se midiera, por ejemplo, el CO2 : Nivel cloroplastos Nivel SO2 (3 × 3) Alto Medio Bajo Total Alto 5 5 5 15 Medio Bajo 8.3 6.7 8.3 6.7 8.3 6.7 25 20 Total 20 20 20 60 N´otese que los valores Eij pueden no ser enteros, como en este caso, lo cual no afecta al prop´osito final de su c´alculo, como veremos a continuaci´on. En la siguiente figura aparece el diagrama de barras agrupadas que corresponde a una situaci´on pr´oxima a la correlaci´on nula. Concretamente, en la figura 3.2 aparece el diagram de barras agrupado correspondiente a un estudio la asociaci´on entre la localizaci´on de una tendinopat´ıa rotuliana y la afecci´on del tejido graso de Hoffa en n = 153 pacientes. N´otense las diferencias respecto a la figura 3.1. 3.1.3. Coeficiente de contingencia C de Pearson Desde un punto de vista num´erico podemos observar pues en el ejemplo 6 una clara diferencia entre la tabla de contingencia, que se corresponde con los valores observados, y la tabla de los valores que cabr´ıa esperar en el caso de dependencia nula. No obstante, estas diferencias deben concretarse en un valor t´ıpico que exprese el grado de asociaci´on observada en la muestra. En ese sentido, la distancia χ2 viene a medir la discordancia entre ambas tablas mediante χ2exp = X (Oij − Eij )2 Eij i,j 3.1. ESTUDIO GENERAL DE LAS TABLAS DE CONTINGENCIA 53 Figura 3.2: Independencia Gráfico de barras ¿Grasa infrarrotuliana lesionada? No Sí 50 Recuento 40 30 20 10 0 Proximal tendón rotuliano Cuádriceps Anterior tibia Localización insercción Debe quedar pues claro que un valor χ2exp nulo se corresponder´ıa con un grado de dependencia nulo y que, cuanto mayor sea su valor, m´as fuerte ser´a la dependencia o correlaci´on observada en la muestra. Puede resultar u ´til normalizar la distancia χ2 para obtener un valor con cotas universales. La normalizaci´on m´as popular es posiblemente el coeficiente de contingencia de Pearson, que pretende desempe˜ nar un papel similar al coeficiente de correlaci´on r, tambi´en de Pearson. Se define mediante s χ2exp C= χ2exp + n p Este coeficiente debe estar comprendido, para toda tabla r × s, entre 0 y q −1 (q − 1), siendo q = m´ın{r, s}. La cota 0 corresponde a la ausencia total de correlaci´on y la cota superior, que depende u ´nicamente de las dimensiones de la tabla, a la m´axima dependencia Página 1 posible. En el ejemplo 6, la cota m´axima es 0.816 y el valor concreto obtenido es C = 0.444, lo cual indica que se observa en la muestra un grado de correlaci´on medio. Nos preguntamos c´omo deber´ıan ser los datos observados para alcanzar el m´aximo grado de correlaci´on, que se corresponde con C = 0.816. Por ejemplo: Nivel cloroplastos Nivel SO2 3.1.4. (3 × 3) Alto Medio Bajo Total Alto Medio Bajo 0 0 20 0 20 0 20 0 0 20 20 20 Total 20 20 20 60 Tablas 2 × 2. Coeficiente φ Este caso particular, en el que se distinguen u ´nicamente dos categor´ıas en las dos variables consideradas, puede recibir, adem´as del tratamiento estudiado anteriormente, otro espec´ıfico que destaca por su sencillez. En ese caso, la tabla de contingencia se reducir´a a lo siguiente: 54 ´ ENTRE VARIABLES CUALITATIVAS CAP´ITULO 3. RELACION (2 × 2) A1 A2 Total B1 O11 O21 O·1 B2 O12 O22 O·2 Total O1· O2· n Ejemplo 7: tabla 2 × 2. Se pretende averiguar en qu´e medida es efectiva una vacuna contra la hepatitis. Se estudi´o una muestra de 1083 individuos de los cuales algunos hab´ıan sido vacunados y otros no; transcurrido un largo periodo de tiempo, algunos hab´ıan llegado a contraer la hepatitis mientras que otros estaban sanos. La tabla de contingencia resultante es la siguiente: Vacunaci´ on Hepatitis (2 × 2) S´ı No Total S´ı No 11 70 538 464 549 534 Total 81 1002 1083 Para un caso de este tipo, a la hora de medir el grado de asociaci´on de las variables, podemos utilizar, adem´as del conocido coeficiente C, el denominado coeficiente φ, que se define mediante φ2 = χ2exp /n, o lo que es lo mismo, s (O11 O22 − O12 O21 )2 φ= O1· O2· O·1 O·2 Si analizamos detenidamente la u ´ltima expresi´on, concluiremos que φ2 es un par´ametro completamente an´alogo al coeficiente de correlaci´on lineal r2 . Concretamente, puede tomar cualquier valor entre 0 y 1. El valor 0 se corresponde con asociaci´on nula y el valor 1, con una asociaci´on m´axima. Ejercicio 60. Comprobar que el valor de φ para los datos del ejemplo 7 es 0.211. En definitiva, se obtiene el valor φ = 0.211. Por su parte, el coeficiente de contingencia, que en una tabla 2 × 2 debe estar comprendido entre 0 y 0.707, da como resultado en esta caso C = 0.206. Ambos valores coinciden en expresar un grado de relaci´on medio-bajo en la muestra observada. El valor m´aximo φ = 1 se corresponde con una tabla diagonal. Es lo que lo que habr´ıa ocurrido si los datos de la muestra hubieran sido los siguientes: Vacunaci´ on Hepatitis (2 × 2) S´ı No Total S´ı No 0 81 1002 0 1002 81 Total 81 1002 1083 Por contra, el valor φ = 0 se corresponde con un grado nulo de relaci´on, que se habr´ıa alcanzado si nuestros datos hubieran sido los siguientes: Vacunaci´ on Hepatitis (2 × 2) S´ı No Total S´ı No 334 27 668 54 1002 81 Total 361 722 1083 3.2. FACTORES DE RIESGO 55 Efectivamente, si fuera ´este el caso podr´ıamos observar que, tanto en el caso de vacunados como en el de no vacunados, la proporci´on condicionada de individuos afectados ser´ıa 1/3. Lo mismo ocurrir´ıa con la tabla resultante en el ejercicio 59. Con un prop´osito meramente did´actico y para hacer hincapi´e en la semejanza entre los par´ametros r y φ, podemos convertir en cualitativas (categorizar) las variables num´ericas X e Y del ejemplo 4 (r = 0.91) que se representan en la figura 2.6, asign´andoles “+” cuando el valor queda por encima de su correspondiente media y “–” cuando queda por debajo. As´ı, obtendr´ıamos la siguiente tabla 2 × 2 , a la que corresponde un valor de φ = 0.86. X – + Tot + 2 6 8 Y – 4 0 4 Tot 6 6 12 Ejercicio 61. Comparar el valor de φ que corresponde a esta tabla con el valor r obtenido para los datos num´ericos originales. Confr´ontese esta tabla con las figuras 2.6 y 5.7 para entender el concepto de relaci´on estad´ıstica. Ejercicio 62. Confr´ontese la tabla obtenida en el ejercicio 59 con las figuras 2.11 y 2.22 para entender el concepto de independencia. Recordamos que las conclusiones obtenidas en esta fase del estudio se ci˜ nen exclusivamente a la muestra considerada, es decir, no estamos a´ un en condiciones de extrapolarlas al conjunto de la poblaci´on, entre otras cosas porque no sabemos en qu´e condiciones ha sido escogida esa muestra. Cabe incluso pensar que los individuos hayan sido seleccionados intencionadamente para obtener unos resultados concretos. 3.2. Factores de riesgo Nos centramos en esta ocasi´on en un tipo particular de tabla 2 × 2 de especial inter´es en Epidemiolog´ıa. Supongamos que una de la variables cualitativas estudiadas es la ausencia o presencia de una enfermedad E, como puede ser un c´ancer de pulm´on, hepatitis, osteoporosis, etc´etera, siendo la otra la ausencia o presencia de un posible factor de riesgo FR de cara a padecer dicha enfermedad, como el hecho de fumar, el de no estar vacunado contra la hepatitis, el de no alimentarse correctamente, etc´etera. El prop´osito de este tipo de estudios es determinar a partir de una muestra si ese supuesto factor de riesgo lo es efectivamente y en qu´e medida. Dado que en esta primera parte estamos en un contexto meramente descriptivo nos limitaremos por el momento a calcular una medida apropiada del riesgo que comporta el factor en la muestra estudiada. Las inferencias o generalizaciones se llevar´an a cabo en la segunda parte. Ejercicio 63. Indica 5 enfermedades y 5 respectivos posibles factores de riesgo. ¿Crees que est´an todos ellos confirmados estad´ısticamente o estamos hablando de meras suposiciones te´oricas? En este tipo de estudios pueden considerarse diferentes par´ametros de inter´es para una enfermedad concreta: Prevalencia: proporci´on de individuos enfermos P (E) en un instante dado en la poblaci´on. Incidencia: proporci´on de individuos que enferman a lo largo de un periodo de tiempo concreto. Se pueden distinguir distintos tipos de incidencias, por ejemplo, la incidencia entre los individuos con factor de riesgo o la incidencia entre los que no lo presentan. A partir de estas dos incidencias se calculan los riesgos relativo y atribuibles, que definiremos m´as adelante ´ ENTRE VARIABLES CUALITATIVAS CAP´ITULO 3. RELACION 56 Estos par´ametros son de car´acter poblacional y han de ser estimados a partir de una muestra concreta de tama˜ no n. No obstante, que un par´ametro determinado puedas ser o no estimado directamente a partir de la muestra estudiada depende del dise˜ no escogido a la hora de seleccionarla. De esta forma, distinguiremos tres tipos de dise˜ nos: 3.2.1. Tipos de dise˜ nos Estudios transversales o de prevalencia: su objetivo principal es poder estimar la prevalencia, para lo cual se selecciona aleatoriamente una gran muestra de la poblaci´on y se determina la cantidad de enfermos en un momento dado. La prevalencia P (E) se estima entonces de manera obvia mediante la proporci´on de enfermos en la muestra, Pˆ (E). Estudios de seguimiento o de cohortes: se selecciona una muestra de individuos expuesta al factor de riesgo y otra de no expuestos para estudiar su evoluci´on a lo largo de un periodo de tiempo que suele ser largo, anot´andose cu´antos llegan a contraer la enfermedad en cada caso. Este dise˜ no permite estimar las incidencias de la enfermedad para ambas cohortes, P (E|FR) y P (E|FR), para compararlas de diversas formas1 . Estudios retrospectivos o de caso-control: en un determinado momento se escoge una muestra de enfermos (caso) y otra de sanos (control), para a continuaci´on averiguar qu´e individuos han estado expuestos al factor de riesgo. Suelen ser los menos costosos pues los de prevalencia requieren muestras m´as grandes para que puedan registrarse suficientes enfermos y los de cohortes requieren de un seguimiento a lo largo del tiempo. En contrapartida, los estudios caso-control no permitir´an estimar prevalencias, incidencias ni medidas relacionadas. Por contra, s´ı podemos estimar las proporciones P (FR|E), P (FR|E), lo cual da una justificaci´on formal al concepto de Odds Ratio, que definiremos m´as tarde. En todo caso, nuestros datos se recoger´an en una tabla 2 × 2 donde se indicar´a, por un lado, si el individuo presenta el factor de riesgo y, por otro, si padece o desarrolla la enfermedad estudiada. (2 × 2) S´ı factor No factor Total S´ı enfermo a b a+b No enfermo c d c+d Total a+c b+d n En el ejemplo 7, la enfermedad estudiada es la hepatitis y el posible factor de riesgo el hecho de no estar vacunado. Se supone que estamos ante un estudio de cohortes pues se efect´ ua un seguimiento de individuos inicialmente sanos. Como hemos dicho anteriormente, en un estudio de cohortes tiene sentido estimar las incidencias de la enfermedad por grupos a trav´es de la tabla. Concretamente: a b Pˆ (E|FR) = Pˆ (E|FR) = a+c b+d y se entender´an respectivamente como el riesgo observado en la muestra de contraer la enfermedad si se est´a expuesto al factor y en caso contrario. En un estudio caso-control tiene sentido estimar a partir de la muestra la proporci´on de individuos enfermos que presentan el factor de riesgo. Concretamente, tomar´ıamos a Pˆ (FR|E) = a+b 1 Se denota con A el suceso contrario a A. As´ı pues, F R indica el hecho de no estar expuesto al factor de riesgo. 3.2. FACTORES DE RIESGO 3.2.2. 57 Medidas de riesgo Veamos cu´ales son las medidas m´as populares del riesgo que comporta un factor determinado. Aunque todas pueden en principio calcularse a partir de la tabla 2 × 2, estos valores podr´an o no considerarse estimaciones razonables de los valores poblacionales en funci´on del tipo de estudio del que se trate. Hemos de percatarnos tambi´en de que los propios coeficientes C y φ pueden entenderse como medidas de riesgo dado que expresan el grado de relaci´on entre el factor y la enfermedad. No obstante, los que indicamos a continuaci´on son m´as espec´ıficos en el contexto epidemiol´ogico. Riesgo atribuible: Es la diferencia entre las incidencias de enfermos, es decir, ˆ = Pˆ (E|FR) − Pˆ (E|FR) RA Este par´ametro tiene sentido en estudios de cohortes. Un valor positivo indica que en la muestra se observa una mayor tendencia a la enfermedad en los que presentan el factor de riesgo. Un valor aproximadamente nulo indica escasa relaci´on entre el factor de riesgo y la enfermedad. Con los datos del ejemplo 7 y si consideramos como factor de riesgo el hecho de no estar vacunado, obtenemos una estimaci´on del riesgo atribuible de ˆ = 13.1 % − 2.0 % = 11.1 % RA El porcentaje de enfermos entre los no vacunados es 11.1 puntos superior al de lo vacunados. Fracci´ on atribuible a la exposici´ on: Se define como el cociente FˆA = ˆ RA Pˆ (E|FR) = Pˆ (E|FR) − Pˆ (E|FR) Pˆ (E|FR) Se interpreta como la parte del riesgo de los expuestos que se debe al factor propiamente, entendiendo que una parte de los que est´an expuestos enferman por otras causas que comparten con los no expuestos. En el caso del ejemplo anterior es del 84 %. L´ogicamente, este par´ametro s´olo puede estimarse en los estudios de cohortes. Riesgo relativo: Es seguramente la m´as intuitiva de todas las medidas de riesgo. Se trata de determinar en qu´e medida incrementa el factor de riesgo la incidencia de la enfermedad. Se estima en un estudio de cohortes mediante ˆ ˆ = P (E|FR) RR Pˆ (E|FR) A partir de la tabla se obtiene as´ı: ˆ = RR a b : a+c b+d Para los datos de la hepatitis tendr´ıamos la siguiente estimaci´on ˆ = 13.1 = 6.55 RR 2.0 Es decir, en esta muestra se observa que el hecho de no estar vacunado aumenta 6.55 veces la proporci´on de enfermos. 58 ´ ENTRE VARIABLES CUALITATIVAS CAP´ITULO 3. RELACION Odds Ratio: Constituye una alternativa muy socorrida al riesgo relativo que puede ser estimada razonablemente en los estudios de tipo caso-control. Vamos a omitir aqu´ı la definici´on original del par´ametro para expresarlo de una manera que resultar´a intuitiva, siempre y cuando hayamos entendido la esencia del concepto de correlaci´on estad´ıstica: la raz´on de productos cruzados. Se define de acuerdo con la expresi´on de la izquierda o de la derecha seg´ un c´omo entendamos en principio el riesgo: ˆ = ad , OR bc ˆ = bc OR ad As´ı, en el ejemplo 7 obtenemos: Vacunaci´ on Hepatitis (2 × 2) S´ı No Total S´ı 11 538 549 No 70 464 534 Total 81 1002 1083 ˆ = 70 · 538 = 7.10 OR 11 · 464 Esta medida no goza de una interpretaci´on tan clara e intuitiva como el riesgo relativo. Adem´as, siempre que el Odds Ratio resulte mayor que 1 aportar´a un valor mayor que el Riesgo Relativo, cosa que debemos tener en cuenta si vamos a permitirnos la licencia de interpretarlos de forma similar. Es de vital importancia entender bien la tabla para saber qu´e diagonal debe aparecer en el numerador y cu´al en el denominador. ˆ y RR? Ejercicio 64. ¿Qu´e diferencia existe entre RR Ejercicio 65. Razona lo mejor posible por qu´e en un estudio de tipo caso-control no podemos obtener una estimaci´on razonable del riesgo relativo. ˆ FˆA, RR ˆ y OR ˆ se corresponde φ = 0? Ejercicio 66. ¿Con que valores de RA, ˆ = 0.50? Ejercicio 67. ¿C´omo interpretar un valor RR Ejercicio 68. Si se afirma que un h´abito determinado incrementa en un 20 % el riesgo de padecer una enfermedad concreta, ¿qu´e podemos decir del riesgo relativo asociado? 3.3. Diagn´ ostico Cl´ınico Otra cuesti´on de gran inter´es en Epidemiolog´ıa que guarda una estrecha relaci´on con las tablas 2 × 2 es el estudio de la eficacia de los diferentes procedimientos de diagn´ostico de una patolog´ıa o de detecci´on de sustancias dopantes. Primeramente, hemos de destacar que una gran cantidad (por no decir la mayor´ıa) de procedimientos de diagn´ostico tienen una importante componente estad´ıstica. Efectivamente, nos referimos a aquellos m´etodos que consisten en medir una variable de tipo num´erico que puede proceder de una anal´ıtica (concentraci´on de leucocitos, marcador PSA, urea), de una ecograf´ıa (anchura de un conducto, fracci´on de acortamiento entre s´ıstole y di´astole), etc. Si para una variable concreta conocemos la distribuci´on aproximada (es decir, los valores que puede tomar y en qu´e proporciones) para los individuos sanos, un valor an´omalo respecto a dicha distribuci´on puede ser considerado en principio patol´ogico, lo cual supondr´a un resultado positivo en el diagn´ostico, que seguramente deber´a ser corroborado mediante otra prueba m´as exhaustiva. Por contra, un valor dentro de los l´ımites correspondientes a la poblaci´on sana supondr´a un resultado negativo, lo cual no tiene por qu´e excluir la posibilidad de que el individuo est´e enfermo. ´ 3.3. DIAGNOSTICO CL´INICO 59 La forma de valorar la fiabilidad de un procedimiento de este tipo es aplicarlo a una muestra de individuos con un diagn´ostico previo certero (sano o enfermo) y comprobar en qu´e medida los enfermos coinciden con los positivos. Se trata pues de un dise˜ no tipo caso-control que dar´a lugar a una tabla 2 × 2 como la que aparece en el siguiente ejemplo: Ejemplo 8: Diagn´ ostico cl´ınico Se aplica un test diagn´ostico a 1000 individuos, 200 de los cuales sabemos que est´an enfermos mientras que de los 800 restantes sabemos que est´an sanos. Los resultados son los siguientes: Diagn´ ostico Enfermedad 3.3.1. (2 × 2) E S Total + 120 80 90 710 210 790 Total 200 800 1000 L´ımites de normalidad Antes de cuantificar la fiabilidad del procedimiento diagn´ostico vamos a intentar detallar qu´e entendemos por valores an´omalos. Por lo general, consideramos an´omalos los valores extremos (demasiado grandes o demasiado peque˜ nos) en relaci´on con la distribuci´on considerada, hasta completar un 5 % (aproximadamente). Si la variable se ajusta aproximadamente a un modelo de distribuci´on de campana de Gauss, los l´ımites a partir de los cuales los valores se consideran extremos son, seg´ un el ejercicio 33, x±2·s (3.2) As´ı pues, para el caso de la figura 1.6, a la que corresponde una media de 179 y una desviaci´on t´ıpica de 20, tendr´ıamos unos l´ımites de normalidad de 159-219, de manera que todo valor por debajo de 159 o por encima de 219 se considerar´ıa an´omalo (positivo). Realmente, estos l´ımites denominados de normalidad o tolerancia deben ser determinados a partir de muestras mucho m´as grandes que la de la figura 1.6 para que puedan ser fiables. En casos como el de la figura 3.3, la variable no se ajusta satisfactoriamente a un modelo de distribuci´on normal, por lo que los l´ımites de normalidad no deben calcularse seg´ un (3.2). En tales situaciones se pueden determinar los l´ımites de tolerancia de diferentes formas, aunque en este concreto, cabe mencionar que una transformaci´on logar´ıtmica de la variable PSA conduce en este caso a una distribuci´on aproximadamente normal (como se aprecia en la figura 3.4), en la cual s´ı podemos aplicar (3.2). Seg´ un el histograma de la figura 3.4, suponiendo que corresponda a una amplia muestra de individuos sanos, un valor del log PSA de 7 debe interpretarse como un positivo en la anal´ıtica que conducir´a seguramente a la realizaci´on de pruebas complementarias. Por u ´ltimo, citamos ciertos l´ımites de tolerancia facilitados por los Servicios de Bioqu´ımica y Hematolog´ıa de un hospital universitario espa˜ nol. Glucosa (mg/dl) [70,110] Urea (mg/dl) [10,40] Hematocrito ( %) [36,46] Eosin´ofilos ( %) <4 60 ´ ENTRE VARIABLES CUALITATIVAS CAP´ITULO 3. RELACION Figura 3.3: PSA 60,0 Frecuencia 50,0 40,0 30,0 20,0 10,0 0,0 ,00 50,00 100,00 150,00 200,00 250,00 300,00 Antígeno prostático específico 3.3.2. Fiabilidad de un procedimiento de diagn´ ostico Una vez hemos entendido c´omo puede dise˜ narse a grandes rasgos un procedimiento de diagn´ostico, vamos intentar analizar la fiabilidad del mismo partiendo de una tabla de contingencia 2 × 2 donde se confronta la enfermedad con el resultado del diagn´ostico, como la del ejemplo 8. Efectivamente, cae dentro de los posible, como se aprecia en la tabla, que un individuo sano sea diagnosticado err´oneamente como enfermo (positivo), lo cual se denomina falso positivo. Tambi´en es posible que un individuo enfermo sea diagnosticado como sano (negativo), lo cual ser´ıa un falso negativo. Por ello, definimos las siguientes medidas: Sensibilidad: proporci´on de enfermos que son diagnosticados como positivos. Especificidad: proporci´on de sanos diagnosticados como negativos. Página 1 Para el m´etodo diagn´ostico del ejemplo 8, obtendr´ıamos las siguientes estimaciones a partir de la tabla obtenida: 120 = 0.600 sens = Pˆ (+|E) = 200 710 esp = Pˆ (−|S) = = 0.887 800 Es decir, la proporci´on de falsos negativos en la muestra es del 40.0 % y la de falsos positivos del 11.3 %. Ejercicio 69. ¿Qu´e sensibilidad y especificidad se espera de un procedimiento de diagn´ostico completamente fiable? Imaginemos un procedimiento para determinar si un tumor de pr´ostata es o no agresivo a partir del PSA, de manera que, si ´este u ´ltimo est´a por encima de cierto umbral de referencia, se anotar´a un positivo en el diagn´ostico. Si el test resultar´a ser poco sensible podr´ıamos ´ 3.3. DIAGNOSTICO CL´INICO 61 Figura 3.4: log PSA 40,0 Frecuencia 30,0 20,0 10,0 0,0 ,000 2,000 4,000 6,000 Logaritmo Psa solucionarlo bajando el umbral de referencia, pero en tal caso descender´ıa la especificidad. Rec´ıprocamente, si subimos el umbral de corte pare aumentar la especificidad disminuir´a la sensibilidad. La viabilidad de la variable PSA para discriminar entre sanos y enfermos puede valorarse gr´aficamente mediante la denominada curva ROC (o COR), donde se calculan y representan la sensibilidad y 1 menos la especificidad para los diferentes puntos de corte de PSA. La situaci´on ideal es aquella en la que la primera sea pr´oxima a 1 y la segunda a 0. Una buena variable (un buen m´etodo, en definitiva) debe generar una ´area pr´oxima a 1 bajo la curva. En la figura 3.5 aparece la curva ROC en funci´on del logaritmo del PSA. Ejercicio 70. Interpreta la curva ROC de la figura 3.5. Página 1 Figura 3.5: Curva ROC para PSA Curva COR 1,0 Susceptibilidad 0,8 0,6 0,4 0,2 0,0 0,0 0,2 0,4 0,6 0,8 1,0 1 - Especificidad Los segmentos diagonales son producidos por los empates. Las medidas de fiabilidad anteriores se complementa con esta otras de gran inter´es para el paciente: ´ ENTRE VARIABLES CUALITATIVAS CAP´ITULO 3. RELACION 62 Valor predictivo positivo: se entiende como la probabilidad2 de estar enfermos si se ha dado positivo en el test. Valor predictivo negativo: se entiende como la probabilidad de estar realmente sano si se ha dado negativo en el test. Ejercicio 71. ¿Qu´e valores predictivos positivo y negativo cabe esperar de un m´etodo de diagn´ostico completamente certero? Ejercicio 72. ¿Como estimar´ıas en principio los valores predictivos positivo y negativo directamente a trav´es de la tabla? ¿Por qu´e el dise˜ no habitual de caso-control utilizado en el ejercicio 8 no permite unas estimaciones adecuadas seg´ un el procedimiento anterior? Los valores predictivos positivo y negativo pueden ser estimados a partir de la sensibilidad y especificidad, siempre y cuando se conozca de antemano la prevalencia de la enfermedad, mediante un recurso estad´ıstico utilizado en situaciones de este tipo que se denomina Regla de Bayes. Concretamente, se verifica: V P+ = sens × prev sens × prev + (1 − esp) × (1-prev) V P− = esp × (1 − prev) (1 − sens) × prev + esp × (1-prev) As´ı, si suponemos conocido que la enfermedad considerada en el ejemplo 8 presenta una prevalencia del 2 %, tendremos: V P+ = 0.60 × 0.02 = 0.097 0.60 × 0.02 + 0.113 × 0.98 0.887 × 0.98 = 0.990 0.40 × 0.02 + 0.887 × 0.98 El procedimiento empleado parece ser pues mucho m´as u ´til para descartar la enfermedad que para detectarla. Otras veces ocurre lo contrario, por lo que la pr´actica habitual es combinar diferentes tests. Para m´as detalles al respecto consultar la bibliograf´ıa recomendada, en es especial Cobo, Mu˜ noz y Gonz´alez (2007). V P− = Otras cuestiones propuestas Ejercicio 73. Si pretendemos probar la eficacia de una vacuna mediante una tabla 2 × 2 como en el caso del ejemplo 7, ¿c´omo debemos interpretar en t´erminos cl´ınicos un resultado φ = 0.02? Ejercicio 74. Para estudiar la posible relaci´on entre la exposici´on a un agente radioactivo se lleva a cabo un seguimiento durante 20 a˜ nos de 5.000 individuos pr´oximos a dicho agente y otros 95.000 lejanos, contabilizando en cada caso los tumores de tiroides que fueron diagnostic´andose. Los resultados del estudio quedan recogidos en la siguiente tabla: Exposici´ on Tumor 2 (2 × 2) S´ı No Total S´ı No 25 30 4975 94970 5000 95000 Total 55 99945 100000 N´ otese que es la primera vez que mencionamos este concepto de manera expl´ıcita. Podemos interpretarlo de manera intuitiva. ´ 3.3. DIAGNOSTICO CL´INICO 63 ¿De qu´e tipo de dise˜ no se trata? Calcular cuatro medidas del riesgo que, seg´ un la muestra, supone la proximidad al agente radioactivo. ¿Cu´al de ellas crees que es la m´as apropiada? Interpr´etala en t´erminos cl´ınicos. Ejercicio 75. Se piensa que la presencia de cierta variedad de un gen puede predisponer a un cierto tipo de tumor. Para contrastarlo se seleccionaron 1000 individuos sanos y otros tantos afectados por el tumor. A continuaci´on, se procedi´o a efectuar un an´alisis gen´etico de todos los individuos de la muestra para determinar si presentaban o no la variedad del gen. Los resultados aparecen en la siguiente tabla: Tumor Gen S´ı No Total S´ı No 610 360 390 640 1000 1000 Total 970 1030 2000 ¿De qu´e tipo de dise˜ no se trata? Calcula una medida de riesgo adecuada e interpr´etala en t´erminos cl´ınicos. Ejercicio 76. Calcula el valor de φ en las tablas anteriores. Ejercicio 77. Considera una determinada enfermedad, un posible factor de riesgo asociado y dise˜ na un hipot´etico estudio con vistas a medir el grado de riesgo de dicho factor. Ejercicio 78. En funci´on de los datos del ejercicio 30 determinar los l´ımites a partir de los cuales un beb´e var´on puede considerarse anormalmente pesado y anormalmente liviano. Ejercicio 79. Se pretende estudiar la posible relaci´on entre la presencia o ausencia de cierta enfermedad y el sexo. Para ello se seleccionaron 10000 individuos que fueron clasificados en funci´on de ambas variables, dando lugar a la siguiente tabla de contingencia: Enfermo Sano Total Hombre Mujer Total 95 5 100 5905 3995 9900 6000 4000 10000 Calcula la proporci´on de hombres de la muestra que padecen la enfermedad. Calcula la proporci´on de personas de la muestra que padecen la enfermedad. Calcula la proporci´on de personas de la muestra que son hombres y, adem´as, padecen la enfermedad. Calcula la proporci´on de personas de la muestra que son hombres. Sin necesidad de calcularlo, razona si cabe esperar un valor de φ pr´oximo a 0. Ejercicio 80. Se pretende valorar la efectividad de una prueba diagn´ostica A para una enfermedad presente en el 2 % de la poblaci´on. Para ello fue aplicada a una muestra constituida por 750 enfermos y 250 sanos con los siguientes resultados: 64 ´ ENTRE VARIABLES CUALITATIVAS CAP´ITULO 3. RELACION Enfermos Sanos Total + 730 50 780 20 200 220 Total 750 250 1000 Estimar la sensibilidad y especificidad de la prueba diagn´ostico, as´ı como las proporciones de falsos positivos y falsos negativos. Estimar los valores predictivos positivos y negativos. Valorar los resultados en t´erminos muy pr´acticos. Ejercicio 81. Disponemos de otro procedimiento diagn´ostico B para la misma enfermedad. Sus resultados tras aplicarlo a los mismos individuos son los siguientes: Enfermos Sanos Total + 610 3 613 140 247 387 Total 750 250 1000 Estimar nuevamente la sensibilidad, especificidad y los valores predictivos positivo y negativo. Valorar los resultados y compararlos con los del procedimiento A. Parte II Inferencia Estad´ıstica 65 Cap´ıtulo 4 Introducci´ on a la Inferencia Estad´ıstica Tal y como indicamos en la introducci´on, el prop´osito final de la Bioestad´ıstica es determinar las causas o consecuencias de un fen´omeno biom´edico, que estar´a en principio sujeto a un grado mayor o menor de incertidumbre, con el prop´osito de eliminar ´esta en la medida de lo posible. Con esa intenci´on se procede al an´alisis descriptivo de una muestra, en la que podemos observar diferentes circunstancias, como un cierto grado de correlaci´on lineal, ciertas diferencias entre las medias aritm´eticas de algunas categor´ıas, etc´etera. Sin embargo, el hecho de que en una muestra concreta apreciemos cierto grado de correlaci´on, por ejemplo, no debe hacernos descartar que, si la reemplazamos por otra diferente, nuestra impresi´on sea otra. Esta variabilidad de los posibles resultados en funci´on de la muestra estudiada se debe a que el car´acter que pretendemos explicar (peso, acidosis, hepatitis) se rige en buena parte por un conjunto de variables que no controlamos en el experimento y que por lo tanto, fluct´ uan de una muestra a otra. Es lo que se entiende com´ unmente como azar. Lo que resta es completar el esquema de la figura 1 mediante la Inferencia Estad´ıstica, que consiste en un conjunto de t´ecnicas para determinar de manera aproximada en qu´e medida lo observado en la muestra puede generalizarse o extrapolarse a la poblaci´on de la que procede. Estas t´ecnicas parten de una serie de supuestos te´oricos de car´acter ideal, es decir que, en la pr´actica, nunca o casi nunca se verifican estrictamente. Obviamente, cuanto m´as dr´astica sea la violaci´on de dichos supuestos, mayores ser´an los errores cometidos en los c´alculos inferenciales. El primero de dicho supuestos es el de aleatoriedad, es decir, partimos de la premisa inicial de que nuestra muestra es aleatoria. Eso significa que deber´ıa haber sido seleccionada mediante un procedimiento equivalente a un sorteo de loter´ıa. A partir de dicha suposici´on elaboramos una serie de c´alculos de car´acter probabil´ıstico. En este manual utilizaremos el concepto de probabilidad desde un punto de vista intuitivo, remitiendo a la bibliograf´ıa1 al lector interesado en un estudio m´as riguroso de la Inferencia ´ Estad´ıstica. Esta es una licencia que podemos permitirnos sin demasiado reparo en el contexto de las Ciencias de la Salud puesto que, cuando hablamos de probabilidad, solemos referirnos habitualmente una proporci´on calculada respecto al total de una poblaci´on. Por ejemplo, la probabilidad de medir m´as de 1.70 se entiende como la proporci´on de individuos de la poblaci´on estudiada que mide m´as de 1.70. 4.1. Par´ ametros poblacionales y muestrales Todos los valores t´ıpicos estudiados en los cap´ıtulos 1, 2 y 3 a partir de una muestra de tama˜ no n pueden definirse te´oricamente a partir de todos los valores de la poblaci´on estudiada. Decimos te´oricamente porque en la pr´actica no podr´an ser calculados. As´ı por ejemplo, seg´ un 1 Ver, por ejemplo, un ap´endice o ampliaci´on de este mismo manual http://matematicas.unex.es/∼jmf/htm/material enfermeria medicina.html 67 en la p´agina web ´ A LA INFERENCIA ESTAD´ISTICA CAP´ITULO 4. INTRODUCCION 68 vimos en (1.1), x= k X xi pˆi (4.1) i=1 donde pˆi denota la proporci´on de datos de la muestra que presenta el valor xi . El hom´ologo poblacional µ se define entonces mediante X µ= xi pi (4.2) i donde pi denota la proporci´on de datos de la poblaci´on que presenta el valor pi , es decir, la probabilidad de xi . De la misma forma que redefinimos la media, podemos redefinir todos los dem´as valores t´ıpicos. Es costumbre denotar por letras griegas los par´ametros poblacionales para distinguirlos de sus hom´ologos muestrales o decriptivos, que se denotan por letras latinas. En otras ocasiones, los par´ametros poblacionales se expresan directamente con letras latinas y los muestrales con la misma letra y, encima, el signoˆ. Muestral Poblacional x µ 2 s σ2 r ρ Bj βj ˆ RR RR Las conclusiones definitivas del estudio dependen de lo que sepamos acerca de los par´ametros poblacionales. Por ejemplo, en el problema de relaci´on entre el peso y la longitud del f´emur en fetos (figura 2.8), que exista relaci´on equivale a que el coeficiente de correlaci´on lineal poblacional ρ no sea nulo; es directa si es positivo y m´as fuerte cuanto mayor sea ρ2 . La mejor ecuaci´on para predecir el peso a partir de las tres medidas del ec´ografo viene dada por los valores β0 , β1 , β2 y β3 de la ecuaci´on de regresi´on poblacional. Por otra parte, que la acidosis influya de alguna forma en el nivel de glucemia (ver figura 2.19) equivale a que las medias de glucemia para las cuatro categor´ıas poblacionales, µ1 , µ2 , µ3 y µ4 (sanos, acidosis respiratoria, metab´olica y mixta) no sean id´enticas. El sentido de la relaci´on vendr´a dado por el signo de las diferencias y el grado de relaci´on por la magnitud de las mismas. Queremos decir que, si pudi´eramos calcular los par´ametros poblacionales como calculamos los muestrales, el problema finalizar´ıa aqu´ı pues las conclusiones ser´ıan definitivas. La cuesti´on es que los par´ametros poblacionales no pueden obtenerse en la pr´actica, sino que tenemos que conformarnos con sus hom´ologos muestrales, es decir, estimarlos a partir de unas muestras de las cuales nos fiamos en parte. Ejercicio 82. ¿Por qu´e no podemos calcular en la pr´actica los par´ametros poblacionales? De poder hacerlo, indica c´omo probar´ıas que se da una relaci´on inversa entre la concentraci´on en sangre de calcio y hormona paratiroidea. ¿C´omo determinar´ıas una ecuaci´on para explicar una variable a partir de la otra? ¿Ser´ıan exactas las predicciones? 4.2. Muestreo Ya hemos comentado que es la supuesta aleatoriedad de la muestra la que nos permite emitir conclusiones en lenguaje probabil´ıstico, porque una muestra aleatoria representa a la poblaci´on de la que procede, tanto mejor cuanto mayor sea el tama˜ no n de la misma. Efectivamente, cualquiera de nosotros puede comprobar que, si lanza un dado sim´etrico un n´ umero n suficientemente grande de ocasiones, las proporciones de unos, doses, treses, cuatros, cincos y ´ 4.3. ESTIMACION 69 seises obtenidas se aproximan a 1/6. Es decir, que los resultados de n lanzamientos nos hablan de la propia estructura del dado. Este hecho se denomina en general Ley de azar, y constituye en la pr´actica el fundamento de la Inferencia Estad´ıstica. Ejercicio 83. Relacionar en estos t´erminos las ecuaciones (4.1) y (4.2) suponiendo que la muestra a partir de la cual se ha calculado x es aleatoria y grande, para as´ı entender la aproximaci´on de x a µ y, en general, de los valores t´ıpicos a sus respectivos hom´ologos poblaciones. En ocasiones, como en el problema de la acidosis en beb´es, se precisa elegir una muestra aleatoria para cada categor´ıa estudiada; ocurre lo mismo en los estudios de cohortes, donde se elige una muestra de expuestos y otra de no expuestos a un posible factor de riesgo, o en los de caso-control, donde se elige una muestra de enfermos y otra de sanos (el problema de acidosis es una variante de este tipo). En el caso del estudio del f´emur y el peso de los fetos, no deber´ıamos considerar ninguna estratificaci´on a la hora de seleccionar la muestra, sino efectuar un sorteo simple. Hay que advertir claramente que, en la pr´actica, la obtenci´on de la muestra mediante un sorteo en la poblaci´on es ut´opica2 ; que que debemos conformarnos con analizar la informaci´on de la que disponemos tras un dise˜ no de recogida de datos ideado para impedir sesgos o decisiones espurias a la hora de incluirlos en el estudio. Si es as´ı, la muestra puede considerarse, si no aleatoria, al menos arbitraria, lo cual puede ser suficiente, siempre y cuando no sobrevaloremos los resultados que obtengamos. Ello supone un primer error de partida que debemos estar dispuestos a arrastrar en el resto del estudio; el segundo gran error radica en los errores, a veces de bulto, que se suelen cometer en la medici´on de las variables, especialmente cuando ´estas son de tipo ordinal o cualitativo; a estos dos problemas principales se le sumar´an otros de menor envergadura, cosa que hemos de tener muy presente en nuestras conclusiones, que en ning´ un caso adquieren la categor´ıa de demostraciones matem´aticas, como era de esperar. Ejercicio 84. Analiza la veracidad o falsedad de la siguiente afirmaci´on: “Si una muestra es de gran tama˜no podemos garantizar su aleatoriedad”. 4.3. Estimaci´ on En este nuevo contexto, los valores t´ıpicos estudiados en la primera parte se entienden como estimaciones o aproximaciones de los correspondientes par´ametros poblacionales, que ser´an m´as certeros cuanto m´as grande sea la muestra. No obstante, suponiendo que la muestra sea aleatoria, estamos en condiciones de acotar el error con un cierto grado de confianza, es decir, de aportar un intervalo en el cual esperamos que se encuentre el valor desconocido del par´ametro poblacional. Estas cotas se basan en c´alculos probabil´ısticos m´as o menos b´asicos seg´ un el caso. Intervalo de confianza: por ejemplo, el intervalo al 95 % de confianza para la media poblacional µ de una variable num´erica a partir de una muestra de tama˜ no n con media x y desviaci´on t´ıpica s se construye as´ı: s x ± 1.96 √ n As´ı pues, el margen m´aximo de error de la estimaci´on x con una confianza del 95 % es √ Emax = 1.96 · s/ n 2 (4.3) Tanto es as´ı que incluso el concepto de poblaci´on no deja de ser un objeto abstracto pues, en la pr´ actica, no puede ser acotado con claridad. 70 ´ A LA INFERENCIA ESTAD´ISTICA CAP´ITULO 4. INTRODUCCION Ejemplo 9: intervalo de confianza para una media. Se pretende estimar la media µ de la estatura X de las mujeres de entre 16 y 50 a˜ nos pertenecientes a una amplia poblaci´on. Para ello se escogi´o una muestra supuestamente aleatoria de n = 40 mujeres, las cuales aportaron una media aritm´etica de 162.3 cm con una desviaci´on t´ıpica de 5.2 cm. As´ı pues ya tenemos una estimaci´on puntual de la media µ: la media aritm´etica x = 162.3. El margen m´aximo de error al 5 % de confianza 5.2 Em´ax = 1.96 · √ = 1.6 40 Por lo tanto, el intervalo de confianza al 95 % correspondiente es 162.3 ± 1.6. En definitiva, podemos afirmar con una confianza del 95 % que la media de altura de la poblaci´on se encuentra entre 160.7 cm y 163.9 cm. La expresi´on (4.3) merece cuatro comentarios aclaratorios: 1. Cuanto mayor sea la desviaci´on t´ıpica muestral s, es decir, cuanto m´as variabilidad se aprecie en la muestra, mayor ser´a el margen de error. Efectivamente, una gran dispersi´on observada en la variable a trav´es de la muestra se traduce a su vez en una variabilidad de la media aritm´etica muestral, en el sentido de que puede variar mucho de una muestra a otra y, por lo tanto, es poco fiable. 2. Cuanto mayor sea n menor es el margen de error. Efectivamente, es el tama˜ no de la muestra el que puede amortiguar la variabilidad debida a s. De hecho, a medida que el tama˜ no tiende a infinito, el margen de error tiende a 0. En la pr´actica, podemos aprovechar la expresi´on (4.3) para determinar de manera aproximada el tama˜ no de muestra necesario, en funci´on de un margen m´aximo de error establecido de antemano y con una confianza determinada (usualmente del 95 %), supuesta conocida una estimaci´on inicial de la desviaci´on t´ıpica mediante una peque˜ na muestra piloto. En general, conocer de antemano el tama˜ no de muestra preciso para afrontar con garant´ıas un estudio estad´ıstico es uno de las grandes deseos del investigador experimental. Sin embargo y a pesar de las creencias que se propagan desde muchos a´mbitos es muy dif´ıcil satisfacer dicho deseo porque requiere del conocimiento de ciertos par´ametros (en sentido amplio) m´as delicados y conflictivos que el propio tama˜ no de muestra. No obstante, f´ormulas hay, y muchas, como podemos comprobar, por ejemplo, en Mart´ınez-Gonz´alez et al. (2014), cap´ıtulo 7. Rogamos encarecidamente no hacer un mal uso de dichas f´ormulas, porque un abuso del lenguaje matem´atico no compensa necesariamente una falta de rigor cient´ıfico. 3. El valor 1.96 ha aparecido ya en otras ocasiones pero redondeado como 2, por ejemplo en la p´agina 21 y en el ejercicio 33. Se trata del valor que delimita dos colas con el 5 % de los datos m´as extremos en la distribuci´on N (0, 1): De esta forma obtenemos el 95 % de confianza deseado. En ocasiones se desea una confianza mayor, por ejemplo del 99 %. En ese caso, debemos reemplazar 1.96 por el valor que permite delimitar dos colas iguales con el 1 % del a´rea en la curva anterior. Se trata concretamente de 2.58. Se denotan respectivamente por z0.05 en el primer caso y z0.01 en el segundo. En general, zα es el valor que permite delimitar dos colas cuya suma de a´reas sea α. Los distintos valores (cuantiles) pueden obtenerse a partir de una tabla num´erica asociada a la distribuci´on N (0, 1). Existen otras tablas probabil´ısticas muy utilizadas en ´ 4.4. CONTRASTE DE HIPOTESIS 71 Figura 4.1: Distribuci´on N (0, 1) 95 % Extremos 2.5 % -1.96 Extremos 2.5 % 1.96 Inferencia Estad´ıstica y relacionadas con la N (0, 1) de la que haremos menci´on, como la t-Student, la χ2 y la F -Snedecor. Todas ellas llevan asociados unos par´ametros enteros denominados grados de libertad que las modulan. 4. Cuando hablamos de 95 % de confianza no estamos expresando de forma vaga un grado de certeza psicol´ogica sino que queremos decir lo siguiente: si aplic´aramos el procedimiento expresado en (4.3) a una gran cantidad de muestras de tama˜ no n, conducir´ıa a unos m´argenes de error que se respetar´ıan aproximadamente en el 95 % de los casos, es decir, que para un 5 % de las posibles muestras, las m´as extremas, la diferencia entre su media aritm´etica x y µ ser´ıa superior al Emax calculado. Esas muestras nos conducir´ıan pues a una concepto err´oneo de la media poblacional. En la pr´actica, s´olo dispondremos de una muestra y esperamos que no pertenezca a ese 5 % fat´ıdico de muestras extremas que conducen a un intervalo err´oneo. Si deseamos aumentar nuestra confianza, podemos construir el intervalo al 99 %, pero teniendo en cuenta que eso s´olo se consigue a costa de agrandarlo y perder por lo tanto precisi´on. Ejercicio 85. Estamos realmente en condiciones de determinar de manera aproximada un tama˜ no de muestra suficiente como para alcanzar el grado deseado de precisi´on en la estimaci´on. ¿C´omo? Supongamos ahora que estudiamos una variable cualitativa con dos categor´ıas, como por ejemplo el hecho de padecer o no cierta dolencia. Podemos estimar la proporci´on global de enfermos p mediante su proporci´on pˆ en la muestra estudiada. Para calcular un intervalo de confianza para dicha predicci´on basta con percatarse de que la proporci´on de enfermos equivale a la media de la variable num´erica que toma un valor 1 si el individuo est´a enfermo y 0 si est´a sano, y proceder entonces seg´ un (4.3). 4.4. Contraste de hip´ otesis Con mucha frecuencia en Inferencia Estad´ıstica estamos interesados en decidir, a partir de la muestra considerada, si un modelo te´orico inicial concreto es o no aceptable. Concretamente, el estudio de relaci´on entre variables a nivel poblacional puede entenderse como el contraste de un modelo inicial de independencia. Es decir, que se presupone la hip´otesis inicial de que entre las variables consideradas no existe relaci´on alguna, que se denota por H0 , y se contrasta si la muestra observada es compatible con dicha hip´otesis o, por el contrario, la contradice significativamente. Dicho de otra forma, debemos decidir si la correlaci´on lineal, la diferencia 72 ´ A LA INFERENCIA ESTAD´ISTICA CAP´ITULO 4. INTRODUCCION de medias aritm´eticas, etc. observada en la muestra es extrapolable a la poblaci´on de la que procede o, por el contrario, podr´ıa explicarse meramente por el azar inherente al muestreo, de manera que cabr´ıa incluso pensar que otra muestra del mismo tama˜ no aportara una correlaci´on o una diferencia de medias en sentido opuesto. Por otra parte y como podemos comprobar, tenemos mucho inter´es en expresar, si es posible, las diferentes hip´otesis estad´ısticas a contrastar mediante par´ametros poblacionales, como en los siguientes ejemplos que podemos encontrar en los cap´ıtulos 2 y 3. Relaci´on del peso del fetos con su longitud de f´emur: H0 : ρ = 0 equivalentemente H0 : β1 = 0 Relaci´on del peso del feto con la longitud de f´emur y circunferencias craneal y abdominal: H0 : β1 = β2 = β3 = 0 Relaci´on de la acidosis en reci´en nacidos con el nivel de glucemia: H0 : µ1 = µ2 = µ3 = µ4 Riesgo de no vacunarse de cara a padecer hepatitis: H0 : RR = 1 No podemos afirmar que todas las hip´otesis iniciales sean de este tipo pero s´ı al menos las m´as importantes. El criterio intuitivo que rige el procedimiento se denomina Principio de M´axima Verosimilitud, y podr´ıamos formularlo as´ı: En todo caso caso debemos optar por el modelo que haga m´as veros´ımil nuestra muestra. Es decir, si nuestra muestra es poco compatible con un modelo te´orico dado, debemos pensar que dicho modelo no explica correctamente la realidad. En definitiva, partiremos de un modelo (hip´otesis) inicial y evaluaremos lo compatible, lo posible, lo veros´ımil que resulta nuestra muestra seg´ un dicho modelo. El P -valor, que en rigor es una probabilidad y que, en consecuencia, se encuentra entre 0 y 1, expresa precisamente el grado de compatibilidad. Es decir, ...debe entenderse como la medida de la verosimilitud de la muestra seg´ un el modelo te´orico inicial. De esta forma, si P es grande significa que la muestra es compatible con H0 , luego no estaremos en condiciones de rechazarlo. Es lo que se denomina un resultado no significativo; por contra, si es peque˜ no, expresa una contradicci´on entre la muestra y la hip´otesis inicial, lo cual nos induce a rechazarla a favor de su contrario (H1 ) en virtud del Principio de M´axima Verosimilitud. Es lo que se denomina un resultado significativo. El P -valor no es sino el resultado final de un test de hip´otesis, que es la evaluaci´on cuantitativa a la que se someten los datos de la muestra. Falta por determinar qu´e entendemos por grande o peque˜ no o, dicho de otra forma, que entendemos por veros´ımil o raro. Como ya habremos comprobado, en Estad´ıstica se conviene, siguiendo una cierta tradici´on, que lo raro o extremo debe suponer a lo sumo un 5 % del total, de ah´ı que 0.05 sea el valor de referencia o nivel de significaci´on habitual. En definitiva: ´ 4.4. CONTRASTE DE HIPOTESIS 73 P > 0.05 : La informaci´on que aporta la muestra no contradice de manera significativa la hip´otesis inicial (resultado no significativo). P < 0.05 : La informaci´on que aporta la muestra s´ı contradice de manera significativa la hip´otesis inicial (resultado significativo). En ning´ un caso debe confundirse un test de hip´otesis con una demostraci´on matem´atica, pues el resultado del primero es s´olo una decisi´on razonable a partir de los datos y basada en unos c´alculos probabil´ısticos aproximados. De hecho, hay que tener muy presente que los tests de hip´otesis tienden a aportar resultados no significativos cuando se aplican a muestras de peque˜ no tama˜ no y significativos cuando se aplican a muestras muy numerosas. Ejercicio 86. ¿Por qu´e afirmamos que cuanto m´as grande es el tama˜ no de la muestra m´as facilidades tenemos para obtener resultados significativos? 4.4.1. El test de Student como ejemplo Veamos un ejemplo de c´omo funciona un test de hip´otesis. Hemos escogido el test posiblemente m´as utilizado en Bioestad´ıstica. Viene a dilucidar si existe una relaci´on significativa entre una variable cualitativa binaria (como por ejemplo estar sano o enfermo, ser tratado o no tratado) y una variable num´erica (glucemia, presi´on arterial, etc). Seg´ un se apunt´o en el cap´ıtulo 2, el problema de relaci´on entre ambas variables se traduce en un problema de comparaci´on de las medias poblacionales de la variable num´erica, µ1 y µ2 , correspondientes a cada una de las categor´ıas consideradas. Es decir, la hip´otesis inicial a contrastar es H0 : µ1 = µ2 Si seleccionamos de manera independiente sendas muestras aleatorias para cada categor´ıa, el algoritmo al que se someten los datos se denomina test de Student para muestras independientes. Ejemplo 9: dise˜ no de dos muestras independientes. Se estudia la posible relaci´on entre la edad de la primera menstruaci´on (menarquia) y la enfermedad celiaca. Para ello se toma una muestra de n1 = 79 mujeres sanas de y otra muestra de n2 = 78 celiacas de edad parecida. En cada caso se anot´o la edad en a˜ nos de la menarquia. Desde el punto de vista descriptivo, las sanas aportaron una media x1 = 12.74 y una desviaci´on t´ıpica s1 = 1.48, mientras que las celiacas aportaron una media x2 = 13.33 con una desviaci´on t´ıpica s2 = 1.90. En la figura 4.2 se establece una comparativa de ambas muestras a trav´es de los diagramas de caja. Podemos observar que, al menos por t´ermino medio (y mediano), las celiacas de la muestra presentan una menarquia ligeramente m´as tard´ıa que las sanas. Hemos de dilucidar si esa diferencia apreciada en esta muestra concreta es significativa o, por el contrario, puede explicarse exclusivamente por el azar del muestreo. En el primer caso podremos inferir que, en general, la celiaqu´ıa se asocia a una primera menstruaci´on m´as tard´ıa. Inicialmente, supondremos que ambas variables no guardan relaci´on (H0 : µ1 = µ2 ) y evaluaremos si la muestra estudiada contradice claramente dicha hip´otesis. Seg´ un el modelo inicial, las medias muestrales x1 y x2 deber´ıan ser parecidas, es decir, la diferencia x1 − x2 deber´ıa ser pr´oxima a 0. Obviamente, no podemos exigir que sea igual a 0 porque debemos asumir diferencias entre las muestras debidas exclusivamente al azar inherente al muestro. El problema es cuantificar qu´e estamos dispuestos a achacar al azar, lo cual es un problema de C´alculo de Probabilidades. Concretamente, seg´ un el modelo inicial, la diferencia 74 ´ A LA INFERENCIA ESTAD´ISTICA CAP´ITULO 4. INTRODUCCION Figura 4.2: Menarquia vs celiaqu´ıa 18,00 Edad menarquía 16,00 14,00 12,00 10,00 140 8,00 Sana Celiaca Celiaquía de medias muestrales deber´ıa seguir un modelo de distribuci´on normal de media 0, de manera que, al tipificarlo seg´ un (4.4), deber´ıa seguir una distribuci´on N (0, 1) como la de la figura 4.1. x1 − x2 texp = q 2 s1 s2 + n22 n1 (4.4) El n´ umero texp resultante3 , denominado valor experimental, recoge toda la informaci´on que aporta la muestra estudiada en lo referente al contraste de la hip´otesis H0 : µ1 = µ2 . Si ´esta es efectivamente cierta, cabr´ıa esperar un valor de texp en torno al 0, de acuerdo con un modelo de distribuci´on N (0, 1). Seg´ un dicho modelo, valores de texp extremos (a partir de ±1.96) son poco veros´ımiles. Es decir, seg´ un el Principio de M´axima Verosimilitud, valores bajos de |texp | nos conducen a aceptar la hip´otesis inicial mientras que valores altosPágina de1 |texp | nos conducen a rechazarla. El P -valor en este caso es el a´rea de las colas que determinan −|texp | y |texp |, como se indica en la figura 4.3, lo cual expresa en qu´e medida es veros´ımil la muestra seg´ un H0 . En nuestro ejemplo, texp = −2.18, correspondi´endole entonces un valor P = 0.031. Seg´ un hemos convenido, el resultado es significativo (se opta por la hip´otesis alternativa H1 : µ1 6= µ2 ), por lo que podemos concluir que la celiaqu´ıa se relaciona con la menarquia en el sentido indicado. De haber obtenido un valor texp pr´oximo a 0, que no ha sido el caso, el P -valor habr´ıa resultado mayor que 0.05, lo cual se habr´ıa interpretado como que la muestra estudiada habr´ıa resultado compatible con la hip´otesis inicial H0 , que habr´ıa sido entonces aceptada. Ello se habr´ıa traducido en una ausencia de pruebas claras para relacionar menarquia y la celiaqu´ıa. Los mismos c´alculos probabil´ısticos que nos llevan a considerar (4.4) conducen tambi´en al siguiente intervalo4 de confianza al 95 % para la diferencia entre µ1 y µ2 : s s21 s2 x1 − x2 ± z0.05 + 2 n1 n2 3 qEn el test de Student propiamente dicho se reemplaza el denominador anterior por la expresi´on −1 2 2 2 sc n−1 1 + n2 , donde sc = [(n1 − 1)s1 + (n2 − 1)s2 ]/(n1 + n2 − 2) 4 Al igual que en (4.4), se calcula en la pr´ actica a trav´es de sc . ´ 4.4. CONTRASTE DE HIPOTESIS 75 Figura 4.3: Distribuci´on de texp seg´ un H0 P/2 −|texp | P/2 |texp | En nuestro ejemplo, obtenemos que µ1 − µ2 debe encontrarse, con una confianza del 95 %, en el intervalo (−1.13, −0.05) lo cual indica que la media µ1 (menarquia para sanas) es en todo caso menor que µ2 (menarquia para celiacas), cosa que concuerda l´ogicamente con lo que ya sab´ıamos a trav´es del P -valor. Efectivamente, puede comprobarse analizando la expresi´on (4.4) que P < 0.05 equivale a que el 0 quede fuera del intervalo al 95 % de confianza para µ1 − µ2 . Pero el intervalo aporta algo que no expresa expl´ıcitamente el P -valor, pues cuantifica con un margen de error la diferencia entre las categor´ıas, por lo que viene a dar una magnitud de la influencia de la variable cualitativa sobre la num´erica. Esto es especialmente u ´til en el caso de muestras de gran tama˜ no, para las cuales los resultados suelen ser significativos. Por u ´ltimo, advertimos que en este problema hemos precisado del conocimiento de la distribuci´on N (0, 1). En otros tests que mencionaremos m´as adelante, se precisar´a del conocimiento de otras tablas te´oricas como las de la t-Student, χ2 o F -Snedecor, implementadas por supuesto en cualquier programa estad´ıstico. Ejercicio 87. Existe la teor´ıa de que el Bisfenol A, compuesto qu´ımico presente en muchos tipos de pl´astico y que nuestro organismo puede absorber, podr´ıa dar lugar a abortos tempranos en embriones masculinos, lo cual har´ıa disminuir la proporci´on de nacimientos varones. Para contrastar dicha teor´ıa, se efectu´o un seguimiento de 6 embarazadas que, por su trabajo, estaban muy expuestas al Bisfenol A, resultando que todas ellas tuvieron finalmente ni˜ nas. ¿Corrobora eso la teor´ıa? Responde directamente a trav´es de un P -valor. 4.4.2. Tests param´ etricos vs tests no param´ etricos En la mayor´ıa de las ocasiones estamos interesados en contrastar hip´otesis iniciales expresadas en t´erminos de par´ametros poblacionales, como la media o el coeficiente de correlaci´on. Este punto de vista est´a claramente vinculado a la distribuci´on normal. Efectivamente, sabemos de la importancia que en general posee el par´ametro media, y que ´este debe complementarse con alguna medida de dispersi´on para poder caracterizar la distribuci´on de los datos. La desviaci´on t´ıpica desempe˜ na ese papel, al menos en el caso de la distribuci´on normal. Tambi´en sabemos que el estudio de correlaci´on lineal est´a vinculado a la normalidad de las variables consideradas. Por lo tanto, cabe preguntarse, primeramente, qu´e utilidad tiene el estudio de estos par´ametros cuando no podemos suponer la normalidad de las distribuciones consideradas (por ejemplo cuando se da un fuerte sesgo). 76 ´ A LA INFERENCIA ESTAD´ISTICA CAP´ITULO 4. INTRODUCCION Pero lo m´as conflictivo es que, en la mayor´ıa de los test que propondremos en el siguiente cap´ıtulo, como el propio test de Student, se supone, adem´as de la aleatoriedad de la muestra o muestras consideradas, la normalidad de las variables num´ericas estudiadas, e incluso hip´otesis adicionales. Esta problem´atica conduce a la fragmentaci´on de la Inferencia Estad´ıstica en dos ramas. En la primera, la distribuci´on normal desempe˜ na un papel central, por lo que las inferencias se orientan a conocer lo posible acerca de los par´ametros asociados a dicha distribuci´on. Esta rama se denomina por lo tanto Estad´ıstica Param´etrica. La otra corriente construye los distintos m´etodos partiendo de d´ebiles supuestos sobre la distribuci´on de las variables y no se busca por lo tanto el conocimiento de los par´ametros que las caracterizan, de ah´ı que se denomine Estad´ıstica no Param´etrica. Podemos decir que los m´etodos no param´etricos cl´asicos se basan fundamentalmente en el orden de los datos, es decir, que de cada observaci´on de la muestra importar´a s´olo el rango o posici´on que ocupa respecto a los dem´as datos de la misma. Son por lo tanto m´etodos robustos ante la presencia de valores extremos (como sucede con el c´alculo de la mediana o el coeficiente de correlaci´on de Spearman) pero, por contra, cuando se verifican las condiciones de validez requeridas por los m´etodos param´etricos, los no param´etricos son menos potentes, es decir, poseen menor capacidad de detectar la violaci´on de la hip´otesis inicial a partir de los datos. Adem´as, la interpretaci´on directa de par´ametros como la media o el coeficiente de correlaci´on resulta bastante intuitiva, de ah´ı el inter´es m´as o menos general en aplicar m´etodos param´etricos. En todo caso y en virtud del Teorema Central del L´ımite, mencionado en la secci´on 1.2, un tama˜ no de muestra suficientemente grande otorga validez aproximada a los tests param´etricos para contrastar la igualdad de medias, en el sentido de que el P -valor calculado por el test es aproximadamente correcto. No queremos decir con ello que al aumentar el tama˜ no de muestra desaparezca un posible sesgo en la distribuci´on, por supuesto. De ah´ı que un tama˜ no de muestra grande no convierta en lineal una relaci´on que en principio no lo es. Por lo tanto, lo dicho anteriormente no puede aplicarse al problema de correlaci´on-regresi´on. En definitiva, en el cap´ıtulo siguiente nos centraremos en los principales m´etodos param´etricos, aunque indicaremos escuetamente en cada caso el procedimiento no param´etrico que podr´ıa reemplazar al m´etodo param´etrico propuesto en el caso de que ´este sea inviable. El esquema simplificado a seguir es el siguiente: La cota n = 30 que aparece en el esquema anterior no posee, ni mucho menos, car´acter universal. Realmente, deber´ıamos decir que, cuanto mayor es el sesgo de la variable considerada, mayor es el tama˜ no de muestra necesario para que el valor experimental del test siga la distribuci´on de referencia. El tama˜ no n = 30 deber´ıa servir para compensar la mayor´ıa de los sesgos, aunque en muchas ocasiones es suficiente una cantidad de datos mucho menor y, en otras muy extremas, no basta ni con n = 60. La cota n = 3000 se ha introducido de manera casi arbitraria para indicar una cantidad de datos muy grande. 4.4.3. Pruebas de normalidad Asumir el supuesto de normalidad significa aceptar que la distribuci´on de frecuencias relativas de los datos de la poblaci´on se adaptan aproximadamente a una curva normal. Esta situaci´on ocurre con bastante frecuencia en las Ciencias de la Salud, lo cual no quiere decir que se deba dar por descontado. Precisamente, existen diversos m´etodos, como el de Kolmogorov-Smirnov, el de ShapiroWilk, el χ2 o el de D’Agostino, para contrastar la hip´otesis inicial de que cierta variable sigue un modelo de distribuci´on normal a partir de una muestra aleatoria de tama˜ no n. La mayor´ıa ´ 4.4. CONTRASTE DE HIPOTESIS 77 Figura 4.4: Comparaci´on de medias y tama˜ no de muestra DESCRIPTIVA Tamaño de muestra n=3000 INFERENCIA PARAMÉTRICA Y NO PARAMÉTRICA n=30 INFERENCIA PARAMÉTRICA O NO PARAMÉTRICA DEPENDIENDO DE NORMALIDAD INFERENCIA NO PARAMÉTRICA O DESCRIPTIVA n =10 de ellos est´a vinculados a aspectos gr´aficos. Tambi´en existe un m´etodo basado directamente en los coeficientes de simetr´ıa y aplastamiento. Se trata en definitiva de contrastar la hip´otesis inicial de normalidad de la variable num´erica X estudiada H0 : X ∼ Normal De esta forma, se rechazar´a la normalidad cuando los datos observados la contradigan claramente. En este cap´ıtulo hemos afirmado que en la mayor´ıa de los contrastes se pretende probar si existe correlaci´on entre variables, suponiendo como hip´otesis inicial que ´esta es nula. El contraste de normalidad puede considerarse una excepci´on en ese sentido, pues s´olo entra en juego una variable num´erica. N´otese adem´as que la normalidad de la variable es la hip´otesis inicial. En consecuencia, una muestra peque˜ na y, por lo tanto, con escasa informaci´on, dif´ıcilmente podr´a conducir a rechazar la hip´otesis de normalidad. Por contra, si la muestra es muy grande, los resultados ser´an significativos ante la menor violaci´on del supuesto de Normalidad (ejercicio 86). Por ello, debemos ser muy precavidos a la hora de interpretar los resultados si nos decidimos a aplicar un test de este tipo. Ejercicio 88. Si aplicamos el test de normalidad de Shappiro-Wilk a los 30 datos de colesterolemia representados en la figura 1.6, obtenemos como resultado P = 0.973. Interpr´etalo en t´erminos pr´acticos. 78 ´ A LA INFERENCIA ESTAD´ISTICA CAP´ITULO 4. INTRODUCCION Cap´ıtulo 5 M´ etodos de Inferencia Estad´ıstica En este cap´ıtulo exponemos de manera muy esquem´atica las t´ecnicas de Inferencia Estad´ıstica m´as utilizadas en los problemas de relaci´on entre variables. Se trata pues de una continuaci´on natural de los cap´ıtulos 2 y 3. Para cada problema estudiado indicaremos la alternativa no param´etrica al test param´etrico propuesto. Al final del cap´ıtulo expondremos una tabla resumen. Este manual est´a ideado como gu´ıa para que un usuario de la Estad´ıstica sepa aplicar mediante el software adecuado las t´ecnicas b´asicas, de ah´ı que los detalles te´oricos queden relegados a la bibliograf´ıa recomendada. En definitiva, se pretende que, dado un problema concreto, el lector sea capaz de identificar el procedimiento estad´ıstico a seguir e interpretar los resultados que se obtienen tras la aplicaci´on del programa estad´ıstico. 5.1. El problema de correlaci´ on-regresi´ on Esta secci´on supone una continuaci´on de las secciones 2.3 y 2.4. El problema estriba en explicar una variable num´erica a partir de otra u otras variables, a su vez num´ericas, mediante una ecuaci´on de regresi´on adecuada y utilizando la informaci´on de una muestra supuestamente aleatoria de tama˜ no n. 5.1.1. Test de correlaci´ on Empecemos por el caso m´as sencillo, consistente en estudiar la posible relaci´on entre dos variables num´ericas, como en el caso de la predicci´on del peso del feto a partir de la longitud del f´emur, que se ilustra en la figura 2.8. La muestra de tama˜ no n = 40 aport´o un coeficiente de 2 correlaci´on lineal muestral r = 0.802 (r = 0.643), es decir: en la muestra se aprecia un fuerte grado de correlaci´on directa. La cuesti´on es si podemos extrapolarla al global de poblaci´on para concluir que un f´emur largo se asocia a un peso elevado. La respuesta parece obvia en este caso con s´olo ver el gr´afico, pero en otros casos no ocurrir´a lo mismo. En definitiva, estamos contrastando la hip´otesis inicial de independencia entre peso y longitud de f´emur, que puede expresarse a trav´es del coeficiente de corrrelaci´on lineal poblacional ρ mediante H0 : ρ = 0 frente a la hip´otesis alternativa H1 : ρ 6= 0, que se corresponde con alg´ un grado de relaci´on lineal entre ambas. Por lo tanto, se trata de valorar si la muestra observada contradice significativamente la hip´otesis inicial de independencia. De manera an´aloga a (4.4), la informaci´on que aporta la muestra queda resumida en el n´ umero r r2 (5.1) texp = (n − 2) 1 − r2 79 80 ´ CAP´ITULO 5. METODOS DE INFERENCIA ESTAD´ISTICA que se confrontar´a con la tabla de la distribuci´on t-Student(n − 2) para obtener el P -valor correspondiente. T´engase en cuenta que, a partir de m = 30, la tabla de la t-Student(m) es pr´acticamente id´entica a la de la N (0, 1). En nuestro caso obtenemos texp = 8.27, al que le corresponde un valor P < 0.001. Se dice entonces que la correlaci´on observada es altamente significativa. Por contra, un resultado no significativo en el test de correlaci´on significa que la posible relaci´on observada en la muestra puede ser explicada exclusivamente por el azar, que no es el caso. Cuando tenemos dudas acerca de la linealidad de la relaci´on o advertimos la presencia de datos an´omalos, podemos optar por la alternativa no param´etrica de Spearman, que consiste en calcular el coeficiente de correlaci´on entre los rangos y aplicarle un test espec´ıfico. En este ejemplo aporta el mismo resultado. Ejercicio 89. Tras aplicar el test de correlaci´on a los datos correspondientes al ejercicio 55 se obtiene P < 0.001. Interpreta el resultado en t´erminos pr´acticos. Ejercicio 90. Tras aplicar el test de correlaci´on a los datos correspondientes a la figura 2.11 se obtiene P < 0.731. Interpreta el resultado en t´erminos pr´acticos. 5.1.2. Regresi´ on m´ ultiple Si nuestro objetivo es predecir una variable como el peso del feto de la mejor manera posible ´ debemos intentar explicarla a partir de varias variables que correlacionen con ella. Estas ser´an incluidas en una ecuaci´on de regresi´on. Por ejemplo, en el caso del peso, podemos incluir, adem´as de la longitud del f´emur, las circunferencias del abdomen y cabeza, dado que son variables que tambi´en correlacionan con el peso (como puede comprobarse aplicando sendos tests de correlaci´on) y porque entendemos que pueden explicar partes de la variabilidad del peso no explicada por el f´emur, lo cual da lugar a R2 = 0.915. La primera pregunta, cuya respuesta es con mayor raz´on que en el apartado anterior obvia, es si esta correlaci´on es significativa. Eso se responde mediante el test de correlaci´on m´ ultiple que es una generalizaci´on del anterior y cuyo resultado depende en este caso del valor Fexp = n − 4 R2 3 1 − R2 que se confrontar´a con la tabla F -Snedecor. El valor 3 aparece en este caso porque son 3 las variables explicativas. El resultado es altamente significativo (P < 0.001), lo cual quiere decir simplemente que est´a claro que entre las tres variables logramos explicar algo del peso. Lo que realmente nos interesa es la ecuaci´on (2.1) que permite explicarlo. Pero los coeficientes B0 , B1 , B2 y B3 de la ecuaci´on son propios de la muestra estudiada y debemos pues interpretarlos como meras estimaciones de coeficientes β0 , β1 , β2 y β3 poblacionales. No obstante, estamos en condiciones de calcular intervalos de confianza para los mismos. Adem´as, podemos aplicar los denominados tests parciales, que permiten contrastar hip´otesis iniciales del tipo H0 : β3 = 0. Se trata pues de evaluar la importancia de cada variable explicativa en la predicci´on. En el cuadro 5.1 se presentan los coeficientes estimados y los resultados de los diferentes test parciales, seg´ un los cuales las tres variables intervienen significativamente en la explicaci´on del peso. Un resultado no significativo para alguna de las variables significar´ıa que dicha variable no explicar´ıa claramente nada al margen de lo que explicaran de por s´ı el resto de variables. Por eso, estos resultados deben ser interpretados con precauci´on cuando las variables explicativas est´an fuertemente correlacionadas entre s´ı, pues ello da lugar a un fen´omeno de solapamiento denominado multicolinealidad. M´as concretamente, si tenemos la intenci´on de eliminar variables explicativas que no sean esenciales debemos excluirlas de una en una. Es lo que se denomina un proceso de selecci´on hacia atr´as. ´ ENTRE DOS VARIABLES CUALITATIVAS 5.2. RELACION 81 Cuadro 5.1: Ecuaci´on de regresi´on ec´ografo Coeficientes (Constante) B Sig. -149,006 LF 12,635 ,000 CC 9,798 ,000 CA -9,433 ,000 Como ya comentamos en el cap´ıtulo 2, la ecuaci´on(2.1) tiene como objeto pronosticar el peso del feto a partir de las tres medidas proporcionadas por el ec´ografo. Por desgracia, no estamos en condiciones, ni mucho menos, de garantizar su exactitud aunque, en su defecto, podemos construir un intervalo de confianza al 95 % para cada predicci´on obtenida. En todo caso, la precisi´on de la estimaci´on depender´a de tres factores: el valor de R2 obtenido, el tama˜ no de muestra n y la posici´on respecto a la muestra estudiada del individuo sobre el que se efect´ ua la predicci´on. Ejercicio 91. ¿En qu´e sentido crees que influye en la precisi´on de la estimaci´on cada uno de los factores anteriores? Ejercicio 92. Mediante un programa estad´ıstico construye un intervalo de confianza para la predicci´on efectuada en el ejercicio 43. 5.2. Relaci´ on entre dos variables cualitativas Esta secci´on supone una continuaci´on del cap´ıtulo 3. Nuestro problema es determinar si una muestra dada supone una prueba significativa de la relaci´on entre dos variables cualitativas. En esencia se trata de aplicar un test de correlaci´on similar a (5.1) pero reemplazando r por una medida de asociaci´on a nivel cualitativo: C. De esta forma, el denominado test χ2 se obtiene confrontando el valor C2 (5.2) χ2exp = n 1 − C2 con la tabla de la distribuci´on χ2 (m), siendo m = (r − 1)(s − 1), donde r denota el n´ umero de filas y s el de columnas. Si nuestra tabla es del tipo 2 × 2, podemos calcular χ2exp a partir de φ como φ2 /n. La distribuci´on χ2 guarda una estrecha relaci´on con las distribuciones N (0, 1), t-Student y F -Snedecor. Podemos afirmar que, si trabaj´aramos siempre con muestras suficientemente grandes, s´olo se precisar´ıa del conocimiento de las tablas de la distribuci´on χ2 para resolver la mayor´ıa de los problemas de Inferencia Estad´ıstica. En el ejemplo 6 relacion´abamos la salud de los ´arboles, distinguiendo tres categor´ıas seg´ un su nivel de cloroplastos, con la contaminaci´on, distinguiendo a su vez tres categor´ıas en funci´on de la concentraci´on de SO2 . En total cont´abamos con n = 60 a´rboles en el estudio que aportaron un valor C = 0.444. En consecuencia, obtenemos χ2exp = 14.74 que se corresponde, seg´ un la 2 tabla χ (4), con P = 0, 005. Se trata pues de un resultado muy significativo. Por lo tanto, podemos concluir que, tal y como se aprecia en la muestra, las concentraciones elevadas de SO2 se asocian a una peor salud de los a´rboles. El test de χ2 precisa de una serie de condiciones de validez que, a grandes rasgos, se resumen en lo siguiente: debemos contar con una cantidad suficiente de datos, especialmente ´ CAP´ITULO 5. METODOS DE INFERENCIA ESTAD´ISTICA 82 Figura 5.1: Distribuci´on χ2 (3) 0.00 0.05 0.10 0.15 0.20 0.25 0.30 Densidad Chi−cuadrado(3) 0 5 10 15 20 25 30 si pretendemos distinguir muchas categor´ıas en las variables estudiadas. En caso contrario debemos agrupar categor´ıas hasta llegar, si es preciso, a una tabla tipo 2 × 2. Si aun as´ı el n´ umero de datos es demasiado peque˜ no, debemos aplicar la alternativa no param´etrica conocida como test exacto de Fisher. Como casos especiales de tablas tipo 2×2 tenemos los estudios epidemiol´ogicos de factores de riesgo, que dan pie a las medidas conocidas como Riesgo Relativo y Odds Ratio. Ahora estamos en condiciones de entender tambi´en estos par´ametros en t´erminos poblacionales, en cuyo caso se denotan por RR y OR, respectivamente. Que un determinado factor comporte riesgo para una enfermedad concreta se traduce entonces en RR > 1 o OR > 1, seg´ un la medida de riesgo considerada. Esto nos conduce a contrastar las hip´otesis iniciales H0 : RR = 1 o H0 : OR = 1. La primera, propia de un estudio de cohortes, se contrasta confrontando con la tabla χ2 (1) el valor experimental ˆ 2 (log RR) 2 , χexp = s2logRR ˆ donde s2logRR ˆ = c d + a(a + c) b(b + d) En el caso del ejemplo 7, donde el posible riesgo es la no vacunaci´on contra la hepatitis, obtenemos s2logRR χ2exp = 34.97, P < 0.001 ˆ = 0.101, La hip´otesis inicial H0 : OR = 1 se contrastar´ıa en un estudio tipo caso-control (o tambi´en de cohortes) confrontando con la tabla χ2 (1) el valor experimental χ2exp = ˆ 2 (log OR) , s2logOR ˆ siendo s2logOR ˆ = 1 1 1 1 + + + a b c d En nuestro caso, s2logRR ˆ = 0.109, χ2exp = 35.24, P < 0.001 Queda pues claro que el hecho de no vacunarse contra la hepatitis implica un incremento en el riesgo de padecerla. Ejercicio 93. A partir de los datos del ejercicio 74, contrasta si existe relaci´on entre la exposici´on al agente radioactivo y el tumor de tiroides. ´ DE MEDIAS 5.3. COMPARACION 5.3. 83 Comparaci´ on de medias En la secci´on 2.5 adelantamos que el estudio de la relaci´on entre una variable cualitativa y otra num´erica puede traducirse en una comparaci´on entre las medias (par´ametros de centralizaci´on en general) que dicha variable num´erica posee en cada categor´ıa de la variable cualitativa. Ahora estamos en condiciones de abordar este estudio desde el punto de vista inferencial, lo cual dar´a pie a las t´ecnicas m´as populares de la Bioestad´ıstica. Distinguiremos tres apartados dependiendo del dise˜ no considerado en la selecci´on de muestras y del n´ umero de categor´ıas que consideremos. 5.3.1. Test de Student(1) para muestras relacionadas Es el test apropiado para el dise˜ no de muestras relacionadas o apareadas, que tiene como prop´osito controlar la variabilidad debida al individuo. Consiste en seleccionar una muestra aleatoria de n individuos a los que se les mide una variable num´erica antes de iniciar un tratamiento para volver a med´ırsela despu´es. En tal caso, no estaremos hablando de una variable sino de dos variables distintas (X1 =antes, X2 =despues) sobre una u ´nica poblaci´on, sin distinguir categor´ıas1 . Si el tratamiento es efectivo debe producirse una evoluci´on, es decir, un cambio entre los valores de X1 y X2 . No estamos en condiciones de exigir que ese cambio se d´e en el mismo sentido para todos los individuos, pero s´ı al menos que se d´e por t´ermino medio, de ah´ı que el problema se traduzca finalmente en una comparaci´on entre las respectivas medias µ1 y µ2 . Ejemplo 10: dise˜ no de dos muestras apareadas. Se pretende probar los beneficios de la crioterapia en el tratamiento de la artrosis de rodillas en mujeres mayores. Para ello se seleccion´o una muestra de n = 30 pacientes a las que se eval´ uo su nivel de dolor mediante la escala EVA (0=ausencia dolor; 10=dolor m´aximo) antes de iniciar el tratamiento y tras 5 semanas de tratamiento. En resumen, obtenemos que la media muestral del dolor antes de iniciar el tratamiento es x = 5.37, con una desviaci´on t´ıpica s1 = 0.97; el dolor medio muestral tras finalizar el tratamiento es x2 = 5.59, con una desviaci´on t´ıpica s2 = 0.99. Podemos pues apreciar que, por t´ermino medio, en la muestra se ha producido un peque˜ no incremento del dolor. En consecuencia, esta muestra no supondr´a en ning´ un caso una prueba significativa de la eficacia de la crioterapia para esta dolencia. M´as bien deber´ıamos preguntarnos si el tratamiento es contraproducente (o al menos incapaz de frenar un empeoramiento espont´aneo), como en principio podr´ıa deducirse de la muestra. En todo caso, la hip´otesis a contrastar es H0 : µ1 = µ2 El test de Student para muestra relacionadas es especialmente sencillo, pues consiste en calcular la diferencia entre ambas variables, D = X1 − X2 , cuya media media es µD = µ1 − µ2 , y contrastar la hip´otesis inicial H0 : µD = 0 Para ello, considera la media aritm´etica D y desviaci´on t´ıpica sD de la diferencia (D puede calcularse directamente como x1 − x2 pero sD no) y confronta el valor texp = 1 D √ sD / n Por lo tanto, en buena l´ ogica, este apartado deber´ıa haber sido incluido en la secci´on 5.1. Nos hemos permitido la licencia de ubicarlo aqu´ı por razones did´acticas. ´ CAP´ITULO 5. METODOS DE INFERENCIA ESTAD´ISTICA 84 con la tabla t-Student(n − 1), similar a la N (0, 1). Cuadro 5.2: Test de Student muestras relacionadas EVA Media dif Desv tip dif Lim inf 95% Lim sup 95% texp P -,214 1,11 -,63 ,201 -1,054 0.301 Es decir, en la muestra se ha observado un empeoramiento de 0.214 puntos en la escala EVA por t´ermino medio. Sin embargo, no ha resultado significativo (P > 0.05), por lo que no podemos generalizarlo. Tambi´en aparece el intervalo de confianza al 95 % para la diferencia de medias µ1 − µ2 , (−0.63, 0.20), que se interpreta as´ı: el empeoramiento medio podr´ıa ser de 0.63 puntos como m´aximo, pero tampoco podr´ıamos descartar una mejor´ıa de 0.20 puntos como m´aximo. Es decir, no tenemos claro si se puede mejorar o empeorar, en eso consiste aceptar H0 . El test de Student para muestras relacionadas se idea suponiendo que se verifica un requisito concreto: que la variable diferencia se distribuye seg´ un un modelo normal. Esto puede contrastarse mediante un test de normalidad aunque, como ya hemos comentado enel cap´ıtulo anterior, el si la muestra es lo suficientemente grande. En todo caso, contamos con una alternativa no param´etrica denominada test de Wilcoxon, especialmente adecuada cuando la muestra es de escaso tama˜ no. En nuestro caso aporta como resultado P = 0.417, por lo que la conclusi´on que se desprende del test de Wilcoxon es la misma que se desprende del de Student(1). 5.3.2. Test de Student(2) para muestras independientes El test de Student para muestras independientes ha sido introducido en la secci´on 4.4 a ra´ız del ejemplo 9, en el que se comparaban las edades medias de la menarquia de dos categor´ıas de mujeres: celiacas y no celiacas. Para ello se procedi´o a seleccionar, de manera independiente, sendas muestras de tama˜ nos n1 y n2 que fueron sometidas al test de Student(2), consistente en confrontar con la tabla t-Student(n1 + n2 − 2), similar a la N (0, 1), el valor experimental texp = x − x2 q1 sc n11 + n12 El resultado fue P < 0.001. Adem´as, se concluy´o que la diferencia entre medias poblacionales deb´ıa encontrarse, con una confianza del 95 %, en el intervalo (−1.13, −0.05). La salida completa del programa estad´ıstico SPSS es la siguiente: Podemos apreciar que la comparaci´on de medias se efect´ ua con dos tests diferentes: el de Student, que corresponde a la l´ınea superior y el test de Welch, que corresponde a la inferior. Esto es as´ı porque el test de Student(2) requiere en principio que las distribuciones de la variable num´erica en las categor´ıas consideradas sean de tipo normal y con id´enticas varianzas. La normalidad deber´ıa contrastarse mediante un test adecuado, de manera que si no podemos aceptarla en alguna de las categor´ıas deber´ıamos optar por la alternativa no param´etrica de Mann-Whitney, que consiste b´asicamente en una comparaci´on de los rangos promedios (en este caso aporta el resultado P < 0.001). Si aceptamos la normalidad en ambas categor´ıas deber´ıamos, te´oricamente, contrastar la hip´otesis inicial de igualdad de varianzas H0 : σ12 = σ22 mediante test de Levene, que aparece a la izquierda (cuyo resultado es significativo en este caso). Si podemos aceptar dicha hip´otesis, el test m´as adecuado es el de Student y, en caso contrario, el de Welch. Media dif Desv tip dif Lim inf 95% ´ DE1,11MEDIAS -,214 -,63 5.3. COMPARACI ON Lim sup 95% texp P ,201 -1,054 0.301 85 Cuadro 5.3: Test de Student muestras independientes Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas Prueba T para la igualdad de medias 95% Intervalo de confianza para la F Se han asumido varianzas 5,445 Sig. ,021 t gl Sig. Diferencia (bilateral) de medias diferencia Inferior Superior -5,855 155 ,000 -1,5928 -2,1302 -1,0554 -5,846 145,238 ,000 -1,5928 -2,1314 -1,0543 iguales No se han asumido varianzas iguales No obstante, el usuario de la Estad´ıstica no debe permitir que el ´arbol le impida ver el bosque. Primeramente, si las muestras son de tama˜ nos suficientes y similares, el resultado del test de Student puede considerarse v´alido. Segundo, es habitual comprobar que los tres tests posibles (Student, Welch, Mann-Whitney) aportan los mismos resultados, aunque no tiene por qu´e. Parece necesario proponer un esquema m´as sencillo a la hora de resolver el problema que no pase por la aplicaci´on previa de dos tests de hip´otesis de car´acter secundario. En la figura 5.2 proponemos un procedimiento simplificado que resume ´este apartado y el anterior: Figura 5.2: Procedimiento comparaci´on dos medias Normalidad o muestras grandes Student (2) No normalidad y muestras pequeñas Mann-Whitney Muestras independientes Normalidad de la diferencia o muestra grande Stundet (1) No normalidad de la diferencia y muestra pequeña Wilcoxon Muestras apareadas Ejercicio 94. ¿Qu´e ventaja puede reportar aplicar el test de StudentNo en lugar del de MannNo significativo relación Normalidad o Whitney? Anova muestras grandes 5.3.3. Significativo Tuckey Anova de una v´ıa Este test es una generalizaci´on del de Student que se aplica para un mismo tipo de estudio y de dise˜ no con la salvedad de que podemos distinguir unNon´ umero de categor´ ıas y, por lo tanto, significativo No relación No normalidad y Kruskal-Wallis de medias, mayor de dos. Ser´ ıa pues apropiado para los datos del problema 8, en el que se trata muestras pequeñas de contrastar si las medias de glucemia son id´enticas en las cuatro categor´ Significativo Relación ıas consideradas (control, respiratoria, metab´olica y mixta): H0 : µ1 = µ2 = µ3 = µ4 ´ CAP´ITULO 5. METODOS DE INFERENCIA ESTAD´ISTICA 86 El test que resuelve el contraste se denomina anova de una v´ıa y requiere en principio de las mismas condiciones que el test de Student para dos muestras independientes. Podemos efectuar, no obstante, las mismas consideraciones acerca de los tama˜ nos muestrales y tambi´en contamos con alternativas como la de Brown-Forsyte y, especialmente, el test no param´etrico de Kruskall-Wallis, que a su vez generaliza el de Mann-Whitney. Normalidad o Student (2) muestras grandes Ejercicio 95. ¿Qu´e suceder´a si aplicamos el anova de una v´ıa a un problema con dos medias? Muestras En el caso del independientes ejemplo 8 el resultado es P < 0.001. Quiere decir que las diferencias apreciadas a nivel muestral son realmente significativas, on entre la acidosis No normalidad ypor lo que existe relaci´ Mann-Whitney muestras pequeñas y la glucemia. Para determinar de la manera m´as precisa en qu´e sentido se da dicha relaci´on debemos proceder a comparar las medias por parejas de manera simult´anea: se trata del denominado problema de comparaciones m´ultiples. Para ello tenemos a nuestra disposici´on diversos procedimientos aunque, para simplificar, Normalidad podemos el m´eStundet todo(1)de Tukey, que es ideal de laoptar diferenciapor o muestra grande en el caso de que las muestras de las diferentes categor´ıas sean de id´entico tama˜ no. Si hemos optado por aplicarMuestras el test de Kruskall-Wallis, podemos utilizar las comparaciones m´ ultiples de apareadas Dunnet. Todo ello lo resumimos en la figura 5.3. No normalidad de la diferencia y muestra pequeña Wilcoxon Figura 5.3: Procedimiento comparaci´on m´as de dos medias Normalidad o muestras grandes No significativo No relación Significativo Tuckey Anova No normalidad y muestras pequeñas No significativo No relación Significativo Relación Kruskal-Wallis Los resultados de las comparaciones m´ ultiples para los datos del ejemplo 8 aparecen en el cuadro 5.4. Podemos apreciar que, tal y como se intu´ıa en la figura 2.19, la acidosis mixta no se asocia a un cambio significativo de la glucemia mientras que la respiratoria y en especial la metab´olica la aumentan significativamente. Cuadro 5.4: Comparaciones m´ ultiples acidosis Nivel de glucemia en el cordón umbilical a HSD de Tukey Subconjunto para alfa = 0.05 Tipo de acidosis N 1 Acidosis Mixta 50 62,61069 Control 50 62,67940 Acidosis Respiratoria 50 Acidosis Metabólica 50 Sig. 2 3 71,38224 78,80371 1,000 1,000 Se muestran las medias para los grupos en los subconjuntos homogéneos. a. Usa el tamaño muestral de la media armónica = 50,000. 1,000 ´ ´ AVANZADAS 5.4. OTRAS TECNICAS MAS 5.4. Cualitativa-cualitativa 87 Tabla de contingencia, C, Chi2 Otras t´ ecnicas m´ as avanzadas En el cuadro 5.5 presentamos un esquema simplificado de los m´etodos estudiados hasta el momento en el cap´ıtulo. Por su parte, en la figura 5.4 Factores podemos ver una s´ıntesis global riesgo RR, ORde la materia tratada hasta ahora. En esta u ´ltima secci´on introduciremos brevemente otras cuatro t´ecnicas m´as avanzadas que se utilizan a menudo en el contexto biom´edico, tres de las cuales pueden considerarse generalizaciones o variantes del an´alisis de la varianza de una v´ıa y la regresi´on lineal. Consideremos un ejemplo que ya ha sido tratado en el cap´ıtulo 2. Cuadro 5.5: Resumen m´etodos b´asicos Inferencia Problema Dos medias independientes Dos medias apareadas Más de dos medias independientes Correlación lineal numéricas Correlación cualitativas Método paramétrico Student (2) Student (1) Anova Correlación Pearson Test chi-cuadrado Método no paramétrico Mann-Whitney Wilcoxon Kruskal-Wallis Correlación Spearman Test Exacto de Fisher Figura 5.4: Resumen general Más de dos Numérica-cualitativa Comparación medias Dos Relación variables Numérica-numérica Cualitativa-cualitativa Anova-Tuckey Student Regresión-correlación, r2 Tabla de contingencia, C, Chi2 Factores riesgo RR, OR Ejemplo 11: ancova, anova de dos v´ıas y regresi´ on log´ıstica. Problema Método paramétrico Método no paramétrico En un estudio realizado a 97 pacientes con un tumor de pr´ostata Dos medias independientes Student (2) Mann-Whitney se registr´ o enapareadas cada caso el logaritmo del volumen Dos medias Student (1) Wilcoxon del tumor y del Más de dos medias independientes Kruskal-Wallis ant´ıgeno prost´atico espec´ıficoAnova (PSA), as´ı como el hecho de presenCorrelación lineal numéricas Correlación Pearson Correlación Spearman Correlación cualitativas de Fisher tar o no penetraci´ on capsularTest y chi-cuadrado de tener o noTest unExacto tumor agresivo (en funci´on de la puntuaci´on en la escala Gleason, recogida en la variable histolog´ ıa). Los datos se encuentran en el archivo Pr´ ostata completo. ´ CAP´ITULO 5. METODOS DE INFERENCIA ESTAD´ISTICA 88 5.4.1. An´ alisis de la covarianza y anova de dos v´ıas La regresi´on lineal y el an´alisis de la varianza de una v´ıa tienen como denominador com´ un una variable respuesta num´erica que pretende ser explicada por un variable num´erica o cualitativa, respectivamente, indicando el valor de R2 la proporci´on de variabilidad explicada en tal caso por el modelo considerado. El an´alisis de la covarianza o ancova se entiende como una extensi´on del modelo de regresi´on lineal, consistente en introducir una variable explicativa cualitativa que podr´ıa dar lugar a modificaciones en los par´ametros de las ecuaciones (rectas) de regresi´on en funci´on de la categor´ıa considerada. Esta mayor flexibilidad (y complicaci´on) del modelo tiene como objeto principal aumentar el valor de R2 y as´ı generar pron´osticos m´as fiables. En el caso del ejemplo 11, podr´ıamos intentar explicar el logaritmo del volumen a partir del logaritmo del PSA y la histolog´ıa del tumor, es decir, que en principio se construye una ecuaci´on para los tumores agresivos y otra para los no agresivos, como se aprecia en la figura 5.5. En el cuadro 5.6 se contrastan cuatro hip´otesis diferentes. Figura 5.5: Log volumen vs Log PSA y Histolog´ıa Histología No Sí: agresivo No Sí: agresivo 4,000 Logaritmo Volumen 3,000 2,000 1,000 ,000 -1,000 -2,000 ,000 2,000 4,000 6,000 Logaritmo Psa Primeramente, se observa R2 = 0.568, es decir, el logaritmo del PSA y la histolog´ıa explican conjuntamente el 56.8 % de la variabilidad del logaritmo del volumen. En la l´ınea (1) se contrasta si eso es significativo teniendo en cuenta el tama˜ no de la muestra. En la l´ınea (2) se contrasta si existe una interacci´on significativa entre la histolog´ıa y el logaritmo del PSA. Al ser no significativo el resultado interpretamos que no hemos encontrado diferencias extrapolables entre las pendientes de ambas rectas. En ese caso, pasamos a interpretar la l´ınea (3), donde se contrasta si la pendiente de ambas rectas es nula. Al ser significativo el resultado concluimos que existe una relaci´on (directa) entre el logaritmo del PSA y el logaritmo del volumen. ´ ´ AVANZADAS 5.4. OTRAS TECNICAS MAS 89 Cuadro 5.6: Tabla ANCOVA Pruebas de los efectos inter-sujetos Variable dependiente:Logaritmo Volumen Suma de cuadrados tipo III Origen a (1) Modelo corregido Media cuadrática gl 75,731 F 3 25,244 40,738 Sig. ,000 (3) Log_PSA 38,958 1 38,958 62,871 ,000 (4) Histologia ,956 1 ,956 1,542 ,217 (2) Histologia * Log_PSA ,005 1 ,005 ,008 ,928 a. R cuadrado = ,568 En la l´ınea (4) se contrasta si existe una diferencia significativa entre los puntos de corte de ambas rectas con el eje OY. Al ser no significativo el resultado concluimos que no hay diferencias significativas entre la ecuaci´on obtenida para los tumores agresivos y la que corresponde a los no agresivos, es decir, que la introducci´on del factor cualitativo histolog´ıa no ha surtido un efecto claro. De hecho, si consideramos una regresi´on lineal simple entre los logaritmos del PSA y el volumen obtenemos r2 = 0.539. Si el resultado del contraste (1) hubiera sido no significativo el resto de contrastes habr´ıa carecido de inter´es. Lo mismo habr´ıamos dicho de los contrastes (3) y (4) si el resultado en el contraste (2) hubiera sido significativo. En tal caso convendr´ıa efectuar an´alisis de regresi´on simple por separado para cada categor´ıa del factor. El anova de dos v´ıas es una extensi´on del anova de una v´ıa consistente en considerar dos factores cualitativos explicativos. Con los datos del ejemplo 11 podr´ıamos o estudiar en qu´e medida los factores histolog´ıa (agresivo o no agresivo) y penetraci´on capsular (penetraci´on o no penetraci´on) explican el logaritmo del PSA. Los resultados aparecen en el cuadro 5.7. Cuadro 5.7: ANOVA 2 v´ıas Pruebas de los efectos inter-sujetos Variable dependiente:Logaritmo Psa Origen Suma de cuadrados tipo III Modelo corregido 35,539 Intersección Cp Histologia Cp * Histologia Media cuadrática gl a F Sig. 3 11,846 11,926 ,000 296,806 1 296,806 298,802 ,000 3,588 1 3,588 3,612 ,060 10,872 1 10,872 10,945 ,001 ,254 ,615 ,253 1 ,253 Error 92,379 93 ,993 Total 723,731 97 Total corregida 127,918 96 Página 1 a. R cuadrado = ,278 (R cuadrado corregida = ,255) Entre las motivaciones que pueden movernos a efectuar un estudio de este tipo destacamos tres: ´ CAP´ITULO 5. METODOS DE INFERENCIA ESTAD´ISTICA 90 Si el muestreo es de tipo estratificado el factor del que depende dicha estratificaci´on deber´ıa incluirse como variable explicativa en cualquier modelo considerado si queremos aproximarnos al supuesto de aleatoriedad. Esto puede dar lugar a modelos complejos como el anova de dos v´ıas o el propio ancova. Puede que nos interese determinar si ambos factores intervienen de manera aditiva en la explicaci´on del PSA o si, por el contrario, existe interacci´on entre ambos. En este caso, dado que en la l´ınea Cp*Histolog´ıa obtenemos un resultado no significativo, aceptamos la hip´otesis inicial de aditividad, es decir, que podr´ıamos estudiar ambos factores por separado mediante sendos anovas de una v´ıa o tests de Student, de manera que el efecto conjunto de ambos en la explicaci´on del logaritmo del PSA puede entenderse aproximadamente como la suma de los efectos calculados individualmente. Sin embargo, un resultado significativo nos habr´ıa conducido a considerar un anova de una v´ıa (seguido del test de Tukey), donde la variable respuesta ser´ıa el logaritmo del PSA y cuyo u ´nico factor ser´ıa una variable con cuatro categor´ıas: agresivo con penetraci´on, agresivo sin penetraci´on, no agresivo con penetraci´on y no agresivo sin penetraci´on. En otras ocasiones, puede que nos interese probar la influencia de un factor principal en una variable num´erica ante una situaci´on que resulta dudosa (no significativa), bien por la debilidad de la correlaci´on observada en la muestra o bien por el escaso tama˜ no de la misma. Si tal relaci´on existe realmente quedar´a m´as patente si introducimos un factor secundario que explique de manera supuestamente aditiva una parte significativa de la variabilidad no explicada por el factor principal, es decir, si reducimos el azar del modelo. En ocasiones, la recogida de datos es tan costosa que debemos conformarnos con elegir un u ´nico dato para cada combinaci´on posible entre las categor´ıas de ambos factores, el principal y el secundario. Dicho modelo, que asume la aditividad por imperativo formal, se denomina de bloques al azar, y la alternativa no param´etrica al anova correspondiente se denomina test de Friedman. 5.4.2. Regresi´ on log´ıstica El modelo de regresi´on log´ıstica binaria es una variante de los modelos anteriores mediante el cual se pretende pronosticar el resultado de una variable categ´orica Y con dos posibilidades asociadas a un evento (evento s´ı o evento no) a partir de una serie de variables num´ericas o cualitativas. Realmente, el resultado del pron´ostico es una probabilidad de que el evento ocurra, que se obtiene a partir de las variables explicativas X1 , . . . , Xk mediante una funci´on del tipo eB0 +B1 X1 +...+Bk Xk P (Y = S´ı) = 1 + eB0 +B1 X1 +...+Bk Xk (5.3) As´ı, con los datos del ejemplo 11 podemos preguntarnos en qu´e medida el logaritmo del PSA y la penetraci´on capsular explican la histolog´ıa del tumor, es decir, la probabilidad de que ´este sea agresivo. El modelo proporciona un pseudo R2 de Nagelkerke que nos informa de la capacidad de las variables explicativas para predecir la respuesta. En nuestro ejemplo obtenemos R2 = 0.485. Tambi´en podemos realizar una valoraci´on a posteriori de la fiabilidad de las predicciones. Concretamente, el modelo reconoce en nuestro caso el 83.9 % de los tumores agresivos y el 65.7 % de los no agresivos (este m´etodo puede entenderse como una versi´on m´as sofisticada del considerado en la figura 3.5 para diagnosticar la agresividad del tumor). Adem´as, contamos con un test de hip´otesis, la prueba de Hosmer-Lemeshov, para valorar la aptitud del modelo. En nuestro caso el resultado es P = 0.168, con lo cual aceptamos la hip´otesis inicial, es decir, el modelo es adecuado. Ello no implica que nuestro modelo predictivo sea acertado, sino que ´ ´ AVANZADAS 5.4. OTRAS TECNICAS MAS 91 dif´ıcilmente lograremos predicciones mucho mejores mediante otros modelos alternativos, como el de ´arbol de decisi´on. La ecuaci´on (5.3) que se utiliza para pronosticar probabilidades asocia a cada variable explicativa Xj una par´ametro eBj que se puede interpretar en t´erminos de Odds Ratios, seg´ un se aprecia en la columna de la derecha del cuadro 5.8. Al igual que sucede en el modelo de regresi´on lineal, estos par´ametros pueden contrastarse globalmente mediante la prueba omnibus o parcialmente, lo cual proporciona a su vez m´etodos de selecci´on de variables. Cuadro 5.8: Regresi´on log´ıstica Variables en la ecuación B a Paso 1 Log_PSA Cp Constante E.T. Wald gl Sig. Exp(B) ,953 ,324 8,642 1 ,003 2,594 2,111 ,566 13,902 1 ,000 8,256 -2,591 ,796 10,582 1 ,001 ,075 a. Variable(s) introducida(s) en el paso 1: Log_PSA, Cp. El cuadro 5.9 ofrece una revisi´on del cuadro 5.5 teniendo en cuenta los m´etodos estudiados en esta secci´on. Cuadro 5.9: Resumen global m´etodos Inferencia Estad´ıstica Explicativa Numérica Numéricas Numérica inicial Cualitativa dos categorías Cualitativa más de dos Dos cualitativas Numéricas+cualitativa Cualitativa Numéricas+cualitativas 5.4.3. Respuesta Numérica Numérica Numérica final Numérica Numérica Numérica Numérica Cualitativa Cualitativa Método Correlación simple Regresión múltiple Student (1) Student (2) Anova 1 vía + Tuckey Anova de dos vías Ancova Tabla contingencia χ2 Regresión logística Alternativa Spearman Transformaciones Wilcoxon Mann-Whitney Kruskal-Wallis Friedman Transformaciones Fisher Árbol An´ alisis de supervivencia Por u ´ltimo introducimos un modelo de naturaleza diferente a los anteriores relacionado tradicionalmente (aunque en la pr´actica puede tener otros usos) con el estudio de enfermedades potencialmente mortales. Durante el tiempo que dura el estudio se somete a cada paciente que va entrando en el mismo, a ra´ız de un diagn´ostico, intervenci´on quir´ urgica, etc., a un seguimiento que da como resultado un tiempo de permanencia en el estudio. En cada caso hay que indicar adem´as si el paciente abandona el estudio porque se ha registrado su fallecimiento durante el mismo o bien porque hab´ıa sobrevivido en el momento en el que el estudio acab´o. No obstante, hay que efectuar ciertas correcciones debido a que el seguimiento de ciertos pacientes se ve truncado por otras razones. A partir de esta informaci´on y siguiendo el m´etodo de KaplanMeyer obtenemos la tabla de supervivencia y la curva de supervivencia, donde se estiman Página 1 ´ CAP´ITULO 5. METODOS DE INFERENCIA ESTAD´ISTICA 92 las probabilidades de sobrevivir en funci´on del tiempo. Adem´as, se pueden construir distintas curvas en funci´on de un factor categ´orico y contrastar la homegeneidad de las mismas mediante el test Log-Rank. En la figura5.6 podemos ver las curvas de supervivencia para c´ancer de pulm´on distinguiendo entre hombres y mujeres. Figura 5.6: Supervivenvia c´ancer de pulm´on Funciones de supervivencia sex 1,0 1 2 1-censurado 2-censurado Supervivencia acum 0,8 0,6 0,4 0,2 0,0 0 200 400 600 800 1000 1200 time Otras cuestiones propuestas Ejercicio 96. Consideremos nuevamente el estudio de la puntuaci´on de ansiedad de Hamilton en un grupo de 20 personas que viven solas y otras tantas que viven acompa˜ nadas. Los respectivos diagramas de caja se muestran en la figura 5.7. Se indican a continuaci´on los resultados del test de normalidad ed Shappiro-Wilk para ambas muestras, del test de Levene de igualdad de varianzas, y de los test de Student, Welch y Mann-Whitney de comparaci´on de medias (o valores centrales). Test P -valor Shapiro-Wilk P=0.015(solos) P=0.272(acompa˜ nados) Levene P=0.746 Student P<0.001 Welch P<0.001 Mann-Whitney P=0.004 A partir de los mismos y suponiendo que ambas muestras fueran aleatorias, contestar la siguiente pregunta: ¿existe relaci´on entre el tipo de vida (en soledad o en compa˜ n´ıa) y el nivel de ansiedad? Indicar claramente en qu´e se basa la conclusi´on obtenida. Página 1 ´ ´ AVANZADAS 5.4. OTRAS TECNICAS MAS 93 Ejercicio 97. A partir de los datos del archivo Enfermedad celiaca.sav estudia lo siguiente: La relaci´on entre la celiaqu´ıa y la concentraci´on de IgA, por un lado, e IgG por otro. ¿Cu´al de los dos anticuerpos puede resultar m´as u ´til para detectar la enfermedad? La relaci´on entre la edad de la menarquia y la concentraci´on de hemoglobina. ¿Con qu´e aspecto guarda una relaci´on m´as clara la enfermedad: con la presencia de dolor abdominal o con la presencia de la variante gen´etica DQ2? Cuantifica esa relaci´on. Ejercicio 98. A partir de los datos del archivo Pr´ ostata.sav: Intenta explicar el volumen (log) del tumor a partir de la concentraci´on de PSA (log) y la edad del paciente. Intenta explicar la histolog´ıa del tumor a partir del PSA (log) y la penetraci´on capsular. Relaciona el PSA (log) con el pron´ostico del tumor seg´ un la biopsia. Relaciona el volumen (log) del tumor con el porcentaje de Gleason 4-5. Relaciona el peso (log) del tumor con el porcentaje de Gleason 4-5. ¿Guarda m´as relaci´on que el volumen? Ejercicio 99. A partir de los datos del archivo Acidosis.sav: Relaciona acidosis y glucemia. Prop´on un m´etodo de diagn´ostico concreto basado en la glucemia para diagnosticar acidosis en reci´en nacidos. Indica una estimaci´on de la sensibilidad y especificidad del test propuesto. Ejercicio 100. A partir de los datos del archivo Gonartrosis.sav: Eval´ ua la evoluci´on en movilidad (escala WOMAC) de las pacientes tratadas con crioterapia. Relaciona la p´erdida de autonom´ıa con el IMC. Estudia la eficacia de las diferentes t´ecnicas de ultrasonido (1Mhz y 3Mhz) en la recuperaci´on de la movilidad. Ejercicio 101. A partir de los datos del archivo Dieta.sav: Estudia la eficacia del medicamento en la reducci´on de la presi´on sist´olica. Idem para la diast´olica. Ejercicio 102. A partir de los datos del archivo Hipoacusia.sav: Relaciona la presencia de la enfermedad con los antecedentes familiares por un lado, y con el nivel socioecon´omico por otro. ¿Puedes indicar, a tenor de lo estudiado en el apartado anterior, un factor de riesgo claro de cara a padecer hipoacusia? Ejercicio 103. A partir de los datos del archivo South Africa Heart Disease.sav: Relaciona la presencia de la enfermedad (chd) con la presi´on sist´olica (sbp). 94 ´ CAP´ITULO 5. METODOS DE INFERENCIA ESTAD´ISTICA Relaciona la presencia de la enfermedad con el nivel de colesterol (ldl). Relaciona la presencia de la enfermedad con el porcentaje de grasa corporal (adiposity). Relaciona la presencia de la enfermedad con el consumo de alcohol. Relaciona la presencia de la enfermedad con la edad. ¿Cu´al de todas las variables mencionadas crees que guarda mayor relaci´on con la enfermedad cardiaca? Relaciona la presencia de la enfermedad con los antecedentes familiares. Intenta explicar la presi´on sist´olica a partir de la edad, el porcentaje de grasa corporal y el nivel de colesterol ldl. Ejercicio 104. En un estudio realizado en 68.183 mujeres adultas seguidas a lo largo de 16 a˜ nos, aquellas que dorm´ıan 5 o menos horas no solo pesaban 2,5 kg m´as al inicio del estudio, sino que tambi´en ganaron una media de 4,3 kg m´as en comparaci´on con las que dorm´ıan 7 o m´as horas. Adem´as, las mujeres con 5 o menos horas de sue˜ no tuvieron un 32 % m´as de posibilidades de ganar hasta 15 kg que las que dorm´ıan 7 o m´as horas a lo largo del estudio. Esta diferencia persist´ıa tras ajustar los resultados seg´ un la ingesta cal´orica y la actividad f´ısica. Otros estudios muestran resultados similares tambi´en en los hombres. Se observ´o tambi´en que tanto el ´ındice de masa corporal como el per´ımetro de cintura es significativamente mayor entre aquellos que duermen menos de 5 horas. En concreto, dormir menos se asocia con un aumento del per´ımetro de la cintura de 6,7 cm para los hombres y de 5,4 cm para las mujeres. ¿Qu´e t´ecnicas estad´ısticas (regresi´on lineal, test de Student, Wilcoxon, c´alculos de medidas de riesgo, etc) crees que se han utilizado para llegar a estas conclusiones? Parte III Tutorial SPSS 95 97 Est´a u ´ltima parte del manual recoge algunas capturas de pantalla que pueden ser de utilidad para aprender a manejar las funciones m´as b´asicas del SPSS. Algunas de las opciones principales del men´ u, como por ejemplo Archivo, Edici´ on, etc., son similares a las de cualquier programa convencional, por lo que ser´an obviadas aqu´ı. Nos interesa fundamentalmente la opci´on Analizar, pues contiene todos los m´etodos estad´ısticos a aplicar (incluyendo diversos gr´aficos). Tambi´en tiene bastante inter´es la opci´on Gr´ aficos que est´a especializada en estos u ´ltimos. Figura 5.7: Men´ u general Las opciones Datos y Transformar se utilizan para manipular los datos (filas) y las variables (columnas), respectivamente. Por ejemplo, son de utilidad a la hora de seleccionar un conjunto concreto de individuos o de calcular una nueva variable a partir de las ya existentes, como se aprecia en las figuras 5.8 y 5.9, respectivamente. Figura 5.8: Selecci´on de datos 98 Figura 5.9: C´alculo de una variable nueva a partir de las ya registradas Para analizar una variable cualitativa podemos considerar la opci´on Frecuencias, dentro del men´ u de Estad´ ısticos descriptivos; si la variable es num´erica puede resultar m´as c´omodo utilizar la opci´on Explorar. Figura 5.10: An´alisis descriptivo de una variable cualitativa 99 Figura 5.11: An´alisis descriptivo de una variable num´erica El an´alisis de varias variables num´ericas podemos efectuarlo, desde un punto de vista gr´afico, mediante la opci´on Gr´ afico de dispersi´ on simple o matricial, del men´ u de gr´aficos, y desde la opci´on Regresi´ on-Lineales, del men´ u de analizar, teniendo presentes los posibles roles que pueden desempe˜ nar las variables en el estudio (explicativa o respuesta). Figura 5.12: An´alisis descriptivo de dos variables num´ericas: gr´afico de dispersi´on 100 Figura 5.13: Regresi´on lineal Figura 5.14: Regresi´on lineal: predicciones Como vemos arriba, para pronosticar valores de la variable respuesta a partir de valores conocidos de las variable o variables explicativas debemos utilizar la opci´on guardar. El estudio conjunto de una variable num´erica y otra cualitativas puede llevarse a acabo, desde un punto de vista descriptivo, introduciendo la variable cualitativa como factor en el men´ u Explorar de la figura 5.11. Para estudiar la relaci´on entre dos variables cualitativas utilizaremos la opci´on Tablas de contingencia del men´ u Estad´ ıstica descriptiva. Conviene pedir un gr´afico de barras agrupado y, en la opci´on Estad´ ısticos, el coeficiente de contingencia C, con lo cual el programa nos proporcionar´a el resultado del test χ2 . Esto u ´ltimo aparece junto con el resultado del test exacto de Fisher pueden obtenerse marcando Chi-cuadrado (esto corresponde a la segunda parte de la materia). En todo caso, el SPSS proporciona autom´aticamente la tabla de frecuencias bidimensional conocida como tabla de contingencias. 101 Figura 5.15: Relaci´on entre dos variables cualitativas Los estudios epidemiol´ogicos para relacionar la presencia de un posible factor de riesgo con una determinada enfermedad pueden llevarse a cabo a trav´es del men´ u anterior. Aconsejamos calcular el Riesgo relativo o el Odds Ratio directamente a partir de la tabla de contingencias. No obstante, pueden ser calculados autom´aticamente mediante la opci´on Riesgo del men´ u anterior y, lo que resulta m´as interesante, incluyendo intervalos de confianza para ambos (segunda parte de la materia). De todas formas, esta u ´ltima opci´on puede generar bastante confusi´on. En lo que respecta a la segunda parta de la materia (Inferencia Estad´ıstica) podemos a˜ nadir, en primer lugar, que tanto los intervalos de confianza para una media como los test de normalidad de Shappiro-Wilk y Kolmogorov-Smirnov podemos encontrarlos en la opci´on Explorara del Estad´ ıstica descriptiva. Figura 5.16: Pruebas de normalidad Sobre la relaci´on entre variables num´ericas s´olo vamos a a˜ nadir a los resultados que pueden obtenerse a trav´es del men´ u Regresi´ on-Lineales el c´alculo y test de significaci´on para el coeficiente de correlaci´on de Spearman a trav´es del men´ u Correlaciones-Bivariadas 102 Figura 5.17: Coeficientes de correlaci´on de Pearson y Spearman Los diferentes tests de comparaci´on de medias, es sus versiones param´etricas y no param´etricas, se ejecutan como sigue: empezamos por el test de Student para dos muestras independientes y su an´alogo no param´etrico, el test de Mann-Whitney. Figura 5.18: Test de Student para muestras independientes 103 Figura 5.19: Test de Mann-Whitney Veamos a continuaci´on c´omo se ejecutan el test de Student para muestras apareadas o relacionadas y su an´alogo no param´etrico de Wilcoxon. Figura 5.20: Test de Student para muestras apareadas 104 Figura 5.21: Test de Wilcoxon El anova de una v´ıa, seguido de las comparaciones m´ ultiples seg´ un el m´etodo de Tukey, se ejecutan as´ı: Figura 5.22: Anova de una v´ıa 105 El test no param´etrico de Kruskal-Wallis se ejecuta como sigue: Figura 5.23: Test de Kruskal-Wallis Para aplicar un an´alisis de la covarianza o un anova de dos v´ıas debemos entrar en el modelo lineal univariante y colocar las variable en cada apartado seg´ un proceda. Figura 5.24: Modelo lineal univariante La regresi´on log´ıstica se ejecuta de forma similar pero introduciendo la variable categ´orica como dependiente. El test de Hosmer-Lemeshov podemos encontrarlo entre las opciones. Tambi´en podemos ejecutar un m´ etodo de selecci´on de variables. Para ejecutar un an´alisis de supervivencia debemos introducir correctamente la variable que indica el tiempo de permanencia en el estudio y especificar en la opci´on Estado el c´odigo que indica si se registr´o la defunci´on del paciente. En el apartado de opciones podemos pedir la curva de supervivencia. Podemos introducir una variable cualitativa como factor y comparar las curvas de las distintas categor´ıas mediante el test Log-Rank. 106 Figura 5.25: ANCOVA y ANOVA de dos v´ıas Figura 5.26: Regresi´on log´ıstica Figura 5.27: An´alisis de supervivencia Kaplan-Meyer Bibliograf´ıa recomendada M. Andr´ es y Juan de Luna. (2007) Bio´ estad´ ıstica para las ciencias de la Salud. Ed. Norma. M. Andr´ es y Juan de Luna. (1995) 50 ± 10 horas de Bioestad´ ıstica. Ed. Norma. E. Cobo, P. Mu˜ noz y J.A. Gonz´ alez.(2007) Bioestad´ ıstica para no estad´ ısticos. Ed. Elsewier/Masson. Mac´ıa Ant´ on, Lubin y Rubio de Lemus. (1997) Psicolog´ ıa Matem´ atica. UNED. M.A. Mart´ın Gonz´ alez, A. S´ anchez-Villegas, E.A. Toledo Atucha y J. Faulin Fajardo. (2014) Bioestad´ ıstica amigable. Ed. Elsevier. J. S. Milton. Estad´ ıstica para Biolog´ ıa y Ciencias de la Salud. Ed. Interamericana. McGraw-Hill. A.G. Nogales. (2004) Bioestad´ ıstica B´ asica. Ed. abecedario. Norman y Steiner (1996) Bioestad´ ıstica Ed. Mosby/Doyma Libros. B. Visauta. (1998) An´ alisis estad´ ıstico con SPSS para Windows. Ed. McGraw Hill. http://www.hrc.es/bioest/M docente.html#tema3. Hospital Ram´on y Cajal Sobre Probabilidad e Inferencia Estad´ ıstica. http://matematicas.unex.es/∼jmf/htm/material enfermeria medicina.html. 107
© Copyright 2024