miércoles, 5 de diciembre de 2012

Tema 6: Regresión lineal



REGRESIÓN LINEAL 

Evidencia 20 (16-Noviembre) 
En la clase de hoy aprendí muchos aspectos acerca del tema “Regresión lineal.” Ésta es definida como un procedimiento estadístico que en primer lugar nos permite conocer la relación existente entre dos o más variables estudiadas, y en segundo lugar nos da la oportunidad de estimar o realizar predicciones sobre lo que puede pasar en un futuro de acuerdo a dicha relación de variables. Por ejemplo, consideremos que se estudiarán las variables “Horas diarias que duermen los alumnos de 3er. año de la EST 113” y “El promedio obtenido durante el primer bimestre.” En este caso, ambas variables se relacionan pues las horas que duerme un alumno (muchas, regular, pocas) inciden directamente en el aprovechamiento académico que tengan y por consiguiente en su promedio bimestral. Así, podremos estimar que si un alumno no duerme lo suficiente, entonces su desempeño será deficiente y su promedio bimestral muy bajo; por el contrario, si un alumno duerme bien entonces su desempeño será mejor y su promedio más alto. Y es respecto a lo anterior que decimos que la Regresión lineal forma parte inferencial de la Estadística. 
Además del concepto y utilidad de la Regresión lineal, aprendí la manera de calcularla, es decir, su procedimiento y los elementos de éste. De tal modo, en la regresión lineal se emplea el Diagrama de Dispersión (véase figura 20), el cual nos permite graficar las variables estudiadas a manera de coordenadas y mediante puntos, a partir de dichos puntos es posible obtener la “Línea de regresión”, la cual se puede obtener a través de la siguiente ecuación o fórmula general: 
Ŷ= a+bx 
Dicha fórmula, como ya se mencionó, nos permite representar en el diagrama los puntos y de ahí obtener la línea de regresión. Para esto es necesario determinar los valores de “a”, “b”, “x” y “r” (Coeficiente de correlación). Así, el procedimiento se realiza mediante la calculadora científica (lo cual es sumamente sencillo), y se resume a continuación: 
1)Presionar MODE--> REG--> Lin--> Colocar los valores, como por ejemplo: 
3,10-->M+--> n=1 
4,9--> M+--> n=2 
5,9--> M+--> n=3 
Y así sucesivamente, hasta terminar con todos los datos.  
2) Una vez insertado el último valor, presionamos: Shift 2--> Seleccionar “a”. De esta manera calcularemos el valor de “a”. 
El procedimiento anterior también se lleva a cabo para calcular “b” y “r”, sólo que después de Shift se deben seleccionar sus respectivas letras.  Asimismo, decimos que, cuando tenemos un diagrama de dispersión decreciente, los valores de “b” y “r” deberán ser negativos. 
3) El valor de “x” será nuestro valor más pequeño y el más grande, a los cuales llamaremos x1 y x2, respectivamente.  
4) Procedemos a sustituir los valores, dentro de nuestra fórmula general: Ŷ= a+bx 
Entonces obtendremos 2 “coordenadas”, la resultante de usar x1, y la de x2. A cada una de éstas también le corresponderá un valor de Ŷ: Ŷ1 y Ŷ2, respectivamente.  Por ejemplo: 
Ŷ= a+bx 
a= 10.4350 
b= -0.3649 
r= -0.9844 

UTILIZANDO --> X1= 0 (Valor menor) 
Ŷ= 10.4350 + (-0.3649) (0) 
Ŷ1= 10.4350 (0) 
Ŷ1= 10.4350 
UTILIZANDO --> X2= 17 (Valor mayor) 
Ŷ2= 10.4350 + (-0.3649) (17) 
Ŷ2= 10.4350 + (-6.2033) 
Ŷ2= 4.2317 
Entonces tenemos:  
X1= 0   
Ŷ1= 10.4350 
X2= 17 
Ŷ2= 4.2317 
Estos últimos valores (X1, Ŷ1) y (X2, Ŷ2), son los que graficaremos en el diagrama de dispersión para obtener matemáticamente la “Línea de regresión.” Así, ésta nos permite el nivel de correlación entre las variables (véase figura 21), la cual puede ser perfecta o nula dependiendo cuánto se acerque el valor del Coeficiente de correlación (r) a 1 o a 0.  Respecto a nuestro ejemplo diremos que: “Las variables si tienen una relación, la cual es casi perfecta.”  
Finalmente, el procedimiento anterior puede ser aplicado para realizar una predicción acerca de cualquier dato de nuestras variables estudiadas. Así, podemos observar la importancia de la Regresión lineal, puesto que ésta nos ayuda a conocer la relación existente entre variables (ya no las considera de forma independiente), y a su vez, nos deja inferir lo que es probable que suceda a partir de dicha relación; enriqueciendo, de tal modo, los estudios y análisis estadísticos, ya que las interpretaciones, comparaciones y conclusiones serán mucho más concisas y confiables.
Ŷ= a+bx. 



(r), entonces se establece que: 
Si r se acerca a 1--> Existirá una correlación perfecta 
Si r se acerca a 0--> Existirá una correlación nula. 

Evidencia 21 (21-Noviembre) 
El día de hoy en la clase de Estadifica continuamos revisando el tema de Regresión Lineal; con lo cual pude refirmar mis conocimientos acerca de cómo realizar las operaciones en la calculadora científica, éstas para poder aplicar la fórmula general, es decir, la ecuación que nos permite obtener la Línea de regresión. Recordemos que la Línea de regresión nos da la oportunidad de conocer la correlación de las variables estudiadas, dicha correlación se puede definir como alta, moderada o baja, y de acuerdo con el porcentaje del CC (coeficiente de correlación) es posible saber si la relación es perfecta o nula.  
Así, de acuerdo con lo aprendido,  se explica el siguiente ejemplo:  
En una escuela secundaria se desea conocer si existe una relación entre las horas que ven la televisión diariamente los alumnos de 3er año y su aprovechamiento académico, el cual se ve reflejado en el promedio del 5to semestre, para ello se llevo a cabo una encuesta obteniendo los siguientes resultados: 
Hrs diarias que ven TV…… Promedio del 5to. Semestre  
(X)..………………………………………………(Y) 
4………………………………………………….. 8.0 
7…………………………………………………..6.5 
2…………………………………………………..9.0 
3…………………………………………………..8.5 
1…………………………………………………..9.5 
0…………………………………………………..10 
5…………………………………………………..7.5 
8……………………………………………………6.0 
10………………………………………………….5.0 

A) Determinar a,b y el coeficiente de correlación.  
a= 10 
b= -0.5 
r= -1 
B) Aplicar la ecuación general de la Regresión lineal Ŷ= a+bx, considerando tanto el valor menor y el mayor de la columna de X. 
UTILIZANDO --> X1= 0 (Valor menor) 
Ŷ= 10 + (-0.5) (0) 
Ŷ1= 10 + 0 
Ŷ1= 10 
UTILIZANDO --> X2= 10 (Valor mayor) 
Ŷ2= 10 + (-0.5) (10) 
Ŷ2=  10 + (-5) 
Ŷ2= 5 
C) Graficar el Diagrama de Dispersión. (Véase figura 22).  
Entonces, los valores que serán graficados en el diagrama de dispersión, son: 
1) 0,10 
2) 10,5 
Así, obtenemos la línea de regresión, permitiéndonos saber cuán estrecha o no es la relación entre la variable “Horas diarias que ven la TV los alumnos” y “Promedio obtenido durante el 5to semestre.” 
D) Realizar la predicción con el valor de 9, en X. 
Ahora bien,  la regresión lineal nos permite hacer predicciones o estimar lo que puede pasar. Así, si los alumnos vieran 9 horas la TV, su promedio del 5to semestre podría ser: 
Ŷ= 10 + (-0.5) (9) 
Ŷ= 10 + (-4.5) 
Ŷ= 5.5 
En este caso, la predicción si coincide con los datos que tenemos, por esta razón decimos que existe una correlación alta y perfecta entre las variables. Entonces, observamos que si un alumno dedica muchas horas para ver la televisión, es muy probable que afecte en su rendimiento académico, el cual se reflejará en su promedio semestral.  
Finalmente, otra cosa que aprendí es que si los datos se invierten, es decir, la columna X se considera como la columna Y, y viceversa, observaremos cómo el resultado del coeficiente de correlación se conserva, mientras que los resultados de a y b cambian y por consiguiente, la línea de regresión también cambia de posición en el diagrama de dispersión.  
Entonces, suponiendo que: 
Hrs diarias que ven TV…… Promedio del 5to. Semestre  
(X)..…………………………….…(Y) 
8.0…………………………………..4 
6.5…………………………………..7 
9.0…………………………………..2 
8.5…………………………………..3 
9.5……………………………….….1 
10……………………………….…..0 
7.5……………………………….….5 
6.0………………………………..….8 
5.0…………………………..……...10 

a= 20 
b= -2 
r= -1 

UTILIZANDO --> X1= 5.0 (Valor menor) 
Ŷ= 20 + (-2) (5.0) 
Ŷ1= 20 + (-10) 
Ŷ1= 10 
UTILIZANDO --> X2= 10 (Valor mayor) 
Ŷ2= 20 + (-2) (10) 
Ŷ2= 20 + (-20) 
Ŷ2= 0 
Entonces, los valores que serán graficados en el diagrama de dispersión, son: 
1) 5.0, 10 
2) 10,0 
Así, la línea de regresión es diferente a la que obtuvimos en el diagrama de dispersión anterior.
Evidencia 22 (23-Noviembre) 

En la clase de hoy retomamos los temas anteriores, al realizar un ejercicio en el cual teníamos que determinar las Medidas de Tendencia Central, las Medidas de Dispersión y la regla Empírica o de Chebyshev. Asimismo abordamos el tema de Regresión lineal del cual aprendí que para poder aplicar dicho procedimiento es necesario que nuestras variables estudiadas sean numéricas, puesto que si alguna es categórica (ya sea nominal u ordinal) no podremos calcularla, porque éstas últimas variables no se pueden ingresar a la calculadora por ejemplo, además que evidentemente sus resultados no son  numéricos, aspecto imprescindible para obtener “a”, “b” y “r”, para calcular la línea de regresión y para conocer si existe una correlación entre las variables.  
Por ejemplo, si tenemos las variables “Sexo” (masculino o femenino) y “Promedio de primer año de la universidad”, observamos que la primera se trata de una variable categórica nominal (puesto que no se puede ordenar,) y la segunda es una variable numérica continua. Así, no podemos hacer una correlación debido a que el tipo de variables no coinciden; entonces la única condición para poder aplicar la Regresión lineal es que las variables sean numéricas (continuas o discretas).  

Así, a partir de lo que ya conozco acerca de los temas ya visto, propongo el siguiente ejemplo: 
“En la UPN 153 se desea conocer el porqué del bajo rendimiento académico que tienen los alumnos del 3° semestre. Se cree que esto puede deberse en gran manera a que los alumnos dedican mucho tiempo a navegar por internet y estar en las redes sociales, lo cual supone que la atención a la realización de sus tareas, trabajos y al estudio en general es muy poca.  Se encuestó a una muestra de los alumnos, preguntándoles cuántas horas diarias navegan en internet y usan las redes sociales, y cuántas horas diarias dedican a realizar sus tareas y a estudiar; de tal modo se obtuvieron los siguientes resultados: 
Hrs diarias en internet……………………….Hrs diarias para hacer la tarea y estudiar 
(X)……………………………………………………………………………(Y) 
5………………………………………………………………………………..2 
7………………………………………………………………………………..0 
2…………………………………………………………………………………4 
0…………………………………………………………………………………5 
8…………………………………………………………………………………0 
4…………………………………………………………………………………3 
10……………………………………………………………………………….0 
6…………………………………………………………………………………1 

  1. Obtener las MTC para la variable X, e interprételas.  
Clase……………………..FA….Fa………Mc…………..Mc*Fi 
0-2.5001………………..2…….2………..1.2500……..2.5001 
2.5001-5.0002……….2……..4………..3.7501…….7.5003 
5.0002-7.5003……….2……..6………..6.2502……12.5005 
7.5003-10.0004………2……..8……….8.7503…….17.5007 
MEDIA 
X= 5.0002 
“Si todos los alumnos dedicaran el mismo numero de horas a navegar por internet y utilizar las redes sociales, éste sería de 5.0002 horas diarias.” 
MEDIANA 
Me= (2.5001-5.0002) 
“El 50% de los alumnos dedica más de 3.7501 horas diarias para navegar por internet y utilizar las redes sociales, el otro 50% dedica menos de 3.7501 horas diarias para realizar la misma actividad.” 
CLASE MODAL 
Mo= En este caso todos los intervalos tienen la misma frecuencia (2), por lo que resulta un poco irrelevante este dato para nuestro análisis estadístico. La interpretación también resultaría un tanto irrelevante: 
“La mayoría de los alumnos dedican entre 0 y 10.0004 horas diarias para navegar por internet y utilizar las redes sociales.” 
b) Determinar las Medidas de Dispersión para la variable X, e interprételas.  
VARIANZA 
5-5.0002= (-0.0002) (-0.0002)= 0.0004 
7-5.0002= (1.9998) (1.9998)= 3.9992 
2-5.0002= (-3.0002) (-3.0002)= 9.0001 
0-5.0002= (-5.0002) (-5.0002)= 25.0020 
8-5.0002= (2.9998) (2.9998)= 8.9988 
4-5.0002= (-1.0002) (-1.0002)= 1.0004 
10-5.0002= (4.9998) (4.9998)= 24.9980 
6-5.0002= (0.9998) (0.9998)= 0.9996 
σ2= 73.9985/7 = 10.5712 
DESVIACIÓN ESTÁNDAR 
σ= √10.5712= 3.2513 
COEFICIENTE DE VARIACIÓN 
C.V.= 3.2513/5.0002 (100%) 
C.V.= 0.650242 (100%) = 65.0242 
“Existe una variación de 65.0242 % de los datos con respecto al valor de la media." 
c) Aplicar la regla empírica o de Chebyshev 
Regla de Chebyshev 
K=3 
1ª fórmula  
(X-Ks, X+Ks) 
= (5.0002- (3) 3.2513, 5.0002+ (3) 3.2513) 
= (5.0002- 9.7539, 5.0002+ 9.7539) 
= (-4.7537, 14.7541) 
2ª fórmula 
1-1/K2 (100%) 
= 1-1/9(100%)  
= 1-0.1111 (100%) 
=0.8889 (100%) = 88.89 % 
“Al menos el 88.89 % de los datos se encuentran dentro del intervalo  (-4.7537, 14.7541).” 

d) Calcular la regresión lineal. 
a= 4.9285 
b= -0.5816 
r= -0.9618... “La correlación entre las variables es alta y casi perfecta.”  

X1= 0 

Ŷ= a+bx 
Ŷ1= 4.9285 + (-0.5816) (0) 
Ŷ1= 4.9285 

(0, 4.9285) 

X2= 10 

Ŷ= a+bx 
Ŷ1= 4.9285 + (-0.5816) (10) 
Ŷ1= -0.8875 

(10, -0.8875) 

Predicción, Si los alumnos dedicaran 1 hora diaria a navegar por internet y usar las redes sociales, el tiempo que dedicarían a la elaboración de tareas y a estudiar sería: 

Ŷ= a+bx 
Ŷ= 4.9285 + (-0.5816) (1) 
Ŷ= 4.3469 

Podemos decir que si existe una relación entre las variables “Horas diarias para navegar por internet y utilizar las redes sociales” y “Horas diarias para realizar las tareas y estudiar”, ya que la primera incide negativamente sobre la segunda, reduciendo el tiempo que los alumnos deberían dedicar a las labores de la Universidad, lo que finalmente se verá reflejado en un aprovechamiento académico deficiente.  



Evidencia 23 (28-Noviembre) 
El día de hoy, en la clase de Estadística revisamos el tema de Regresión Lineal. Así, de acuerdo a los conocimientos que ya poseo, propongo el siguiente ejemplo: 
“En una escuela primaria se desea conocer la relación existente entre las horas de atención que reciben los alumnos por parte de sus padres al realizar sus tareas a la semana y el promedio obtenido durante el último bimestre. Se obtuvieron los siguientes resultados: 
No. de horas que reciben de sus padres…………………… Promedio Bimestral 
X…………………………………………………………………………………………Y 
0.4………………………………………………………………………………………6.3 
1.8………………………………………………………………………………………7.0 
3.5………………………………………………………………………………………7.6 
4.7………………………………………………………………………………………8.3 
5.0………………………………………………………………………………………8.7 
5.6………………………………………………………………………………………9.0 
6.2………………………………………………………………………………………9.3 
6.9………………………………………………………………………………………9.5 
a= 6.0329 
b= 0.5113 
r= 0.9939 

Ŷ= a+bx 

UTILIZANDO --> X1= 0.4 (Valor menor) 
Ŷ= 6.0329 + (0.5113) (0.4) 
Ŷ1= 6.0329 + 0.2045  
Ŷ1= 6.2374 
(0.4, 6.2374) 

UTILIZANDO --> X2= 6.9 (Valor mayor) 
Ŷ2= 6.0329 + (0.5113) (6.9) 
Ŷ2= 6.0329 + 3.5279 
Ŷ2= 9.5608 
(6.9, 9.5608) 

Predicción  
Si  los padres dedicaran 2.0 horas semanales a los alumnos para realizar sus tareas, el promedio bimestral que obtuvieran podría ser: 

UTILIZANDO --> X= 2.0 
Ŷ2= 6.0329 + (0.5113) (2.0) 
Ŷ2= 6.0329 + 1.0226 
Ŷ2= 7.0555 
(2.0, 7.0555) 

Ahora bien, ¿cuántas horas semanalmente deben dedicar los padres a los alumnos para obtener un promedio bimestral de 10? 
Para esto, simplemente invertimos las columnas X y Y, como a continuación: 
Promedio…………Horas de atención  
X…………………….…Y 
6.3……………………0.4 
7.0……………………1.8 
7.6……………………3.5 
8.3…………………..4.7 
8.7…………………..5.0 
9.0……………….….5.6 
9.3……………….….6.2 
9.5………..…………6.9 
a= -11.6062 
b= 1.9322 
r= 0.9939 

Ŷ= a+bx 

UTILIZANDO --> X = 10 
Ŷ= -11.6062 + (1.9322) (10) 
Ŷ= 7.7158 
“Los padres necesitan dedicar 7.7158 horas semanalmente a los alumnos para que éstos puedan obtener un promedio bimestral de 10.”

No hay comentarios:

Publicar un comentario