REGRESIÓN LINEAL
Evidencia 20 (16-Noviembre)
En
la clase de hoy aprendí muchos aspectos acerca del tema “Regresión
lineal.” Ésta es definida como un procedimiento estadístico que en
primer lugar nos permite conocer la relación existente entre dos o más
variables estudiadas, y en segundo lugar nos da la oportunidad de
estimar o realizar predicciones sobre lo que puede pasar en un futuro de
acuerdo a dicha relación de variables. Por ejemplo, consideremos que se
estudiarán las variables “Horas diarias que duermen los alumnos de 3er.
año de la EST 113” y “El promedio obtenido durante el primer bimestre.”
En este caso, ambas variables se relacionan pues las horas que duerme
un alumno (muchas, regular, pocas) inciden directamente en el
aprovechamiento académico que tengan y por consiguiente en su promedio
bimestral. Así, podremos estimar que si un alumno no duerme lo
suficiente, entonces su desempeño será deficiente y su promedio
bimestral muy bajo; por el contrario, si un alumno duerme bien entonces
su desempeño será mejor y su promedio más alto. Y es respecto a lo
anterior que decimos que la Regresión lineal forma parte inferencial de
la Estadística.
Además
del concepto y utilidad de la Regresión lineal, aprendí la manera de
calcularla, es decir, su procedimiento y los elementos de éste. De tal
modo, en la regresión lineal se emplea el Diagrama de Dispersión (véase
figura 20), el cual nos permite graficar las variables estudiadas a
manera de coordenadas y mediante puntos, a partir de dichos puntos es
posible obtener la “Línea de regresión”, la cual se puede obtener a
través de la siguiente ecuación o fórmula general:
Ŷ= a+bx
Dicha
fórmula, como ya se mencionó, nos permite representar en el diagrama
los puntos y de ahí obtener la línea de regresión. Para esto es
necesario determinar los valores de “a”, “b”, “x” y “r” (Coeficiente de
correlación). Así, el procedimiento se realiza mediante la calculadora
científica (lo cual es sumamente sencillo), y se resume a continuación:
1)Presionar MODE--> REG--> Lin--> Colocar los valores, como por ejemplo:
3,10-->M+--> n=1
4,9--> M+--> n=2
5,9--> M+--> n=3
Y así sucesivamente, hasta terminar con todos los datos.
2) Una vez insertado el último valor, presionamos: Shift 2--> Seleccionar “a”. De esta manera calcularemos el valor de “a”.
El procedimiento anterior también se lleva a cabo para calcular “b” y “r”, sólo que después de Shift se
deben seleccionar sus respectivas letras. Asimismo, decimos que,
cuando tenemos un diagrama de dispersión decreciente, los valores de “b”
y “r” deberán ser negativos.
3) El valor de “x” será nuestro valor más pequeño y el más grande, a los cuales llamaremos x1 y x2, respectivamente.
4) Procedemos a sustituir los valores, dentro de nuestra fórmula general: Ŷ= a+bx
Entonces
obtendremos 2 “coordenadas”, la resultante de usar x1, y la de x2. A
cada una de éstas también le corresponderá un valor de Ŷ: Ŷ1 y Ŷ2,
respectivamente. Por ejemplo:
Ŷ= a+bx
a= 10.4350
b= -0.3649
r= -0.9844
UTILIZANDO --> X1= 0 (Valor menor)
Ŷ= 10.4350 + (-0.3649) (0)
Ŷ1= 10.4350 (0)
Ŷ1= 10.4350
UTILIZANDO --> X2= 17 (Valor mayor)
Ŷ2= 10.4350 + (-0.3649) (17)
Ŷ2= 10.4350 + (-6.2033)
Ŷ2= 4.2317
Entonces tenemos:
X1= 0
Ŷ1= 10.4350
X2= 17
Ŷ2= 4.2317
Estos
últimos valores (X1, Ŷ1) y (X2, Ŷ2), son los que graficaremos en el
diagrama de dispersión para obtener matemáticamente la “Línea de
regresión.” Así, ésta nos permite el nivel de correlación entre las
variables (véase figura 21), la cual puede ser perfecta o nula
dependiendo cuánto se acerque el valor del Coeficiente de correlación
(r) a 1 o a 0. Respecto a nuestro ejemplo diremos que: “Las variables
si tienen una relación, la cual es casi perfecta.”
Finalmente,
el procedimiento anterior puede ser aplicado para realizar una
predicción acerca de cualquier dato de nuestras variables estudiadas.
Así, podemos observar la importancia de la Regresión lineal, puesto que
ésta nos ayuda a conocer la relación existente entre variables (ya no
las considera de forma independiente), y a su vez, nos deja inferir lo
que es probable que suceda a partir de dicha relación; enriqueciendo, de
tal modo, los estudios y análisis estadísticos, ya que las
interpretaciones, comparaciones y conclusiones serán mucho más concisas y
confiables.
Ŷ= a+bx.
(r), entonces se establece que:
Si r se acerca a 1--> Existirá una correlación perfecta
Si r se acerca a 0--> Existirá una correlación nula.
Evidencia 21 (21-Noviembre)
El
día de hoy en la clase de Estadifica continuamos revisando el tema de
Regresión Lineal; con lo cual pude refirmar mis conocimientos acerca de
cómo realizar las operaciones en la calculadora científica, éstas para
poder aplicar la fórmula general, es decir, la ecuación que nos permite
obtener la Línea de regresión. Recordemos que la Línea de regresión nos
da la oportunidad de conocer la correlación de las variables estudiadas,
dicha correlación se puede definir como alta, moderada o baja, y de
acuerdo con el porcentaje del CC (coeficiente de correlación) es posible
saber si la relación es perfecta o nula.
Así, de acuerdo con lo aprendido, se explica el siguiente ejemplo:
En
una escuela secundaria se desea conocer si existe una relación entre
las horas que ven la televisión diariamente los alumnos de 3er año y su
aprovechamiento académico, el cual se ve reflejado en el promedio del
5to semestre, para ello se llevo a cabo una encuesta obteniendo los
siguientes resultados:
Hrs diarias que ven TV…… Promedio del 5to. Semestre
(X)..………………………………………………(Y)
4………………………………………………….. 8.0
7…………………………………………………..6.5
2…………………………………………………..9.0
3…………………………………………………..8.5
1…………………………………………………..9.5
0…………………………………………………..10
5…………………………………………………..7.5
8……………………………………………………6.0
10………………………………………………….5.0
A) Determinar a,b y el coeficiente de correlación.
a= 10
b= -0.5
r= -1
B) Aplicar la ecuación general de la Regresión lineal Ŷ= a+bx, considerando tanto el valor menor y el mayor de la columna de X.
UTILIZANDO --> X1= 0 (Valor menor)
Ŷ= 10 + (-0.5) (0)
Ŷ1= 10 + 0
Ŷ1= 10
UTILIZANDO --> X2= 10 (Valor mayor)
Ŷ2= 10 + (-0.5) (10)
Ŷ2= 10 + (-5)
Ŷ2= 5
C) Graficar el Diagrama de Dispersión. (Véase figura 22).
Entonces, los valores que serán graficados en el diagrama de dispersión, son:
1) 0,10
2) 10,5
Así,
obtenemos la línea de regresión, permitiéndonos saber cuán estrecha o
no es la relación entre la variable “Horas diarias que ven la TV los
alumnos” y “Promedio obtenido durante el 5to semestre.”
D) Realizar la predicción con el valor de 9, en X.
Ahora
bien, la regresión lineal nos permite hacer predicciones o estimar lo
que puede pasar. Así, si los alumnos vieran 9 horas la TV, su promedio
del 5to semestre podría ser:
Ŷ= 10 + (-0.5) (9)
Ŷ= 10 + (-4.5)
Ŷ= 5.5
En
este caso, la predicción si coincide con los datos que tenemos, por
esta razón decimos que existe una correlación alta y perfecta entre las
variables. Entonces, observamos que si un alumno dedica muchas horas
para ver la televisión, es muy probable que afecte en su rendimiento
académico, el cual se reflejará en su promedio semestral.
Finalmente,
otra cosa que aprendí es que si los datos se invierten, es decir, la
columna X se considera como la columna Y, y viceversa, observaremos cómo
el resultado del coeficiente de correlación se conserva, mientras que
los resultados de a y b cambian y por consiguiente, la línea de
regresión también cambia de posición en el diagrama de dispersión.
Entonces, suponiendo que:
Hrs diarias que ven TV…… Promedio del 5to. Semestre
(X)..…………………………….…(Y)
8.0…………………………………..4
6.5…………………………………..7
9.0…………………………………..2
8.5…………………………………..3
9.5……………………………….….1
10……………………………….…..0
7.5……………………………….….5
6.0………………………………..….8
5.0…………………………..……...10
a= 20
b= -2
r= -1
UTILIZANDO --> X1= 5.0 (Valor menor)
Ŷ= 20 + (-2) (5.0)
Ŷ1= 20 + (-10)
Ŷ1= 10
UTILIZANDO --> X2= 10 (Valor mayor)
Ŷ2= 20 + (-2) (10)
Ŷ2= 20 + (-20)
Ŷ2= 0
Entonces, los valores que serán graficados en el diagrama de dispersión, son:
1) 5.0, 10
2) 10,0
Así, la línea de regresión es diferente a la que obtuvimos en el diagrama de dispersión anterior.
Evidencia 22 (23-Noviembre)
En
la clase de hoy retomamos los temas anteriores, al realizar un
ejercicio en el cual teníamos que determinar las Medidas de Tendencia
Central, las Medidas de Dispersión y la regla Empírica o de Chebyshev. Asimismo abordamos el tema de Regresión
lineal del cual aprendí que para poder aplicar dicho procedimiento es
necesario que nuestras variables estudiadas sean numéricas, puesto que
si alguna es categórica (ya sea nominal u ordinal) no podremos
calcularla, porque éstas últimas variables no se pueden ingresar a la
calculadora por ejemplo, además que evidentemente sus resultados no son
numéricos, aspecto imprescindible para obtener “a”, “b” y “r”, para
calcular la línea de regresión y para conocer si existe una correlación
entre las variables.
Por
ejemplo, si tenemos las variables “Sexo” (masculino o femenino) y
“Promedio de primer año de la universidad”, observamos que la primera se
trata de una variable categórica nominal (puesto que no se puede
ordenar,) y la segunda es una variable numérica continua. Así, no
podemos hacer una correlación debido a que el tipo de variables no
coinciden; entonces la única condición para poder aplicar la Regresión
lineal es que las variables sean numéricas (continuas o discretas).
Así, a partir de lo que ya conozco acerca de los temas ya visto, propongo el siguiente ejemplo:
“En
la UPN 153 se desea conocer el porqué del bajo rendimiento académico
que tienen los alumnos del 3° semestre. Se cree que esto puede deberse
en gran manera a que los alumnos dedican mucho tiempo a navegar por
internet y estar en las redes sociales, lo cual supone que
la atención a la realización de sus tareas, trabajos y al estudio en
general es muy poca. Se encuestó a una muestra de los alumnos,
preguntándoles cuántas horas diarias navegan en internet y usan las
redes sociales, y cuántas horas diarias dedican a realizar sus tareas y a
estudiar; de tal modo se obtuvieron los siguientes resultados:
Hrs diarias en internet……………………….Hrs diarias para hacer la tarea y estudiar
(X)……………………………………………………………………………(Y)
5………………………………………………………………………………..2
7………………………………………………………………………………..0
2…………………………………………………………………………………4
0…………………………………………………………………………………5
8…………………………………………………………………………………0
4…………………………………………………………………………………3
10……………………………………………………………………………….0
6…………………………………………………………………………………1
- Obtener las MTC para la variable X, e interprételas.
Clase……………………..FA….Fa………Mc…………..Mc*Fi
0-2.5001………………..2…….2………..1.2500……..2.5001
2.5001-5.0002……….2……..4………..3.7501…….7.5003
5.0002-7.5003……….2……..6………..6.2502……12.5005
7.5003-10.0004………2……..8……….8.7503…….17.5007
MEDIA
X= 5.0002
“Si
todos los alumnos dedicaran el mismo numero de horas a navegar por
internet y utilizar las redes sociales, éste sería de 5.0002 horas
diarias.”
MEDIANA
Me= (2.5001-5.0002)
“El
50% de los alumnos dedica más de 3.7501 horas diarias para navegar por
internet y utilizar las redes sociales, el otro 50% dedica menos de
3.7501 horas diarias para realizar la misma actividad.”
CLASE MODAL
Mo=
En este caso todos los intervalos tienen la misma frecuencia (2), por
lo que resulta un poco irrelevante este dato para nuestro análisis
estadístico. La interpretación también resultaría un tanto irrelevante:
“La mayoría de los alumnos dedican entre 0 y 10.0004 horas diarias para navegar por internet y utilizar las redes sociales.”
b) Determinar las Medidas de Dispersión para la variable X, e interprételas.
VARIANZA
5-5.0002= (-0.0002) (-0.0002)= 0.0004
7-5.0002= (1.9998) (1.9998)= 3.9992
2-5.0002= (-3.0002) (-3.0002)= 9.0001
0-5.0002= (-5.0002) (-5.0002)= 25.0020
8-5.0002= (2.9998) (2.9998)= 8.9988
4-5.0002= (-1.0002) (-1.0002)= 1.0004
10-5.0002= (4.9998) (4.9998)= 24.9980
6-5.0002= (0.9998) (0.9998)= 0.9996
σ2= 73.9985/7 = 10.5712
DESVIACIÓN ESTÁNDAR
σ= √10.5712= 3.2513
COEFICIENTE DE VARIACIÓN
C.V.= 3.2513/5.0002 (100%)
C.V.= 0.650242 (100%) = 65.0242
“Existe una variación de 65.0242 % de los datos con respecto al valor de la media."
c) Aplicar la regla empírica o de Chebyshev.
Regla de Chebyshev
K=3
1ª fórmula
(X-Ks, X+Ks)
= (5.0002- (3) 3.2513, 5.0002+ (3) 3.2513)
= (5.0002- 9.7539, 5.0002+ 9.7539)
= (-4.7537, 14.7541)
2ª fórmula
1-1/K2 (100%)
= 1-1/9(100%)
= 1-0.1111 (100%)
=0.8889 (100%) = 88.89 %
“Al menos el 88.89 % de los datos se encuentran dentro del intervalo (-4.7537, 14.7541).”
d) Calcular la regresión lineal.
a= 4.9285
b= -0.5816
r= -0.9618... “La correlación entre las variables es alta y casi perfecta.”
X1= 0
Ŷ= a+bx
Ŷ1= 4.9285 + (-0.5816) (0)
Ŷ1= 4.9285
(0, 4.9285)
X2= 10
Ŷ= a+bx
Ŷ1= 4.9285 + (-0.5816) (10)
Ŷ1= -0.8875
(10, -0.8875)
Predicción,
Si los alumnos dedicaran 1 hora diaria a navegar por internet y usar
las redes sociales, el tiempo que dedicarían a la elaboración de tareas y
a estudiar sería:
Ŷ= a+bx
Ŷ= 4.9285 + (-0.5816) (1)
Ŷ= 4.3469
Podemos
decir que si existe una relación entre las variables “Horas diarias
para navegar por internet y utilizar las redes sociales” y “Horas
diarias para realizar las tareas y estudiar”, ya que la primera incide
negativamente sobre la segunda, reduciendo el tiempo que los alumnos
deberían dedicar a las labores de la Universidad, lo que finalmente se
verá reflejado en un aprovechamiento académico deficiente.
Evidencia 23 (28-Noviembre)
El
día de hoy, en la clase de Estadística revisamos el tema de Regresión
Lineal. Así, de acuerdo a los conocimientos que ya poseo, propongo el
siguiente ejemplo:
“En
una escuela primaria se desea conocer la relación existente entre las
horas de atención que reciben los alumnos por parte de sus padres al
realizar sus tareas a la semana y el promedio obtenido durante el último
bimestre. Se obtuvieron los siguientes resultados:
No. de horas que reciben de sus padres…………………… Promedio Bimestral
X…………………………………………………………………………………………Y
0.4………………………………………………………………………………………6.3
1.8………………………………………………………………………………………7.0
3.5………………………………………………………………………………………7.6
4.7………………………………………………………………………………………8.3
5.0………………………………………………………………………………………8.7
5.6………………………………………………………………………………………9.0
6.2………………………………………………………………………………………9.3
6.9………………………………………………………………………………………9.5
a= 6.0329
b= 0.5113
r= 0.9939
Ŷ= a+bx
UTILIZANDO --> X1= 0.4 (Valor menor)
Ŷ= 6.0329 + (0.5113) (0.4)
Ŷ1= 6.0329 + 0.2045
Ŷ1= 6.2374
(0.4, 6.2374)
UTILIZANDO --> X2= 6.9 (Valor mayor)
Ŷ2= 6.0329 + (0.5113) (6.9)
Ŷ2= 6.0329 + 3.5279
Ŷ2= 9.5608
(6.9, 9.5608)
Predicción
Si
los padres dedicaran 2.0 horas semanales a los alumnos para realizar
sus tareas, el promedio bimestral que obtuvieran podría ser:
UTILIZANDO --> X= 2.0
Ŷ2= 6.0329 + (0.5113) (2.0)
Ŷ2= 6.0329 + 1.0226
Ŷ2= 7.0555
(2.0, 7.0555)
Ahora bien, ¿cuántas horas semanalmente deben dedicar los padres a los alumnos para obtener un promedio bimestral de 10?
Para esto, simplemente invertimos las columnas X y Y, como a continuación:
Promedio…………Horas de atención
X…………………….…Y
6.3……………………0.4
7.0……………………1.8
7.6……………………3.5
8.3…………………..4.7
8.7…………………..5.0
9.0……………….….5.6
9.3……………….….6.2
9.5………..…………6.9
a= -11.6062
b= 1.9322
r= 0.9939
Ŷ= a+bx
UTILIZANDO --> X = 10
Ŷ= -11.6062 + (1.9322) (10)
Ŷ= 7.7158
“Los
padres necesitan dedicar 7.7158 horas semanalmente a los alumnos para
que éstos puedan obtener un promedio bimestral de 10.”
No hay comentarios:
Publicar un comentario