Resumen general de Estadística
La
estadística es una rama de las matemáticas que se encarga de la
jerarquización, analización y recolección de datos que serán de utilidad
en una investigación. En la pedagogía, la estadistica es una ciencia
fundamental para transformar datos cualitativos en datos cuantitativos.
La población son todos los valores que toman la variable, y la muestra
es una pequeña parte, sirve para darse cuenta de como esta la población,
es una pequeña parte de la población.
Cuando hay valores
existe la posibilidad de que los datos se repitan a esto se le llama
frecuencia absoluta. La frecuencia relativa, la cual es el número de
veces que se repite un valor, con respecto al total de los datos.
- La variable es aquella característica que se puede medir, podemos poner como ejemplo la estatura, el tiempo, el peso, etc.
- Numéricas son todas aquellas variables que contienen números.
- Categóricas que son todas aquellas variables que son contables pero son representadas mediante palabras
A su vez estos dos tipos de variables se subdividen en dos.
Las numéricas se dividirán en:
- Discretas que son todas aquellas características que se representaran con números enteros. Ejemplo la edad.
- Continuas que son todas aquellas características que se representaran con numero decimal, por ejemplo la estatura.
Las variables categóricas se derivaran en dos tipos:
- Ordinales que son todos aquellas características que tienen
jerarquía, ya sea de mayor o menor o de menor a mayor. Un ejemplo el
nivel educativo.
- Nominales, que son todas aquellas
características en las que según al criterio de cada quien se pueden
ordenar. Por ejemplo: el sexo.
Cabe mencionar que hay factores que
pueden presentarse en dos tipos de variables, un ejemplo de esto es el
tiempo, ya que el tiempo puede ser representado por número entero o por
continuo, y a estos factores se les llaman ambiguos.
Las medidas de tendencia central son aquellas que nos permiten entender lo que sucede en el centro de esa base de datos.
- La moda: es el valor que se repite con mayor frecuencia. es
utilizada en el valor numérico continuo y discreto, y en los categóricos
ordinal y nominal.
- La mediana es el valor que divide a la
población en dos partes iguales. Se aplicada en la variable numérica
continua y discreta, y categórica ordinal. Esta se describe en
porcentajes del 50% mayor que y el 50% menor que.
- La media : es la
suma de los valores por la cantidad de los mismos. Es utilizada en el
valor numérico continuo y discreto, y en los categóricos ordinal y
nominal. Un ejemplo para transcribir esos datos a cualitativo puede ser
la siguiente, retomando la edad: si tuvieran un mismo numero de años
tendrían 6.7 años.
En datos agrupados se organizara la variable por intervalos. Los intervalos serán de la siguiente manera:
- Menos de 10 4
- De 10-20 5
- De 20-45 6
- De 45-90 7
- De 90-180 8
- De 180-360 9
- De 360-720 10
- Mas de 720 entre 10-20
Estos intervalos servirán de base para elaborar intervalos ajenos a
estos. Para obtener los intervalos se resta el valor mínimo del conjunto
de datos, menos el valor máximo del mismo conjunto, el resultado de
esta resta se dividirá entre el intervalo que corresponda al total del
numero de datos, y al resultado se le sumara 1.
La marca de
clase se obtiene sumando el dato mayor del rango mas el dato menor del
mismo rango, se divide entre dos y esto resultara la marca de clase.
El siguiente paso es multiplicar el valor de la marca de clase por la
frecuencia absoluta de la clase, esta se obtiene sumando el primer valor
de la frecuencia absoluta mas el segundo y el segundo con el tercero, y
así sucesivamente.
Por ultimo se suman todos los resultados que se
obtuvieron a partir de la multiplicación y se divide entre el total de
valores (250,300,…), y así se obtiene la media.
- La moda la
obtenemos a partir de el valor con mas repetitividad, pero este se ubica
en el rango y el resultado será el rango en el que se encuentra el
valor con mayor frecuencia.
- La mediana se obtiene a partir de la
división de todos los datos agrupados entre dos, si es par se tendrá que
utilizar el valor consecutivo del que nos resulto. Este resultado se
ubicara en la tabla de frecuencia acumulada, y se colocara como
resultado el rango a que pertenece el valor. Para rectificar se sumara
el primer valor del rango mas el segundo valor entre dos.
Las
medidas de dispersión son aquellas medidas que nos van a permitir medir
que tan dispersos están los datos. Es decir cuantos datos están a la
derecha y a la izquierda y que tan alejados están de las medidas
centrales.
Estas medidas son:
- Rango: esta se obtiene de la resta de el valor mas grande menos el valor mas pequeño.
- Varianza: es aquel valor numérico que mide la separación con respecto
a la media. Esta se obtiene restando el dato menos la media, y este
resultado se elevara al cuadrado. Este procedimiento se repetirá con
cada uno de los valores, estos resultados se sumaran y se dividirán por
la media menos uno. (DATO-MEDIA=RESULTADO2 = R2
LA SUMATORIA DE R2/MEDIA-1=VARIANZA)
- La desviación es el despeje de la formula de la varianza; si la
varianza es sigma minúscula al cuadrado esta será sigma a la raíz
cuadrada. Esta se obtiene tras la raíz cuadrada de la varianza.
- El
coeficiente es aquel que permitirá comparar la dispersión entre dos
variables. El C.V. se obtiene con la división de la desviación entre la
media y el resultado se multiplicara por cien y se obtendrá el
porcentaje
(C.V.= DESVIACION/MEDIA=RESULTADO (100)=C.V.%). Y este
se describirá de la siguiente manera: existe una variación de % de los
datos con respecto al valor de la media.
La regla de Chevichev
permite alejar la variable aleatoria de la media, mediante el uso de la
media y la desviación estándar, su formula es la siguiente: (x – ks, x +
ks) y el porcentaje se obtiene con la formula (1 – 1/ks). Siendo s=
Desviación y k= un valor mayor a uno. Esta formula va a permitir obtener
intervalos ante una distribución irregular. Y esta se traduce de la
siguiente manera: al menos el (porcentaje) de los datos están entre
(resultado de la primer formula).
Cuando se presenta una
distribución normal se ocupara la regla empírica, la cual sirve para
percibir de manera grafica la desviación estándar que se presenta en los
datos. Su formula es la siguiente:
- (x – desviación), (x + desviación) 68% de los datos
- (x – 2desviación), (x + 2desviacion) 95% de datos
- (x – 3desviación), (x + 3desviación) 99% de los datos
La regla empírica nos va a servir para obtener un porcentaje mas exacto
mediante intervalos, la formula va de acuerdo al porcentaje requerido:
(Media – Varianza ), (Media + Varianza) 68%
(Media – 2Varianza), (Media + 2Varianza) 95%
(Media – 3Varianza), (Media + 3Varianza) 99%
Los resultados de cada una de las formulas serán los intervalos que nos van a dar la siguiente interpretación:
- Al menos el (PORCENTAJE) de los datos se encuentra (o esta en) el interior del intervalo (RESULTADOS DE LA FORMULA).
La regresión lineal es aquella fórmula matemática que nos va ayudar a
entender una hipótesis, ya sea para comprobar o descartar ese
planteamiento.
Es aquella línea que más se asemeja a los datos. Su fórmula es:
Y = a + bx
Primero es necesario obtener los resultados de a, b y r (coeficiente de
correlación lineal), con estos datos y con el dato menor y el dato
mayor de cada columna podemos obtener los intervalos donde se localiza
esa línea que cruza y al mismo tiempo une los puntos que se
establecieron con anterioridad. La regresión lineal requiere de dos
instrumentos base: un diagrama de dispersión, el cual nos ayudara a
percibir de que manera esta la línea de regresión. La línea de regresión
puede ser decreciente (cuando b y r son negativos), y creciente (cuando
b y r son positivos).
R= nos indicara si nuestra correlación es perfecta o nula entre las variables.
No hay comentarios:
Publicar un comentario