miércoles, 5 de diciembre de 2012

Resumen general de Estadística

La estadística es una rama de las matemáticas que se encarga de la jerarquización, analización y recolección de datos que serán de utilidad en una investigación. En la pedagogía, la estadistica es una ciencia fundamental para transformar datos cualitativos en datos cuantitativos. 
La población son todos los valores que toman la variable, y la muestra es una pequeña parte, sirve para darse cuenta de como esta la población, es una pequeña parte de la población.
Cuando hay valores existe la posibilidad de que los datos se repitan a esto se le llama frecuencia absoluta. La frecuencia relativa, la cual es el número de veces que se repite un valor, con respecto al total de los datos.
- La variable es aquella característica que se puede medir, podemos poner como ejemplo la estatura, el tiempo, el peso, etc.
- Numéricas son todas aquellas variables que contienen números.
- Categóricas que son todas aquellas variables que son contables pero son representadas mediante palabras
A su vez estos dos tipos de variables se subdividen en dos.
Las numéricas se dividirán en:
- Discretas que son todas aquellas características que se representaran con números enteros. Ejemplo la edad.
- Continuas que son todas aquellas características que se representaran con numero decimal, por ejemplo la estatura.
Las variables categóricas se derivaran en dos tipos:
- Ordinales que son todos aquellas características que tienen jerarquía, ya sea de mayor o menor o de menor a mayor. Un ejemplo el nivel educativo.
- Nominales, que son todas aquellas características en las que según al criterio de cada quien se pueden ordenar. Por ejemplo: el sexo.
Cabe mencionar que hay factores que pueden presentarse en dos tipos de variables, un ejemplo de esto es el tiempo, ya que el tiempo puede ser representado por número entero o por continuo, y a estos factores se les llaman ambiguos.
Las medidas de tendencia central son aquellas que nos permiten entender lo que sucede en el centro de esa base de datos.
- La moda: es el valor que se repite con mayor frecuencia. es utilizada en el valor numérico continuo y discreto, y en los categóricos ordinal y nominal.
- La mediana es el valor que divide a la población en dos partes iguales. Se aplicada en la variable numérica continua y discreta, y categórica ordinal. Esta se describe en porcentajes del 50% mayor que y el 50% menor que.
- La media : es la suma de los valores por la cantidad de los mismos. Es utilizada en el valor numérico continuo y discreto, y en los categóricos ordinal y nominal. Un ejemplo para transcribir esos datos a cualitativo puede ser la siguiente, retomando la edad: si tuvieran un mismo numero de años tendrían 6.7 años.
En datos agrupados se organizara la variable por intervalos. Los intervalos serán de la siguiente manera:
- Menos de 10 4
- De 10-20 5
- De 20-45 6
- De 45-90 7
- De 90-180 8
- De 180-360 9
- De 360-720 10
- Mas de 720 entre 10-20
Estos intervalos servirán de base para elaborar intervalos ajenos a estos. Para obtener los intervalos se resta el valor mínimo del conjunto de datos, menos el valor máximo del mismo conjunto, el resultado de esta resta se dividirá entre el intervalo que corresponda al total del numero de datos, y al resultado se le sumara 1.

La marca de clase se obtiene sumando el dato mayor del rango mas el dato menor del mismo rango, se divide entre dos y esto resultara la marca de clase.
El siguiente paso es multiplicar el valor de la marca de clase por la frecuencia absoluta de la clase, esta se obtiene sumando el primer valor de la frecuencia absoluta mas el segundo y el segundo con el tercero, y así sucesivamente.
Por ultimo se suman todos los resultados que se obtuvieron a partir de la multiplicación y se divide entre el total de valores (250,300,…), y así se obtiene la media.
- La moda la obtenemos a partir de el valor con mas repetitividad, pero este se ubica en el rango y el resultado será el rango en el que se encuentra el valor con mayor frecuencia.
- La mediana se obtiene a partir de la división de todos los datos agrupados entre dos, si es par se tendrá que utilizar el valor consecutivo del que nos resulto. Este resultado se ubicara en la tabla de frecuencia acumulada, y se colocara como resultado el rango a que pertenece el valor. Para rectificar se sumara el primer valor del rango mas el segundo valor entre dos.

Las medidas de dispersión son aquellas medidas que nos van a permitir medir que tan dispersos están los datos. Es decir cuantos datos están a la derecha y a la izquierda y que tan alejados están de las medidas centrales.
Estas medidas son:
- Rango: esta se obtiene de la resta de el valor mas grande menos el valor mas pequeño.
- Varianza: es aquel valor numérico que mide la separación con respecto a la media. Esta se obtiene restando el dato menos la media, y este resultado se elevara al cuadrado. Este procedimiento se repetirá con cada uno de los valores, estos resultados se sumaran y se dividirán por la media menos uno. (DATO-MEDIA=RESULTADO2 = R2
LA SUMATORIA DE R2/MEDIA-1=VARIANZA)
- La desviación es el despeje de la formula de la varianza; si la varianza es sigma minúscula al cuadrado esta será sigma a la raíz cuadrada. Esta se obtiene tras la raíz cuadrada de la varianza.
- El coeficiente es aquel que permitirá comparar la dispersión entre dos variables. El C.V. se obtiene con la división de la desviación entre la media y el resultado se multiplicara por cien y se obtendrá el porcentaje
(C.V.= DESVIACION/MEDIA=RESULTADO (100)=C.V.%). Y este se describirá de la siguiente manera: existe una variación de % de los datos con respecto al valor de la media.

La regla de Chevichev permite alejar la variable aleatoria de la media, mediante el uso de la media y la desviación estándar, su formula es la siguiente: (x – ks, x + ks) y el porcentaje se obtiene con la formula (1 – 1/ks). Siendo s= Desviación y k= un valor mayor a uno. Esta formula va a permitir obtener intervalos ante una distribución irregular. Y esta se traduce de la siguiente manera: al menos el (porcentaje) de los datos están entre (resultado de la primer formula).
Cuando se presenta una distribución normal se ocupara la regla empírica, la cual sirve para percibir de manera grafica la desviación estándar que se presenta en los datos. Su formula es la siguiente:
- (x – desviación), (x + desviación) 68% de los datos
- (x – 2desviación), (x + 2desviacion) 95% de datos
- (x – 3desviación), (x + 3desviación) 99% de los datos

La regla empírica nos va a servir para obtener un porcentaje mas exacto mediante intervalos, la formula va de acuerdo al porcentaje requerido:
(Media – Varianza ), (Media + Varianza) 68%
(Media – 2Varianza), (Media + 2Varianza) 95%
(Media – 3Varianza), (Media + 3Varianza) 99%
Los resultados de cada una de las formulas serán los intervalos que nos van a dar la siguiente interpretación:
- Al menos el (PORCENTAJE) de los datos se encuentra (o esta en) el interior del intervalo (RESULTADOS DE LA FORMULA).
La regresión lineal es aquella fórmula matemática que nos va ayudar a entender una hipótesis, ya sea para comprobar o descartar ese planteamiento.
Es aquella línea que más se asemeja a los datos. Su fórmula es:
Y = a + bx
Primero es necesario obtener los resultados de a, b y r (coeficiente de correlación lineal), con estos datos y con el dato menor y el dato mayor de cada columna podemos obtener los intervalos donde se localiza esa línea que cruza y al mismo tiempo une los puntos que se establecieron con anterioridad. La regresión lineal requiere de dos instrumentos base: un diagrama de dispersión, el cual nos ayudara a percibir de que manera esta la línea de regresión. La línea de regresión puede ser decreciente (cuando b y r son negativos), y creciente (cuando b y r son positivos).
R= nos indicara si nuestra correlación es perfecta o nula entre las variables.

No hay comentarios:

Publicar un comentario