viernes, 15 de mayo de 2020

BLOQUE TEMÁTICO 2. TEMA 5: ESTADÍSTICOS UNIVARIABLES: MEDIDAS RESUMEN PARA VARIABLES CUANTITATIVAS

ÍNDICE
  1. Resumen numérico de una serie estadística
  2. Medidas de tendencia central
  3. Medidas de posición
  4. Medidas de dispersión
  5. Distribuciones normales
  6. Medidas de Forma (Asimetrías y Curtosis)

1. Resumen numérico de una serie estadística
Además de las tablas podemos resumir una serie de observaciones mediante “estadísticos”: “Función de los datos observados”. Hay tres grandes tipos de medidas estadísticas:
  • Medidas de tendencia central: dan idea de los valores alrededor de los cuales el resto de los datos tienen tendencia a agruparse. = MEDIA, MEDIANA Y MODA.
  • Medidas de posición: dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. CUARTILES, DECILES Y PERCENTILES.
  • Medidas de dispersión o variabilidad: dan información acerca de la heterogeneidad de nuestras observaciones = RANGO, DESVIACIÓN MEDIA, VARIANZA, DESVIACIÓN TÍPICA, COEFICIENTE DE VARIACIÓN.
2. Medidas de tendencia central
- Media aritmética o media: Se calcula para variables cuantitativas y se trata del centro geométrico o de gravedad de nuestros datos. Es la suma de todos valores de la variable observada entre el total de observaciones. Es la medida más calculada y utilizada en estadística descriptiva. 


* Propiedades de la media:
  1. La suma de las desviaciones respecto de la media es igual a cero.
  2. La media no se altera por una transformación lineal de escala: a) Si a un conjunto de datos cuya media es X, se le suma a cada dato una constante K, la media aumenta en K unidades b) Si en un conjunto de datos cuya media es X, se multiplica cada dato por una constante K, la media queda multiplicada por K.
  3. Es muy sensible a las puntuaciones extremas.
* Otras medias:
  • Media geométrica (G): raíz N-ésima del producto de los N valores observados. 

  • Media armónica (H): inverso de la media aritmética de los inversos de los valores de la variable.

  • Media aritmética ponderada (x): media aritmética de la suma del producto de cada valor por el peso o relevancia asignada al mismo. 

- Mediana:  es la puntuación que ocupa la posición central de la distribución. Para poder hallarla necesitamos que nuestros datos estén ordenados, de forma creciente o decreciente. Es el valor de la observación tal que un 50% de los datos es menor y otro 50% es mayor. Si la media y la mediana son iguales, la distribución de la variable es simétrica. A diferencia de la media aritmética, la mediana es más robusta y menos sensible a los valores extremos. Cuando la muestra posee muy pocos datos, o existen valores extremos o datos censurados-truncados, debemos calcular siempre la mediana. Si el número de observaciones es impar el valor de la observación será justamente la observación que ocupa la posición (n+1)/2. Si el número de observaciones es par, el valor de la mediana corresponde a la media entre los dos valores centrales, es decir, la media entre la observación n/2 y la observación (n/2)+1.

- Moda: Es el valor con mayor frecuencia (que más veces se repite). Las distribuciones que contienen una sola moda se llaman unimodales. Si hay más de una se dice que la muestra es bimodal (dos modas) o multimodal (más de dos). Se puede calcular para cualquier tipo de variable. Es la medida de tendencia central menos empleada. En una distribución unimodal simétrica, los valores de la media aritmética, mediana y moda coinciden. Si los datos están agrupados, se habla de clase modal y corresponde al intervalo en el que el cociente entre la frecuencia relativa y la amplitud es mayor (hi/ci). 

3. Medidas de posición
Cuantiles: Se calculan para variables cuantitativas y, al igual que la mediana, sólo tienen en cuenta la posición de los valores en la muestra. Se define el cuantil de orden “n” como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada n. Los cuantiles más usuales son los percentiles, los deciles y los cuartiles, según dividan la muestra ordenada en 100, 10 ó 4 partes, respectivamente.
  • Percentiles: Dividen la muestra ordenada en 100 partes. Los percentiles son los 99 puntos o valores que dividen la distribución en cien partes iguales. Se representan por P(n). El percentil “i” (Pi), es aquél valor que, ordenadas las observaciones en forma creciente, el i% de ellas son menores que él y el (100-i)% restante son mayores. Para buscar la posición de un percentil en una serie de datos agrupados, buscamos el intervalo en el que la frecuencia relativa acumulada (Hi) sea superior al valor del percentil. El valor del P50 corresponde al valor de la mediana.

  • Deciles: Dividen la muestra ordenada en 10 partes. Los deciles son los nueve valores que dividen a la distribución en diez partes iguales. Cada parte incluye el 10% de los valores de la distribución. Se representan por la letra D. – El decil “i” (Di), es aquél valor que, ordenadas las observaciones en forma creciente, el i/10% de ellas son menores que él y el (100-i)/10% restante son mayores. El valor del D5corresponde al valor de la mediana y, por tanto, al del P50.
  • Cuartiles: Dividen la muestra ordenada en 4 partes. Son los tres valores que dividen la distribución en cuatro partes iguales, cada parte incluye el 25% de los valores de dicha variable. Se representan por Q1, Q2 y Q3. El Q1, primer cuartil indica el valor que ocupa una posición en la seria numérica de forma que el 25% de las observaciones son menores y que el 75% son mayores. El Q2, segundo cuartil indica el valor que ocupa una posición en la seria numérica de forma que el 50% de las observaciones son menores y que el 50% son mayores. Por tanto, el Q2 coincide con el valor del D5, con al valor de la mediana P50. El Q3, tercer cuartil indica el valor que ocupa una posición en la seria numérica de forma que el 75% de las observaciones son menores y que el 25% son mayores. El Q4, cuarto cuartil indica el valor mayor que se alcanza en la seria numérica.

4. Medidas de dispersión
- Rango o recorrido (R): Es la medida de dispersión más simple y consiste en tomar la puntuación mayor y restarle la puntuación menor. Es el recorrido de una variable. La principal limitación del rango es que al tener en cuenta solamente los valores más alto y más bajo, se ve dramáticamente afectado por los valores extremos. Recorrido intercuartílico (RI): Diferencia entre el tercer y el primer cuartil= |Q3- Q1|.

- Rango Semiintercuartil: También conocido como desviación cuartil, o espectro semicuartil. En su cálculo utiliza los valores intermedios y no extremos, lo que le confiere mayor estabilidad que el rango. 

- Desviación media (DM): Es la media aritmética de las distancias de cada observación con respecto a la media de la muestra.


- Varianza (S2): Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución. 

Siempre tiene un valor positivo Se mide en unidades de la variable estudiada (al cuadrado). Cuanto menor sea la varianza mayor homogeneidad y menor dispersión. Denominador de la varianza: n para la muestra (s2) y n-1 para la población: varianza insesgada o cuasivarianza.

- Desviacion típica o estándar (S): Expresa la dispersión de la distribución mediante un valor que siempre es positivo y en las mismas unidades de medida de la variable, siendo la medida de dispersión más utilizada en estadística descriptiva. Cuando los datos están muy alejados de la media, el numerador será grande y la varianza y la desviación típica también lo serán. Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica.


* Propiedades: 
  1. La desviación típica será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales. 
  2. Si a todos los valores de la variable se les suma un número la desviación típica no varía. 
  3. Si todos los valores de la variable se multiplican por un número la desviación típica queda multiplicada por dicho número.
* Observaciones de la desviación típica 
  1. La desviación típica, al igual que la media y la varianza, es un índice muy sensible a las puntuaciones extremas. 
  2. En los casos que no se pueda hallar la media tampoco será posible hallar la desviación típica.
  3. Cuanta más pequeña sea la desviación típica mayor será la concentración de datos alrededor de la media.
- Coeficiente de variación (CV): También recibe el nombre de variabilidad relativa, puesto que es una medida de dispersión relativa de los datos. Se calcula dividiendo la desviación típica entre la media de la muestra, y expresado en porcentaje. El CV es un medida adimensional y nos permite comparar la dispersión o variabilidad de dos o más grupos. Sin embargo, no debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente.

5. Distribuciones normales
En estadística se llama distribución normal, distribución de Gauss o distribución gaussiana, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales. La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto de los valores posición central (media, mediana y moda, que coinciden en estas distribuciones). Esta curva se conoce como campana de Gauss.


6. Medidas de Forma (Asimetrías y Curtosis)
Las medidas de forma indican si la distribución es simétrica (coeficiente de sesgo) y el grado de apuntamiento, tomando siempre como referencia la curva normal.


- Asimetrías: Coeficiente de asimetría de una variable: Grado de asimetría de la distribución de sus datos en torno a su media. Las distribuciones asimétricas también se llaman sesgadas, y se caracterizan porque el pico de la misma se encuentra descentrado (no simétrica), apareciendo una cola más larga que la otra. Es adimensional y adopta valores entre -1 y 1.
Interpretación del coeficiente de asimetría: 

  • g 1 = 0 (distribución simétrica; existe la misma concentración de valores a la derecha y a la izquierda de la media).

  • g1 > 0 (distribución asimétrica positiva; La cola de la distribución es más larga hacia la derecha y los valores más elevados quedan a la izquierda).


  • g1 < 0 (distribución asimétrica negativa; La cola de la distribución es más larga hacia la izquierda y los valores más elevados quedan a la derecha).


- Curtosis o apuntamiento: Coeficiente de apuntamiento o curtosis de una variable, sirve para medir el grado de concentración de los valores que toma en torno a su media. Se elige como referencia una variable con distribución normal, de modo que para ella el coeficiente de curtosis es 0. Adopta también valores entre -1 y 1. Es una medida adimensional.
Los resultados pueden ser los siguientes: 



  • g 2 = 0 (distribución mesocúrtica). Presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal). 

  • g2 > 0 (distribución leptocúrtica ). Presenta un elevado grado de concentración alrededor de los valores centrales de la variable. 


  • g2 < 0 (distribución platicúrtica). Presenta un reducido grado de concentración alrededor de los valores centrales de la variable.



No hay comentarios:

Publicar un comentario