martes, 26 de mayo de 2020

BLOQUE TEMÁTICO 3. TEMA 10: ESTIMACIÓN Y/O SIGNIFICACIÓN ESTADÍSTICA

ÍNDICE
  1. Significación estadística
  2. Contraste de hipótesis
  3. Errores de hipótesis
  4. Métodos de contraste de hipótesis
1. Significación estadística
Está relacionada con el resultado del estudio. Así, cuando se dice que la p < 0.05, estamos afirmando que el resultado del estudio se cumple, al menos, en el 95% de los casos. Una de las dos formas de inferencia estadística (la otra es la estimación puntual y/o por intervalos). Permite contrastar hipótesis y relacionarlo con el método científico. Se parte de la hipótesis nula, frente a la hipótesis alternativa. Permite calcular el nivel de significación y tomar decisiones, cuantificando el error.
2. Contraste de hipótesis
Nos permite decidir si los resultados obtenidos son fruto de la causalidad (por una relación causa-efecto) o de la casualidad (por azar). Son herramientas estadísticas para responder a preguntas de investigación: permite cuantificar la compatibilidad entre una hipótesis previamente establecida y los resultados obtenidos. Sean cuales sean los deseos de los investigadores, el test de hipótesis siempre va a contrastar la hipótesis nula (la que establece igualdad entre los grupos a comparar, o lo que es lo mismo, la no que no establece relación entre las variables de estudio).

  • La hipótesis nula (H0): no existen diferencias significativas entre los resultados obtenidos en la prac1ca y los resultados teóricos 
  • La hipótesis de investigación o alternativa (H1 o Ha): afirma que la media de la población es un valor diferente al hipotético.
Se utiliza la prueba estadística correspondiente y se mide la probabilidad de error al rechazar la hipótesis nula, asociada al valor de p. Según el nivel de significación que hayamos preestablecido (habitualmente un 95%) las soluciones pueden ser: 
  • p>0,05: en este caso no podemos rechazar la hipótesis nula (no podemos decir que sea cierta, sino que no podemos rechazarla). 
  • p<0,05: en este caso rechazamos la hipótesis nula, por lo que debemos aceptar la hipótesis alternativa.
FASE 1 
Formular nuestra hipótesis nula a partir de la hipótesis de investigación o alternativa.
Hipótesis nula = nulas (no hay) diferencias. Normalmente se expresa de la siguiente forma, H0: μA = μB.
Hipótesis de investigación o alterna,va (H1 o Ha) la que afirma que la media de la población es un valor diferente al hipotético. Se suele expresar de la siguiente forma, H1: μA ≠μB.

* Contraste bilateral: 
Se presenta cuando la hipótesis nula es del tipo H0: μ = μ0       H0: p = p0 
La hipótesis alternativa, por tanto, es del tipo H1: μ≠ μ0           H1: p≠ p0 
El nivel de significación α se concentra en dos partes (o colas) simétricas respecto de la media.

* Formulación de H0:          H0: μA ≤ μB (porque la H1: μA>μB)
La hipótesis nula postula entonces que B es igual de eficaz que A, lo que se expresa:   H0: μA = μB

FASE 2 
H0 se calcula, mediante el estadístico de contraste más apropiado, la probabilidad de que los resultados observados puedan deberse al azar. Un estadístico de contraste de hipótesis o de significación estadística es una medida estandarizada de la discrepancia que hay entre la hipótesis nula y el resultado de la diferencia de medias obtenido en la muestra.
El estadístico de contraste se elige por:
- La escala de medida y el tipo de variables. 
- La independencia o dependencia de las medidas. 
- El aspecto de la distribución de la variable dependiente.

En el caso de que estos supuestos no se cumplan, se utilizan los contrastes no paramétricos, que permiten poner a prueba hipótesis no referidas a parámetros poblacionales (en estos casos la distribución de frecuencias de la variable dependiente puede asemejarse a la distribución de Poisson o a la de t de Student).


FASE 3 

3. Errores de hipótesis
Con una misma muestra podemos aceptar o rechazar la hipótesis nula, todo depende de un error, al que llamamos α. 
- El error α es la probabilidad de equivocarnos al rechazar la hipótesis nula.
- El error tipo I que consiste en decir que existen diferencias estadísticamente significativas (porque realmente síexisten en la muestra que se ha tomado) cuando realmente esto no es cierto.
- El error tipo II en el que se indica que no existen diferencias (en la muestra no se hallan diferencias estadísticamente significativas), cuando realmente esto no es cierto. A este &po de error también se le conoce como error β.
- El error α más pequeño al que podemos rechazar H0 es el error p. Habitualmente rechazamos H0 para un nivel α máximo del 5% (p<0,05). Es lo que llamamos “significación estadística”.

* Tipos de errores en test de hipótesis


4. Método de contraste de hipótesis

PASO 1

Expresar el interrogante de la investigación como una hipótesis estadística:
  • H0: No hay diferencia
  • H1: Hay diferencia 
PASO 2
Decidir sobre la prueba estadística adecuada según la población y el tipo de variables.

* Tipos de análisis estadísticos según el tipo de variables implicadas en el estudio

PASO 3
Seleccionar el grado de significación para la prueba estadística. El grado de significación = alfa= probabilidad de rechazar de manera incorrecta H0 cuando sea cierta (normalmente 0.05, 0.01, 0.001).

PASO 4
Realizar los cálculos y exponer conclusiones.




lunes, 25 de mayo de 2020

BLOQUE TEMÁTICO 3: ANÁLISIS DE DATOS II: INFERENCIA Y ESTIMACIÓN DE DATOS CUANTITATIVOS Y CUALITATIVOS. TEMA 9: INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA. INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS

ÍNDICE
  1. Inferencia estadística
  2. Estimación puntual
  3. Error estándar
  4. Teorema central del límite
  5. Intervalos de confianza
  6. Contraste de hipótesis
1. Estadística inferencial

Es el conjunto de procedimientos estadísticos que permiten pasar de lo particular, la muestra, a lo general, la población.
- Población: Conjunto de personas, sujetos o unidades que presentan una característica común. Puede ser finita o infinita.
- Muestra: Subconjunto extraído y seleccionado de una población a la que representa.
  • Muestra Independiente: Está formada por datos independientes, o sea, aquellos obtenidos tras una única observación.
  • Muestra apareada o dependiente: Está constituida por datos apareados (también llamados dependientes o emparejados). Comparan el mismo grupo de sujetos en dos tiempos diferentes (por ejemplo antes y después de una intervención), o bien son grupos muy relacionados entre sí.
Hay 2 formas de inferencia estadística:

- ESTIMACIÓN: Parámetro - - Estimador

  • Estadístico o Estimador: Índice que representa una información de la muestra estudiada. Suelen expresarse mediante letras del alfabeto latino. Propiedades deseables: Insesgadez, Eficiente, Consistencia.
  • Parámetro: Cada uno de los estadísticos que tras inferirse, nos proporcionan información sobre la población. A diferencia de los estadísticos, éstos se representan mediante letras del alfabeto griego.



- CONTRASTE DE HIPÓTESIS





2. Estimaciones
Proceso de utilizar información de una muestra para extraer conclusiones acerca de toda la población. Se utiliza la información recogida para estimar un valor. Puede realizarse:  
  • Estimación puntual: Consiste en considerar al valor del estadístico muestral como una estimación del parámetro poblacional. Significa manejo de incertidumbre e imprecisión.

  • Estimación por intervalos: Consiste en calcular dos valores entre los cuales se encuentra el parámetro poblacional que queremos estimar con una probabilidad determinada, habitualmente el 95%. Se pueden crear para cualquier parámetro de la población. Se utilizan como indicadores de la variabilidad de las estimaciones. Cuanto más “estrecho” sea, mejor.

  • Cálculo de intervalos de confianza (explicado más abajo)
3. Error estándar
Es la medida que trata de captar la variabilidad de los valores del estimador. El error estándar de cualquier estimador mide el grado de variabilidad en los valores del estimador en las distintas muestras de un determinado tamaño que pudiésemos tomar de una población. Cuanto más pequeño es el error estándar de un estimador, más nos podemos fiar del valor de una muestra concreta.

* Cálculo del error estándar
Depende de cada estimador. 
- Error estándar para una media:
- Error estándar para una proporción: se aplica cuando las variables del estudio son cualitativas o atributos, en consecuencia no podemos cuantificarlos para obtener su media aritmética.
 P es el porcentaje o proporción a estimar.

4. Teorema central del límite 
Para estimadores que pueden ser expresados como suma de valores muestrales, la distribución de sus valores sigue una distribución normal con media de la de la población y desviación típica igual al error estándar del estimador de que se trate. Si sigue una distribución normal, sigue los principios básicos de ésta: 
– ± 1S: 68,26% de las observaciones
– ± 2S: 95,45% de las observaciones
– ± 1,95S: 95% de las observaciones
– ± 3S: 99,73% de las observaciones 
– ± 2,58S: 99% de las observaciones


5. Intervalos de confianza
Son un medio de conocer el parámetro en una población midiendo el error que tiene que ver con el azar (error aleatorio). Se trata de un par de números tales que, con un nivel de confianza determinados, podamos asegurar que el valor del parámetro es mayor o menor que ambos números. Se calcula considerando que el estimador muestral sigue una distribución normal, como establece la teoría central del límite Para construir un intervalo de confianza del 95% o del 99% se aplica la fórmula: 
Para nivel de confianza 95%    z=1,96
Para nivel de confianza 99%    z=2,58
(Z es un valor que depende del nivel de confianza 1-a con que se quiera dar el intervalo)

6. Contrastes de hipótesis
Para controlar los errores aleatorios, además del cálculo de intervalos de confianza, contamos con una segunda herramienta en el proceso de inferencia estadística: los tests o contrastes de hipótesis. Con los intervalos nos hacemos una idea de un parámetro de una población dando un par de números entre los que confiamos que esté el valor desconocido. Con los contrastes (tests) de hipótesis la estrategia es la siguiente: 
- Establecemos a priori una hipótesis acerca del valor del parámetro.
- Realizamos la recogida de datos.
- Analizamos la coherencia de entre la hipótesis previa y los datos obtenidos.

BLOQUE TEMÁTICO 2. TEMA 8: TEORÍA DE MUESTRAS

ÍNDICE
  1. Estimación e inferencia estadística 
  2. Procedimiento muestral
  3. Tipos de muestreo
  4. Tamaño de la muestra
1. Estimación e inferencia estadística
El el conjunto de procedimientos que permiten elegir muestras de tal forma que éstas reflejen las características de la población le llamamos técnicas de muestreo. Siempre que trabajamos con muestras (no estudiamos el problema en toda la población sino en una parte de ella) hay que asumir un cierto error. Si la muestra se elige por un procedimiento de azar, se puede evaluar ese error. La técnica de muestreo en ese caso se denomina muestreo probabilístico o aleatorio y el error asociado a esa muestra elegida al azar se llama error aleatorio En los muestreos no probabilísticos no es posible evaluar el error. En los muestreos probabilísticos, el error aleatorio es inevitable pero es evaluable.


2. Procedimiento muestral
Un muestreo es un método tal que al escoger un grupo pequeño de una población podamos tener un grado de probabilidad de que ese pequeño grupo posea las características de la población que estamos estudiando.

3. Tipos de muestreo
- Muestreo Probabilístico: Todas las unidades que componen la población tienen una probabilidad de ser elegidas y se puede calcular de antemano. Hay 3 tipos:
  • Muestreo Aleatorio: Como su propio nombre indica, en la selección de los sujetos interviene el azar. Hay 2 tipos: Simple: seleccionar al azar (tabla numero / pc) la n (muestra). Se usa poblaciones pequeñas. El más representativo, pero tiene desventajas: listados todas las unidades / costos por dispersión población / grupos minoritarios no representados. Sistemático: seleccionar individuos según una regla o proceso. En los sistemáticos la ventaja es que  no hace falta tener la lista completa.
  • Muestreo Estratificado: Se utiliza cuando la característica objeto de estudio no se distribuye de forma homogénea en la población y puede afectar a los resultados del estudio, pero existen grupos o estratos donde se si presenta de manera homogénea. Estos grupos tienen alguna característica en común pero son mutuamente excluyentes. Su ventaja es conocer como se comporta una variable en cada subgrupo de la población con precisión, pero también presenta una desventaja:  necesita mas información y un listado de cada individuo de la población.
  • Muestreo Conglomerados: Se obtiene de grupos o conglomerados ya establecidos cuando no hay listado de la población. Se usa en poblaciones muy dispersas o no hay listado completo individuos pero si de los grupos (unidades de un hospital). Su desventaja es que  no se conoce de antemano el tamaño de la muestra que se va a obtener ya que el tamaño depende de los grupos seleccionados. Necesita un mayor tamaño de la muestra para ser preciso. Las inferencias que se hacen en una muestra conglomerada no son tan confiables como las que se obtienen en un estudio hecho por muestreo aleatorio debido a que no son realmente homogéneas.

- Muestreo no Probabilístico: Las unidades que componen la población tienen diferente probabilidad de ser elegidas ya que no solo interviene el azar sino también otras condiciones. No se puede calcular la probabilidad de antemano y no todos los elementos tienen alguna posibilidad de ser incluidos. (dudosa representatividad). Hay 5 tipos:
  • Muestreo Consecutivo: El más utilizado. Si se hace bien puede ser la representatividad de la muestra puede ser semejan al del muestreo probabilístico. Se recluta a todos los individuos de una población que son accesibles y que cumplen los criterios de inclusión durante un periodo de reclutamiento fijado. Presenta 2 desventajas: Que no se haga de forma enteramente consecutiva sino que haya interrupciones, y que el periodo de reclutamiento corto o que haya fluctuaciones.
  • Muestreo de conveniencia o accidental: Se recluta a los individuos que son mas accesibles para el equipo investigador o que se presentan voluntariamente. Se usa con frecuencia al ser el menos costoso y mas fácil. Su desventaja es que es poco sólida ya que requiere de una gran homogeneidad de la variable estudiada en la población. Genera sesgos importantes.
  • Muestreo intencional o a criterio: El propio investigador es quien selecciona a los individuos al considerarlo los mas apropiados. Se usa cuando se quiere contar con una muestra de expertos o en estudios cualitativos. Su desventaja es que  puede no contar con un método externo y objetivo para valorar la idoneidad de los sujetos.
  • Muestreo bola de nieve, de avalancha o muestreo en cadena: El propio investigador elige a un participante que cumpla los criterios de inclusión y al mismo tiempo se le pide que identifique a otros individuos con sus mismas características para invitarles a participar y así sucesivamente hasta que se tenga recogida la muestra. Muy utilizada en estudios cualitativos. Tiene la gran ventaja de que se puede acceder a parte la población con difícil acceso o difíciles de identificar (poblaciones marginadas como sectas), pero también presenta 2 desventajas: La muestra puede ser reducida debido a la reducida red de contactos, y la calidad de los participantes condicionada por la invitación de otros a confiar en el investigador.
  • Muestreo teórico: la selección de la muestra se hace de forma gradual debido a que el propósito del estudio es la generación de una teoría o porque la integración de la muestra se va diciendo sobre la marcha. Los participantes deben cubrir todas las características, perfiles y patrones que puedan influir de el fenómeno estudiado.
4. Tamaño de la muestra
Va a depender de: 
- El error aleatorio (estándar)
- De la mínima diferencia entre los grupos de comparación que se considera importante en los valores de la variable a estudiar
- De la variabilidad de la variable a estudiar (varianza en la población)
- El tamaño de la población de estudio

El cálculo del tamaño de una muestra para estimar la media de una población: 

- Z es un valor que depende del nivel de confianza 1-a con que se quiera dar a los intervalos calculados a partir de estimadores de esa muestra (Para nivel de confianza 95% z=1,96 y para nivel de confianza 99% z=2,58) 
- S^2 es la varianza poblacional 
- e es el error máximo aceptado por los investigadores en las diferencias entre los grupos de comparación de la variable a estudiar 
- Si tras esta operación se cumple el resultado: N > n (n1), el cálculo del tamaño muestral termina aquí 
- Si no se cumple, obtendremos el tamaño de la muestra con esta fórmula: n´= n / 1+(n/N)

Para calcular el tamaño de una muestra cuando queremos estimar una proporción:
- p es la proporción de una categoría de la variable
- 1-p es la proporción de la otra categoría 
- z es el valor que depende del nivel de confianza 1-alfa
- N es el tamaño de la población
- e es el error máximo aceptado por los investigadores en las diferencias entre los grupos de comparación de la variable a estudiar

domingo, 24 de mayo de 2020

BLOQUE TEMÁTICO 2. TEMA 7: TEORÍA DE LA PROBABILIDAD

ÍNDICE
  1. Probabilidad
  2. Probabilidad subjetiva o personalística
  3. Probabilidad clásica o "a priori"
  4. Ley de los grandes números
  5. Probabilidad relativa o "a posteriori"
  6. Eventos o sucesos
  7. Reglas básicas: Teoría de la Probabilidad
  8. Probabilidad condicionada
  9. Teorema de Bayes
  10.  Distribución binomial
  11.  Distribución de Poisson
  12. Distribuciones normales
1. Probabilidad
Si no existe la certeza de que ocurran los hechos, existe una esperanza dimensionada y razonable, de que el hecho anunciado se vea confirmado: esto es conocido como probabilidad. Se expresa mediante un número entre 0 y 1 (o en porcentajes). Esta estimación sobre la probabilidad de ocurrencia del evento nos ayuda a tomar decisiones y por tanto a tomar decisiones al disminuir la incertidumbre y el riesgo de equivocarnos. Cuanto más probable es que ocurre un evento, su medida de ocurrencia estará más próximo a 1 o al 100% y cuanto menos probable, más se aproxima al cero. Aunque el concepto es simple, ya que se usa de manera intuitiva, su definición es complicada y tiene tres vertientes:

2. Probabilidad subjetiva o personalística
La probabilidad mide la confianza que el individuo tiene sobre la certeza de una proposición determinada. Este concepto de las probabilidades ha dado lugar al enfoque de análisis de datos estadísticos llamado “Estadística Bayesiana”.
Data del siglo XVIII (Laplace, Pascal, Fermat), desarrollada para resolver problemas relacionados con los juegos de azar (dados, monedas, ruletas…). Las probabilidades se calculan con un razonamiento abstracto.

3. Probabilidad clásica o "a priori"
Si un evento puede ocurrir de N formas, las cuales se excluyen mutuamente y son igualmente probables, y si m de esos eventos poseen una característica E, la probabilidad de ocurrencia de E es igual a m/N. 



4. Ley de los grandes números
La probabilidad a priori de que salga un número en el dado 1 6 es P(A) = = 0,166 = 16,6 % Inicialmente esa probabilidad real puede no cumplirse pero si repetimos muchas veces el experimento, la frecuencia relativa de un suceso A, cualquiera, tiende a estabilizarse en torno al valor “a priori”. 
5. Probabilidad relativa o "a posteriori"
Si un suceso es repetido un GRAN número de veces, y si algún evento resultante, con la característica E, ocurre m veces, la frecuencia relativa de la ocurrencia E, m/n, es aproximadamente igual a la probabilidad de ocurrencia de E. 
(Si n es suficientemente grande)

Por lo tanto, si el número de determinaciones (repeticiones de un experimento aleatorio) es grande, podemos esperar que la probabilidad observada se acerque a la probabilidad teórica.


6. Eventos o sucesos
Cuando se realiza un experimento aleatorio diversos resultados son posibles. El conjunto de todos los resultados posibles se llama espacio muestral (S). Se llama suceso o evento: a un subconjunto de dichos resultados. Hay 3 tipos: 
  • Evento complementario de un suceso A, formado por los elementos que no están en A y se denota Ac. 
  • Evento unión de A y B, formado por los elementos que están en A o en B (incluyendo todos los que están en ambos).
  • Evento intersección de A y B, formado por los elementos que están en A y B. 

* Tipos de sucesos:

  • Sucesos independientes: lanzar dos dados, tener 20 años y los ojos azules
  • Sucesos dependientes (ej): extraer dos cartas de una baraja sin reposición, por ejemplo ser mujer y sufrir cáncer de mama.
  • Sucesos compatibles: tienen algún suceso elemental común.
  • Sucesos incompatibles o excluyentes: ningún suceso elemental común (A y B son contrarios).

  • Unión de sucesos: es el suceso formado por todos los elementos de A y de B.

  • Intersección de sucesos: es el suceso formado por todos los elementos que son, a la vez, de A y B.
7. Reglas básicas: Teoría de la Probabilidad
- Las probabilidades de un evento o suceso siempre oscilan entre 0 y 1
- La probabilidad de que un evento o suceso sea seguro es = a 1
- La probabilidad de un suceso o evento imposible es = 0
- La unión de A y B es: – P(AUB)=P(A)+P(B)-P(A П B) 
- La probabilidad de un suceso contrario o del complemento es igual a 1 menos la probabilidad del suceso – P (A´)= 1-P(A) 
- La probabilidad de que ocurra el suceso A si ha ocurrido el suceso B se denomina probabilidad condicionada I y se define: 

8. Probabilidad condicionada
Es la probabilidad de que ocurra un evento A, sabiendo que también sucede otro evento B. La probabilidad condicional se escribe P(A|B) o P(A/B), y se lee «la probabilidad de A dado B». No tiene por qué haber una relación causal o temporal entre A y B. A puede preceder en el tiempo a B, sucederlo o pueden ocurrir simultáneamente. A puede causar B, viceversa o pueden no tener relación causal. Las relaciones causales o temporales son nociones que no pertenecen al ámbito de la probabilidad. Pueden desempeñar un papel o no, dependiendo de la interpretación que se le dé a los eventos. El condicionamiento de probabilidades puede lograrse aplicando el teorema de Bayes.

9. Teorema de Bayes
Expresa la probabilidad condicional de un evento aleatorio A dado B en términos de la distribución de probabilidad condicional del evento B dado A y la distribución de probabilidad marginal de sóloA. En términos más generales el teorema de Bayes que vincula la probabilidad de A dado B con la probabilidad de B dado A.

10. Distribución binomial
Es un modelo matemático de distribución teórica de (la normal es con variables continuas) variables discretas:
- Cuando se producen situaciones en las que sólo existen dos posibilidades (cara/cruz; sano/enfermo…). 
- El resultado obtenido en cada prueba es independiente de los resultados obtenidos anteriormente. 
- La probabilidad del suceso A es constante, la representamos por p, y no varía de una prueba a otra.
- La probabilidad de `A es 1- p y la representamos por q .
- El experimento consta de un número n de pruebas.
Mediante esta distribución se resuelven los problemas que plantean: Si al hacer un experimento hay una probabilidad p de que ocurra un suceso ¿Cuál es la probabilidad de que en N experimentos el suceso ocurra X veces? 
  • P: probabilidad de ocurrencia; q de no ocurrencia 
  • X: número sucesos favorables 
  • N: número total de ensayos


11. Distribución de Poisson
La distribución de Poisson se utiliza en situaciones donde los sucesos son impredecibles o de ocurrencia aleatoria (no se sabe el el total de posibles resultados). Permite determinar la probabilidad de ocurrencia de un suceso con resultado discreto (variable discreta). Es muy útil cuando la muestra o segmento n es grande y la probabilidad de éxitos p es pequeña. Se utiliza cuando la probabilidad del evento que nos interesa se distribuye dentro de un segmento n dado. También se llama la distribución de probabilidad de casos raros.

12. Distribuciones normales

* Tipificación de valores en una normal:
Extrapolando aparecen los principios básicos de las distribuciones normales y podemos tipificar valores de una normal: 
– ± 1S: 68,26% de las observaciones
– ± 2S: 95,45% de las observaciones
– ± 1,95S: 95% de las observaciones
– ± 3S: 99,73% de las observaciones 
– ± 2,58S: 99% de las observaciones

La tipificación de la valores se puede realizar sí … 
- Trabajamos con una variables continuas que: 
  • Sigue una distribución normal (TLC) 
  • Y tiene más de 100 unidades (LGN) 

- La tipificación nos permite conocer si otro valor corresponde o no a esa distribución de frecuencia
Sabemos por la forma de la curva que la media coincide con lo más alto de la campana (8) y que la desviación típica es de 2 puntos
– El 50% tiene puntuaciones>8
– El 50% tiene puntuaciones<8
– Aproximadamente el 68% puntúa entre 6 y 10
  • Media +/- 1 desviación típica: 68%
            – 8+/-1: 6-10
  • Media +/- 2 desviación típica: 95% 
           – 4-12
  • Media +/- 3 desviación típica: 99%
          – 2-14

lunes, 18 de mayo de 2020

BLOQUE TEMÁTICO 2. TEMA 6: REPRESENTACIÓN GRÁFICA DE LA INFORMACIÓN

ÍNDICE
  1. Representaciones gráficas
  2. Representaciones gráficas más empleadas

1. Representaciones gráficas
- Forma rápida de comunicar información numérica (frecuencias).
- Son la imagen de las ideas (barras, histogramas, sectores...).
- Complementan el análisis estadístico, aumentando la información y ofreciendo orientación visual.
- No reemplaza a las medidas estadísticas que deben ser calculadas.
- Normas básicas: 
  • Visualmente claros.
  • Claramente descritos en pie de figura y en texto.
  • Representar gráficamente las conclusiones del estudio. 
  • Evitar gráficos confusos, no sobrecargarlos.
2. Representaciones gráficas más empleadas
- VARIABLES CUALITATIVAS: 
  • Gráfico de sectores (dicotómicas o policotómicas con pocas categorías): El área de cada sector circular es proporcional a la frecuencia (absoluta o relativa) de las categorías de la variable. No se usa con variables ordinales. No es recomendable para más de 3 ó 4 categorías. Sólo muestra una variable a la vez. Si se quiere hace comparaciones se tienen que hacer dos diagramas de sectores.

  • Gráfico de barras (policotómicas): Se usa también en variables cualitativa Ordinales con este tipo de gráficos evitamos que se pierda los atributos de orden o jerarquía. Las frecuencias absolutas o relativas de todas las categorías de una variable cualitativa se muestran fácilmente con este tipo de gráfico. Cada barra representa una categoría y su altura la frecuencia (absoluta o relativa). Las barras deben estar separadas. Es importante que el eje Y empiece en la frecuencia 0. 

  • Pictogramas (policotómicas): Es un tipo de gráfico, que en lugar de barras, utiliza figuras proporcionales a la frecuencia. Generalmente se emplea para representar variables cualitativas. Este tipo de gráfico no permite buenas comparaciones. Para realizar su gráfica primero se deben escoger las figuras que sean alusivas al tema y se les asigna un valor. En caso de que una cantidad represente un valor menor, la figura aparecerá desvirtuada.


- VARIABLES CUANTITATIVAS: 
  • Gráfico de barras (sólo para variables discretas con bajo rango de valores). 
  • Histogramas (variables continuas): El mas usado porque sencillo de interpretar. Sucesión de rectángulos contiguos construidos sobre una recta. Representa a una variable continua con sus datos agrupados en intervalos. La base de cada rectángulo representa la amplitud de cada intervalo y la altura está determinada por la frecuencia. Cada intervalo representado en el histograma ocupa un rectángulo. Es igual que diagrama de barras en cuanto al tipo de frecuencias que se pueden utilizar, la diferencia es que es para variables continuas. Si la amplitud del intervalo es la misma, elevaremos columnas unidas, a altura la frecuencia correspondiente. Si la amplitud del intervalo es diferente, el área del rectángulo columna será proporcional a la frecuencia representada.

  • Polígonos de frecuencia (variables continuas): Une los puntos medios de las bases superiores de los rectángulos. Se acostumbra a prolongar el polígono hasta puntos de frecuencia cero. Un polígono de frecuencia permite ver con gran claridad las variaciones de la frecuencia de una clase a otra. Son muy útiles cuando se pretende comparar dos o más distribuciones, ya que, así como es difícil representar dos o más histogramas en un mismo gráfico, resulta muy sencillo hacerlo con dos o más polígonos de frecuencias. La suma de las áreas de los rectángulos de un histograma es igual al área limitada por el polígono de frecuencias y el eje X. El polígono de frecuencias resume, en una sola línea, el resultado del histograma correspondiente.

Los histogramas y los polígonos de frecuencia pueden representarse en una misma gráfica: 

  • Gráfico de tronco y hojas (variables continuas): Representación de la variable cuantitativa continua (ejemplo Talla). En la primera columna se representan los tallos (que corresponden en nuestro caso al primer dígito). En la segunda las hojas (en este caso el segundo dígito). Es un diagrama híbrido entre una tabla (información ordenada) y una gráfica (parecida al histograma). Tiene la ventaja de no perder información individual, identifica la distribución de los datos (posible media y mediana) y si existen clases faltantes. Esto hace que para muchos autores sea la representación gráfica de elección. Es un híbrido entre tabla e histograma: nos muestra la forma de la distribución y los valores de la variable. Cada dato de la serie se divide en dos partes: el tronco (decenas) y la hoja (unidades). 

- DATOS BIDIMENSIONALES Y MULTIDIMENSIONALES: 
  • Tendencias temporales 


  • Nubes de puntos (scatter plot): Para representar el comportamiento de dos variables continuas en un grupo de individuos. En el eje “x” se representa la variable independiente y en el eje “y” los valores de la variable dependiente. La imagen del diagrama nos da una posible idea de la correlación entre las dos variables.

La correlación de los puntos puede ser:

  • Otros gráficos multidimensionales (diagramas de estrellas…): Para representar un conjunto de variables cuantitativas y comparar entre diferentes unidades de análisis (individuos o conglomerados). ü Cada variable representa un vértice del diagrama de estrella . Gráficamente da una idea del comportamiento conjunto de las variables estudiadas. También permite comparativas con un “gold standard”. 


viernes, 15 de mayo de 2020

BLOQUE TEMÁTICO 2. TEMA 5: ESTADÍSTICOS UNIVARIABLES: MEDIDAS RESUMEN PARA VARIABLES CUANTITATIVAS

ÍNDICE
  1. Resumen numérico de una serie estadística
  2. Medidas de tendencia central
  3. Medidas de posición
  4. Medidas de dispersión
  5. Distribuciones normales
  6. Medidas de Forma (Asimetrías y Curtosis)

1. Resumen numérico de una serie estadística
Además de las tablas podemos resumir una serie de observaciones mediante “estadísticos”: “Función de los datos observados”. Hay tres grandes tipos de medidas estadísticas:
  • Medidas de tendencia central: dan idea de los valores alrededor de los cuales el resto de los datos tienen tendencia a agruparse. = MEDIA, MEDIANA Y MODA.
  • Medidas de posición: dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. CUARTILES, DECILES Y PERCENTILES.
  • Medidas de dispersión o variabilidad: dan información acerca de la heterogeneidad de nuestras observaciones = RANGO, DESVIACIÓN MEDIA, VARIANZA, DESVIACIÓN TÍPICA, COEFICIENTE DE VARIACIÓN.
2. Medidas de tendencia central
- Media aritmética o media: Se calcula para variables cuantitativas y se trata del centro geométrico o de gravedad de nuestros datos. Es la suma de todos valores de la variable observada entre el total de observaciones. Es la medida más calculada y utilizada en estadística descriptiva. 


* Propiedades de la media:
  1. La suma de las desviaciones respecto de la media es igual a cero.
  2. La media no se altera por una transformación lineal de escala: a) Si a un conjunto de datos cuya media es X, se le suma a cada dato una constante K, la media aumenta en K unidades b) Si en un conjunto de datos cuya media es X, se multiplica cada dato por una constante K, la media queda multiplicada por K.
  3. Es muy sensible a las puntuaciones extremas.
* Otras medias:
  • Media geométrica (G): raíz N-ésima del producto de los N valores observados. 

  • Media armónica (H): inverso de la media aritmética de los inversos de los valores de la variable.

  • Media aritmética ponderada (x): media aritmética de la suma del producto de cada valor por el peso o relevancia asignada al mismo. 

- Mediana:  es la puntuación que ocupa la posición central de la distribución. Para poder hallarla necesitamos que nuestros datos estén ordenados, de forma creciente o decreciente. Es el valor de la observación tal que un 50% de los datos es menor y otro 50% es mayor. Si la media y la mediana son iguales, la distribución de la variable es simétrica. A diferencia de la media aritmética, la mediana es más robusta y menos sensible a los valores extremos. Cuando la muestra posee muy pocos datos, o existen valores extremos o datos censurados-truncados, debemos calcular siempre la mediana. Si el número de observaciones es impar el valor de la observación será justamente la observación que ocupa la posición (n+1)/2. Si el número de observaciones es par, el valor de la mediana corresponde a la media entre los dos valores centrales, es decir, la media entre la observación n/2 y la observación (n/2)+1.

- Moda: Es el valor con mayor frecuencia (que más veces se repite). Las distribuciones que contienen una sola moda se llaman unimodales. Si hay más de una se dice que la muestra es bimodal (dos modas) o multimodal (más de dos). Se puede calcular para cualquier tipo de variable. Es la medida de tendencia central menos empleada. En una distribución unimodal simétrica, los valores de la media aritmética, mediana y moda coinciden. Si los datos están agrupados, se habla de clase modal y corresponde al intervalo en el que el cociente entre la frecuencia relativa y la amplitud es mayor (hi/ci). 

3. Medidas de posición
Cuantiles: Se calculan para variables cuantitativas y, al igual que la mediana, sólo tienen en cuenta la posición de los valores en la muestra. Se define el cuantil de orden “n” como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada n. Los cuantiles más usuales son los percentiles, los deciles y los cuartiles, según dividan la muestra ordenada en 100, 10 ó 4 partes, respectivamente.
  • Percentiles: Dividen la muestra ordenada en 100 partes. Los percentiles son los 99 puntos o valores que dividen la distribución en cien partes iguales. Se representan por P(n). El percentil “i” (Pi), es aquél valor que, ordenadas las observaciones en forma creciente, el i% de ellas son menores que él y el (100-i)% restante son mayores. Para buscar la posición de un percentil en una serie de datos agrupados, buscamos el intervalo en el que la frecuencia relativa acumulada (Hi) sea superior al valor del percentil. El valor del P50 corresponde al valor de la mediana.

  • Deciles: Dividen la muestra ordenada en 10 partes. Los deciles son los nueve valores que dividen a la distribución en diez partes iguales. Cada parte incluye el 10% de los valores de la distribución. Se representan por la letra D. – El decil “i” (Di), es aquél valor que, ordenadas las observaciones en forma creciente, el i/10% de ellas son menores que él y el (100-i)/10% restante son mayores. El valor del D5corresponde al valor de la mediana y, por tanto, al del P50.
  • Cuartiles: Dividen la muestra ordenada en 4 partes. Son los tres valores que dividen la distribución en cuatro partes iguales, cada parte incluye el 25% de los valores de dicha variable. Se representan por Q1, Q2 y Q3. El Q1, primer cuartil indica el valor que ocupa una posición en la seria numérica de forma que el 25% de las observaciones son menores y que el 75% son mayores. El Q2, segundo cuartil indica el valor que ocupa una posición en la seria numérica de forma que el 50% de las observaciones son menores y que el 50% son mayores. Por tanto, el Q2 coincide con el valor del D5, con al valor de la mediana P50. El Q3, tercer cuartil indica el valor que ocupa una posición en la seria numérica de forma que el 75% de las observaciones son menores y que el 25% son mayores. El Q4, cuarto cuartil indica el valor mayor que se alcanza en la seria numérica.

4. Medidas de dispersión
- Rango o recorrido (R): Es la medida de dispersión más simple y consiste en tomar la puntuación mayor y restarle la puntuación menor. Es el recorrido de una variable. La principal limitación del rango es que al tener en cuenta solamente los valores más alto y más bajo, se ve dramáticamente afectado por los valores extremos. Recorrido intercuartílico (RI): Diferencia entre el tercer y el primer cuartil= |Q3- Q1|.

- Rango Semiintercuartil: También conocido como desviación cuartil, o espectro semicuartil. En su cálculo utiliza los valores intermedios y no extremos, lo que le confiere mayor estabilidad que el rango. 

- Desviación media (DM): Es la media aritmética de las distancias de cada observación con respecto a la media de la muestra.


- Varianza (S2): Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución. 

Siempre tiene un valor positivo Se mide en unidades de la variable estudiada (al cuadrado). Cuanto menor sea la varianza mayor homogeneidad y menor dispersión. Denominador de la varianza: n para la muestra (s2) y n-1 para la población: varianza insesgada o cuasivarianza.

- Desviacion típica o estándar (S): Expresa la dispersión de la distribución mediante un valor que siempre es positivo y en las mismas unidades de medida de la variable, siendo la medida de dispersión más utilizada en estadística descriptiva. Cuando los datos están muy alejados de la media, el numerador será grande y la varianza y la desviación típica también lo serán. Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica.


* Propiedades: 
  1. La desviación típica será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales. 
  2. Si a todos los valores de la variable se les suma un número la desviación típica no varía. 
  3. Si todos los valores de la variable se multiplican por un número la desviación típica queda multiplicada por dicho número.
* Observaciones de la desviación típica 
  1. La desviación típica, al igual que la media y la varianza, es un índice muy sensible a las puntuaciones extremas. 
  2. En los casos que no se pueda hallar la media tampoco será posible hallar la desviación típica.
  3. Cuanta más pequeña sea la desviación típica mayor será la concentración de datos alrededor de la media.
- Coeficiente de variación (CV): También recibe el nombre de variabilidad relativa, puesto que es una medida de dispersión relativa de los datos. Se calcula dividiendo la desviación típica entre la media de la muestra, y expresado en porcentaje. El CV es un medida adimensional y nos permite comparar la dispersión o variabilidad de dos o más grupos. Sin embargo, no debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente.

5. Distribuciones normales
En estadística se llama distribución normal, distribución de Gauss o distribución gaussiana, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales. La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto de los valores posición central (media, mediana y moda, que coinciden en estas distribuciones). Esta curva se conoce como campana de Gauss.


6. Medidas de Forma (Asimetrías y Curtosis)
Las medidas de forma indican si la distribución es simétrica (coeficiente de sesgo) y el grado de apuntamiento, tomando siempre como referencia la curva normal.


- Asimetrías: Coeficiente de asimetría de una variable: Grado de asimetría de la distribución de sus datos en torno a su media. Las distribuciones asimétricas también se llaman sesgadas, y se caracterizan porque el pico de la misma se encuentra descentrado (no simétrica), apareciendo una cola más larga que la otra. Es adimensional y adopta valores entre -1 y 1.
Interpretación del coeficiente de asimetría: 

  • g 1 = 0 (distribución simétrica; existe la misma concentración de valores a la derecha y a la izquierda de la media).

  • g1 > 0 (distribución asimétrica positiva; La cola de la distribución es más larga hacia la derecha y los valores más elevados quedan a la izquierda).


  • g1 < 0 (distribución asimétrica negativa; La cola de la distribución es más larga hacia la izquierda y los valores más elevados quedan a la derecha).


- Curtosis o apuntamiento: Coeficiente de apuntamiento o curtosis de una variable, sirve para medir el grado de concentración de los valores que toma en torno a su media. Se elige como referencia una variable con distribución normal, de modo que para ella el coeficiente de curtosis es 0. Adopta también valores entre -1 y 1. Es una medida adimensional.
Los resultados pueden ser los siguientes: 



  • g 2 = 0 (distribución mesocúrtica). Presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal). 

  • g2 > 0 (distribución leptocúrtica ). Presenta un elevado grado de concentración alrededor de los valores centrales de la variable. 


  • g2 < 0 (distribución platicúrtica). Presenta un reducido grado de concentración alrededor de los valores centrales de la variable.