domingo, 23 de junio de 2019

ESTADÍSTICA PRUEBA DE HIPÓTESIS

En este segmento encontrarás información acerca de la prueba de hipótesis, para estudiantes curioso que deseen aprender y conocer  más acerca de este tema. 


PRUEBA DE HIPÓTESIS - INTRODUCCIÓN


PRUEBA DE HIPÓTESIS

Introducción
La inferencia estadística es el proceso mediante el cual se utiliza la información de los            datos de una muestra para extraer conclusiones acerca de la población  de la que se seleccionó la muestra. 

Las técnicas de inferencia estadística se dividen en dos áreas principales: 
v    Estimación de intervalos de confianza, y
v    Pruebas de hipótesis.

En cada  prueba estadística, se comparan algunos valores observados contra algunos esperados u otro valor observado comparando estimaciones de parámetros (media, desviación estándar, varianza).
Estas estimaciones de los verdaderos parámetros son obtenidos usando una muestra de datos y calculando los estadísticos. 
La capacidad para detectar una diferencia entre lo que es observado y lo que es esperado depende del desarrollo de la muestra de datos.

Al realizar pruebas de hipótesis, se parte de que un valor supuesto (hipotético) es el parámetro poblacional. Después de recolectar una muestra aleatoria, se compara el estadístico muestral, así como la media (x), con el parámetro hipotético, se compara con una supuesta media poblacional. Después se acepta o se rechaza el valor hipotético, según proceda. Se rechaza el valor hipotético sólo si el resultado muestral resulta muy poco probable cuando la hipótesis es cierta.

¿Qué es una hipótesis?
Una hipótesis se define como una afirmación transitoria que debe ser sometida a prueba. La inferencia estadística propone un procedimiento para llevar a cabo la prueba de las hipótesis. Propone, primero, enunciarlas formalmente y luego contrastarlas con la evidencia de los datos. Son los datos, entonces, con su coro de características, los que dirán si una hipótesis es falsa o verdadera.

La palabra hipótesis proviene del griego:
Hipo: BAJO
Tesis: VERDAD
 La hipótesis es una conjetura científica que requiere una contrastación con la experiencia.

¿Qué es una prueba de hipótesis?

Una prueba de hipótesis es una regla que especifica si se puede aceptar o rechazar una afirmación acerca de una población dependiendo de la evidencia proporcionada por una muestra de datos. “Aceptar” o rechazar una hipótesis estadística es muy diferente a “aceptar” o rechazar una hipótesis científica.

Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la hipótesis nula y la hipótesis alternativa. La hipótesis estadística nula es generalmente de “no hay efecto” o “ no hay diferencia” ; es decir, es el enunciado que se probara. En contraste, la hipótesis alternativa es el enunciado que el “efecto o patrón existe”; es decir, es el que se desea poder concluir que es verdadero de acuerdo con la evidencia proporcionada por los datos de la muestra.  

Hipótesis nula e hipótesis alternativa

En primer lugar, veremos cómo se escribirían las hipótesis que queremos contrastar:




Hipótesis Nul

ERROR TIPO I Y ERROR TIPO II


Error tipo I y Error tipo II

Las hipótesis nula y alternativa son afirmaciones opuestas acerca de la población. Una de las dos, ya sea la hipótesis nula o la alternativa es verdadera, pero no ambas. Lo ideal es que la prueba de hipótesis lleve a la aceptación de H0 cuando H0 sea verdadera y al rechazo de H0 cuando H1 sea verdadera.
Podemos aceptar una hipótesis cuando en realidad no es cierta, entonces cometeremos unos errores, que podrán ser de dos tipos:
1.      Error de tipo I: Consiste en aceptar la hipótesis alternativa cuando la cierta es la nula.
2.      Error de tipo II: Consiste en aceptar la hipótesis nula cuando la cierta es la alternativa.
Estos errores los aceptaremos si no son muy grandes o si no nos importa que sean muy grandes.
§  Alfa: Es la probabilidad de cometer un error de tipo I.
§  Beta: Es la probabilidad de cometer un error de tipo II.

De los dos, el más importante es alfa que llamaremos nivel de significación y nos informa de la probabilidad que tenemos de estar equivocados si aceptamos la hipótesis alternativa.
Debido a que los dos errores anteriores a la vez son imposibles de controlar, vamos a fijarnos solamente en el nivel de significación, ya que la hipótesis alternativa que estamos interesados en probar y no queremos aceptarla si en realidad no es cierta, es decir, si aceptamos la hipótesis alternativa queremos equivocarnos con un margen de error muy pequeño. El valor del nivel de significación suele ser un 5%.
En la práctica la persona responsable de la prueba de hipótesis especifica el nivel de significancia. Al elegir α se controla la probabilidad de cometer un error tipo I. Si el costo de cometer un error tipo I es elevado, los valores pequeños de α son preferibles. Si el costo de cometer un error tipo I no es demasiado elevado, entonces se usan valores mayores para α. A las aplicaciones de la prueba de hipótesis en que sólo se controla el error tipo I se les llama pruebas de significancia. Muchas aplicaciones de las pruebas de hipótesis son de este tipo.


Etapa de la prueba de hipótesis

Etapa 1.- Planear la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0) es el valor hipotético del parámetro que se compara con el resultado muestral resulta muy poco probable cuando la hipótesis es cierta.

Etapa 2.- Especificar el nivel de significancia que se va a utilizar. El nivel de significancia del 5%, entonces se rechaza la hipótesis nula solamente si el resultado muestral es tan diferente del valor hipotético que una diferencia de esa magnitud o mayor, pudiera ocurrir aleatoria mente con una probabilidad de 0.05 o menos.

Etapa 3.- Elegir el estadístico de prueba. El estadístico de prueba puede ser el estadístico muestral o una versión transformada de ese estadístico muestral. Por ejemplo, para probar el valor hipotético de una media poblacional, se toma la media de una muestra aleatoria de esa distribución normal, entonces es común que se transforme la media en un valor Z el cual, a su vez, sirve como estadística de prueba.

Etapa 4.- Establecer el valor o valores críticos del estadístico de prueba. Habiendo especificado la hipótesis nula, el nivel de significancia y el estadístico de prueba que se van a utilizar, se procede a establecer el o los valores críticos del estadístico de prueba. Puede haber uno o más de esos valores, dependiendo de si se va a realizar una prueba de uno o dos extremos o colas.

Etapa 5.- Determinar el valor real del estadístico de prueba. Por ejemplo, al probar un valor hipotético de la media poblacional, se toma una muestra aleatoria y se determina el valor de la media muestral. Si el valor crítico que se establece es un valor de Z, entonces se transforma la media muestral en un valor de Z.

Etapa 6.- Tomar la decisión. Se compara el valor observado del estadístico muestral con el valor (o valores) críticos del estadístico de prueba. Después no se rechaza o se rechaza la hipótesis nula. Si se rechaza ésta, se acepta la alternativa; a su vez, esta decisión tendrá efecto sobre otras decisiones de los administradores operativos, como por ejemplo, mantener o no un estándar de desempeño o cuál de dos estrategias de mercadotecnia utilizar.

División de una prueba de estadística

La distribución apropiada de la prueba estadística se divide en dos regiones: una región de rechazo y una de no rechazo. Si el estadístico de prueba cae en esta última región no se puede rechazar la hipótesis nula y se llega a la conclusión de que el proceso funciona correctamente.
Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el valor crítico en la distribución estadística que divide la región del rechazo. A hora bien el valor crítico depende del tamaño de la región de rechazo.

Nivel de significancia

Se le conoce así al error máximo adoptado al momento de rechazar la hipótesis nula (Ho) cuando es verdadera. Dependiendo del tipo de significación que se da al estudio, hay tres grados:
α = 0.01 → Demasiado significativo
α = 0.05 → Significativo
α = 0.10 → Poco significativo



EJERCICIO PARA PRUEBA DE HIPOTESIS


Ejercicio de aplicación Prueba de Hipótesis

Ejercicio #1




PRUEBA DE HIPOTESIS PARA LA MEDIA MUESTRAL


PRUEBA DE HIPÓTESIS PARA LA MEDIA POBLACIONAL.

El propósito de la prueba de hipótesis es determinar si un valor propuesto (hipotético) para un parámetro poblacional, por ejemplo para una media, debe aceptarse como plausible con base en la evidencia muestral. Recuerde las distribuciones de muestreo, en general el valor de una media muestral difiere del valor de la media poblacional. Si el valor de un estadístico muestral, como la media muestral es cercano al valor propuesto con parámetro y solo difiere en una cantidad que resulta des esperarse debido al muestreo aleatorio, entonces no se rechaza el valor hipotético. Si el estadístico muestral difiere del valor propuesto en una cantidad que no es atribuible a la casualidad, entonces se rechaza la hipótesis por no considerarse plausible. Se han desarrollado tres métodos para pruebas de hipótesis, todos ellos conducentes a la misma decisión cuando se usan los mismos estándares de probabilidad y de riesgo. Independientemente del método que se utilice en las pruebas de hipótesis, observe que cuando se rechaza el valor hipotético, y por tanto se acepta, esto no constituye una prueba de que el valor hipotético sea correcto. La aceptación de un valor propuesto como un parámetro simplemente indica que es un valor plausible de acuerdo con el valor observado en el estadístico muestral.

Ejemplo # 1(resuelto)
Una empresa eléctrica fabrica baterías de celular que tienen una duración que se distribuye de forma aproximadamente normal con una media de 800 horas y una desviación estándar de 40 horas. Una muestra aleatoria de 30 baterías tiene una duración promedio de 785 horas.

Ejemplo #2 (para resolver)


La duración de las bombillas de 100 watt que fabrica una empresa sigue una distribución normal con una desviación de 120 horas. Su vida media está garantizada durante un mínimo de 800 horas.
Se escoge al azar una muestra de 50 bombillas de un lote y, después de comprobarlas, se obtiene una vida media de 750 horas.

a) Con un nivel de significación de 0,01 ¿habría que rechazar el lote por no cumplir la garantía?

PRUEBA DE HIPOTESIS PARA PROPORCIONES DE UNA SOLA MUESTRA


Pruebas de hipótesis para proporciones
Prueba de Hipótesis de Proporciones para una Sola Muestra

Cuando el objetivo del muestreo es evaluar la validez de una afirmación con respecto a la proporción de una población, es adecuado utilizar una prueba de una muestra. La metodología de prueba depende de si el número de observaciones de la muestra es grande o pequeño.
Como se habrá observado anteriormente, las pruebas de grandes muestras de medias y proporciones son bastante semejantes. De este modo, los valores estadísticos de prueba miden la desviación de un valor estadístico de muestra a partir de un valor propuesto. Y ambas pruebas se basan en la distribución normal estándar para valores críticos. Quizá la única diferencia real entre las ambas radica en la forma corno se obtiene la desviación estándar de la distribución de muestreo.



Esta prueba comprende el cálculo del valor estadístico de prueba Z.




Ejemplo #1 (resuelto)

En un estudio se afirma que 3 de 10 estudiantes universitarios trabajan. Pruebe esta aseveración, a un nivel de significación de 0,025, respecto a la alternativa de que la proporción real de los estudiantes universitarios trabajan es mayor de lo que se afirma, si una muestra aleatoria de 600 estudiantes universitarios revela que 200 de ellos trabajan. La muestra fue tomada de 10000 estudiantes.




La hipótesis es aceptada ya que Z prueba es 1,84 que es menor que Z tabla 1,96 por lo tanto es cierto que 3 de cada 10 estudiante trabajan.


Ejemplo #2 (para resolver)

Una encuesta realizada por Bancomer a 35 clientes indicó que un poco más del 74 por ciento tenían un ingreso familiar de más de $200,000 al año. Si esto es cierto, el banco desarrollará un paquete especial de servicios para este grupo. La administración quiere determinar si el porcentaje verdadero es mayor del 60 por ciento antes de desarrollar e introducir este nuevo paquete de servicios. Los resultados mostraron que 74.29 por ciento de los clientes encuestados reportaron ingresos de $200,000 o más al año.

Prueba de proporciones de dos muestras


El objetivo de una prueba de dos muestras es determinar si las dos muestras independientes fueron tomadas de dos poblaciones, las cuales presentan la misma proporción de elementos con determinada característica. La prueba se concentra en la diferencia relativa (diferencia dividida entre la desviación estándar de la distribución de muestreo) entre las dos proporciones muestrales. Diferencias pequeñas denotan únicamente la variación casual producto del muestreo (se acepta H0), en tanto que grandes diferencias significan lo contrario (se rechaza H0). El valor estadístico de prueba (diferencia relativa) es comparado con un valor tabular de la distribución normal, a fin de decidir si H0 es aceptada o rechazada. Una vez más, esta prueba se asemeja considerablemente a la prueba de medias de dos muestras.


La hipótesis nula en una prueba de dos muestras es


Ejemplo# 1 (resuelto)



Se ponen a prueba la enseñanza de la Estadística empleando Excel y Winstats. Para determinar si los estudiantes difieren en términos de estar a favor de la nueva enseñanza se toma una muestra de 20 estudiantes de dos paralelos. De paralelo A 18 están a favor, en tanto que del paralelo B están a favor 14. ¿Es posible concluir con un nivel de significación de 0,05 que los estudiantes que están a favor de la nueva enseñanza de la Estadística es la misma en los dos paralelos?





La hipótesis es aceptada ya que 1,58 está en la zona de aceptación, entonces la proporción de los estudiantes que están a favor de la nueva enseñanza de la estadística es la misma en los dos paralelos.

Ejemplo #2 (para resolver)

Un artículo reciente, publicado en el diario USA TODAY, indica que solo a uno de cada tres egresados de una universidad les espera un puesto de trabajo. En una investigación a 200 egresados recientes de su universidad, se encontró que 80 tenían un puesto de trabajo. ¿Puede concluirse en el nivel de significancia 0,02, que en su universidad la proporción de estudiantes que tienen trabajo es mayor?



DISTRIBUCIÓN "F" DE FISHER







ANÁLISIS DE LA VARIANZA Y EJERCICIO


ANÁLISIS DE LA VARIANZA

El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos o más medias, que es necesario porque cuando se quiere comparar más de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student. por dos motivos:

En primer lugar, y como se realizarían simultánea e independientemente varios contrastes de hipótesis, la probabilidad de encontrar alguno significativo por azar aumentaría. En cada contraste se rechaza la H0 si la t supera el nivel crítico, para lo que, en la hipótesis nula, hay una probabilidad a. Si se realizan m contrastes independientes, la probabilidad de que, en la hipótesis nula, ningún estadístico supere el valor crítico es (1 - a)m, por lo tanto, la probabilidad de que alguno lo supere es 1 - (1 - a)m, que para valores de a próximos a 0 es aproximadamente igual a a m. Una primera solución, denominada método de Bonferroni, consiste en bajar el valor de a, usando en su lugar a/m, aunque resulta un método muy conservador.


Ejemplo 1


Se quiere evaluar la eficacia de distintas dosis de un fármaco contra la hipertensión arterial, comparándola con la de una dieta sin sal. Para ello se seleccionan al azar 25 hipertensos y se distribuyen aleatoriamente en 5 grupos. Al primero de ellos no se le suministra ningún tratamiento, al segundo una dieta con un contenido pobre en sal, al tercero una dieta sin sal, al cuarto el fármaco a una dosis determinada y al quinto el mismo fármaco a otra dosis. Las presiones arteriales sistólicas de los 25 sujetos al finalizar los tratamientos son:

Grupo
1
2
3
4
5
180
172
163
158
147
173
158
170
146
152
175
167
158
160
143
182
160
162
171
155
181
175
170
155
160



La tabla de anova es:

Fuente de variación
GL
SS
MS
F
Tratamiento
4
2010,64
502,66
11,24
Error
20
894,4
44,72

Total
24
2905,04



Como F0,05(4,20) =2,87 y 11,24>2,87 rechazamos la hipótesis nula y concluimos que los resultados de los tratamientos son diferentes.
Nota: Para hacerlo con un paquete estadístico, p.e. el SPSS, deberíamos crear un archivo con 2 variables: Trata (con un código distinto para cada grupo, p.e. de 1 a 5) y Presion con la presión arterial de cada individuo al acabar el estudio. Para calcular el Anova desplegamos los menús que se ven en la gráfica:
La tabla de anova que devuelve el programa es que incluye también el “valor p” asociado al contraste.




Ejemplo de análisis de la Varianza (ANOVA).



temp
TVBN

temp
TVBN

temp
TVBN
1
18,3

2
11,7

3
16,64
1
15,92

2
12,87

3
17,83
1
18,71

2
11,77

3
19,01
1
17,92

2
12,23

3
17,33
1
15,66

2
13,62

3
17,06
1
17,14

2
13,24

3
18,04
1
15,21

2
14,02

3
17,51
1
19,92

2
13,66

3
19,11
1
17,61

2
12,27

3
17,75
1
13,43

2
12,45

3
19,36




Las condiciones de conservación del pescado se evalúan a través de la concentración de TVBN (Total Volatile Base Nitrogen). A mayor concentración de este elemento, peor es el estado de conservación de la pieza. Con objeto de determinar la temperatura que produce la menor concentración de TVBN, se eligen al azar 30 atunes recién pescados, todos de idéntico peso y características generales. Se separan en tres grupos de 10 piezas cada uno; el primer grupo se congela a -4ºC, el segundo a -20ºC y el tercero a -40ºC. La tabla de la derecha muestra la concentración de TVBN en cada pieza después de 2 semanas de congelación. La variable temp corresponde a los tres valores de temperatura señalados, codificados, respectivamente como 1, 2 y 3. A partir de estos datos:




1. ¿Existen diferencias significativas en las concentraciones medias de TVBN a las tres temperaturas? Responder a esta pregunta utilizando el método del análisis de la varianza.
2. Estima la concentración media de TBVN a cada temperatura.
3. Estima la diferencia entre la concentración media de TVBN a cada temperatura y la concentración media global.