domingo, diciembre 14
UNIDAD V - Regresión Lineal
y=f(x)
Una vez que se especifica la naturaleza de la función, se puede calcular el valor de y para cualquier valor dado de x.
Cuando la función toma la forma:
y=bx+a
tenemos la ecuación de un arecta bajo la forma de una pendiente- intersección con el eje Y'Y, donde y es la variable dependiente, x la variable independiente, b es la pendiente de la recta y a es el valor de y en que la recta se intercepta al eje Y'Y.
L aregersión lineal simple, se basa en que dado conjunto de datos pertenecientes a dos variables, se determinen los mejores valores de b y a que describan a y como una función lineal de x . La relación entre dos variables de origen a datos bivariados, cada uno de los cuales se representa por un punto en el plano cartesiano.
Calificación Prob.y Est.=f(calificación matematicas)
La tendencia general del diagrama pone en manifiesto que cuan mayores son las calificacioens en matemáticas, también son mayores las de Probabilidad y Est., pero siendo datos reales, de ninguna manera guardan una relación perfecta. Se puede imaginar que los puntos se dispersan alrededor de una recta que va del extremo inferior izquierdo al extremo superior derecho de la gráfica. Esta descripción mediante una línea es la regresión lineal de las calificaciones de prob y est. sobre la base de las de matemáticas.
Para obtener la recta de mejor ajuste, se manejan los cuadrados de las variables.
La sumatoria de los cuadrados de x es 670. Y la sumatoria del producto de xy es 571.
Se calculan las medias para x (=8) y para y(=6.9).
Utilizando la fórmula:
obtenemos b=0.63
y , el resultado es 1.86.
Al sustituir los valores en la ecuación de la pendiente y=bx+a, obtenemos:
y = 0.63x + 1.86.
La ecuación anterior podrá interpretarse como la ecuación para saber la clificación que se espera obtener en Prob y Est. de acuerdo a una calificación de matemáticas dada.
Si se quiere saber la calificación que podría tener un alumno que obtuvo 8 en Matmáticas, sustituyendo en la ecuación x=8, da como resultado 6.9.
O sea que, la calificación esperada para Prob. y Est. de ese alumno es alrededor de 7.
A la estimación del valor de una variable dependiente cuando x está entre los límites inferior y superior de los datos, se le llama interpolación. Si x está fuera de los límites, se conoce como extrapolación.
Pasos para plantear Hipótesis
- Del contexto del problema, identificar el parámetro de interés.
- Establecer una Hipótesis Nula (siempre contiene la igualdad)
- Especificar alguna Hipótesis Alternativa apropiada
- Seleccionar el nivel de significancia
- Establecer un estadístico de prueba apropiado
- Establecer la región de rechazo (crítica)
- Calcular las cantidades muestrales y sustituir en el estadístico de prueba y encontrar Z*, t*, X²* o F*.
- Decidir si se rechaza o se acepta la Hipótesis Nula.
- Conclusión
Ejemplo:
Los sistemas de escape de emergencia para tripulaciones de aeronaves son impulsados por un combustible........ Una de las caraterísticas importantes de este producto es la rapidez de combustión. Las especificaciones requieren que la rapidez de combustión promedio sea 50cm/seg. Se sabe que la desviación estándar de ésta rapidez 2 cm/seg. El experimentador decide especificar una probabilidad para el ERROR tipo 1, o el nivel de siginificancia de a=0.005. Selecciona una muestra aleatoria de n=25 y obtiene una rapidez promedio de combustión de 51.3 cm/seg.
A que conclusión debemos llegar?
Ho: μ=50
H1: μ≠50
α=0.005
Esto da 3.25
3.25>1.96, entonces se cumple:
Z*>Za/2
Se rechaza Ho.
Conclusión: Existe evidencia estadística que comprueba que el valor especificado no se está cumpliendo.
Tamaño Apropiado de una Muestra
2. Si n es menor a 30, es necesario asegurarse de que la distribución es normal.
Tamaño para una población:
Tamaño para dos poblaciones:
_________________________________________________________________
Ejemplo:Supóngase se desea que el error de la estimación de la conductividad térmica promedio de una cierta clase de hierro con una desviación estándar poblacional de 0.1 sea menor que 0.05 btu/h*ft*°F si queremos un nivel de confianza del 95% encuentre el tamaño de muestra.
Criterios de Decisión
Prueba de Hipótesis
La Hipótesis Nula (Ho) es lo que queremos rechazar.
La Hipótesis Alternativa (H1) es lo que queremos aceptar.
_________________________________________________________________
Ejemplo:
Un fabricante de monitores prueba dos diseños para determinar si estos producen un flujo de corriente satisfactorio.
Estos fueron los resultados:
Diseño 1 |
| n1=15 | μ1=24.2 | σ²1=10 |
Diseño 2 |
| n2=10 | μ2=23.9 | σ²2=20 |
Con una α de 0.1 se desea determinar si existe alguna diferencia significativa en el flujo de corriente promedio donde se supone que las dos poblaciones son normales pero no es posible suponer que las varianzas desconocidas son iguales.
H0: μ1=μ2
H1: μ1=/μ2
v=16.6
Por lo tanto no es posible rechazar H0.
Conclusión. Existe evidencia estadística que comprueba que no existe diferencia entre ambos diseños.
viernes, diciembre 12
Estimación Puntual Y Por Intervalos
Una estimación puntual del valor de un parámetro desconocido, como la media o la desviación estándar, es un número que se utiliza para aproximar el verdadero valor de ese parámetro poblacional.
Si X es la media muestral de una muestra aleatoria de tamaño n de un apoblación con varianza conocida, un intervalo de confianza para M de un porcentaje de confianza 100(1-α) está dado por:
Donde Zα/2 es el punto que corresponde al valor de la distribución para α/2.
Intervalo de Confianza para la Diferencia de Medias
Intervalo de Confianza para la Media de una Distribución Normal y con Varianza Desconocida
Intervalo de Confianza para la Diferencia de Medias con Varianzas Desconocidas
Donde Sp:
Intervalo de Confianza para la Diferencia de Medias con Varianzas Desconocidas
Donde v:
UNIDAD IV - Inferencia Estadística
Se elaboran hipótesis sobre el comportamiento de las variables aleatorias.
Muestreo aleatorio.
Población: Está formada por al totalidad de las observaciones en las que se tiene cierto interés.
Muestra: Subconjunto de observaciones seleccionadas de una población.
Las variables aleatorias de la muestra, contituye una muestra aleatoria de tamaño n.
1) Las variables aleatorias son independientes.
2) Todas las observaciones tienen la misma distribución de probabilidad.
De la muestra aleatoria se pueden calcular estadísticos:
Media, Varianza, Desviación Estándar, que tamnbién son variables aleatorias.
_____________________________________________________________________________________
Los problemas de estimación se presentan muy seguido y a veces es necesario estimar las media poblacional, la varianza, la proporción de objetos de una población que pertenece a cierta clase de interés.
Diferencia de medias entres dos poblaciones:
Diferencia de proporciones: P1-P2
Distribución F
La distribución F se define como la razón entre dos distribuciones ji cuadrada independientes, dividida cada una de ellas entre sus respectivos grados de libertad.
jueves, diciembre 11
Distribución Ji-cuadrada
Tabla de distribución Ji cuadrada
En realidad la distribución ji-cuadrada es la distribución muestral de S² . O sea que si se extraen todas las muestras posibles de una población normal y a cada muestra se le calcula su varianza, se obtendrá la distribución muestral de varianzas.
Para estimar la varianza poblacional o la desviación estándar, se necesita conocer el estadístico X² . Si se elige una muestra de tamaño n de una población normal con varianza , el estadístico:
donde n es el tamaño de la muestra, S² la varianza muestral y la varianza de la población de donde se extrajo la muestra.
Las distribuciones X² no son simétricas. Tienen colas estrechas que se extienden a la derecha; esto es, están sesgadas a la derecha. Cuando n>2, la media de una distribución X² es n-1 y la varianza es 2(n-1).
__________________________________________________________________
Probabilidad para Ji con 27 grados de libertad.
Distribución t
Ejemplo:
entonces quedará satisfecho. ¿A qué conclusión debe llegar el fabricante si tiene una muestra con una media de 42.5 in/min y una desviación estándar de 0.75 in/min?
Según la tabla de distribución de t:
16.67 es un valor que excede por mucho a 1.711. De hecho, si la media es igual a 40, entonces la probabilidad de obtener un valor de t mayor que este es considerablemente menor que 0.05. El valor de t obtenido es un indicador de que la tasa promedio de combustión es mayor que 40 in/min.
_________________________________________________________________
Mas ejemplos:
Para el siguente ejemplo, se busca el valor para alfa, teniendo una confianza de 95%
como se considera la confianza de 0.95, entonces alfa sería 0.05 y se obtiene el valor:
Aproximación de la Distribución Binomial por la Normal
La distribución de probabilidad normal, en general, se considera una buena aproximación a la binomial cuando n y n(1 - ) son ambos mayores que 5.
___________________________________________________________________
De las 200 casas en la muestra ¿cuántas se espera que tengan una cámara de video?