domingo, diciembre 14

UNIDAD V - Regresión Lineal

Antes de definir el término regresión, la relación entre dos variable X y Y se nota en la expresión:

y=f(x)

Una vez que se especifica la naturaleza de la función, se puede calcular el valor de y para cualquier valor dado de x.
Cuando la función toma la forma:

y=bx+a

tenemos la ecuación de un arecta bajo la forma de una pendiente- intersección con el eje Y'Y, donde y es la variable dependiente, x la variable independiente, b es la pendiente de la recta y a es el valor de y en que la recta se intercepta al eje Y'Y.

L aregersión lineal simple, se basa en que dado conjunto de datos pertenecientes a dos variables, se determinen los mejores valores de b y a que describan a y como una función lineal de x . La relación entre dos variables de origen a datos bivariados, cada uno de los cuales se representa por un punto en el plano cartesiano.

Calificación Prob.y Est.=f(calificación matematicas)



La tendencia general del diagrama pone en manifiesto que cuan mayores son las calificacioens en matemáticas, también son mayores las de Probabilidad y Est., pero siendo datos reales, de ninguna manera guardan una relación perfecta. Se puede imaginar que los puntos se dispersan alrededor de una recta que va del extremo inferior izquierdo al extremo superior derecho de la gráfica. Esta descripción mediante una línea es la regresión lineal de las calificaciones de prob y est. sobre la base de las de matemáticas.

Para obtener la recta de mejor ajuste, se manejan los cuadrados de las variables.
La sumatoria de los cuadrados de x es 670. Y la sumatoria del producto de xy es 571.

Se calculan las medias para x (=8) y para y(=6.9).

Utilizando la fórmula:

obtenemos b=0.63

y , el resultado es 1.86.

Al sustituir los valores en la ecuación de la pendiente y=bx+a, obtenemos:

y = 0.63x + 1.86.

La ecuación anterior podrá interpretarse como la ecuación para saber la clificación que se espera obtener en Prob y Est. de acuerdo a una calificación de matemáticas dada.

Si se quiere saber la calificación que podría tener un alumno que obtuvo 8 en Matmáticas, sustituyendo en la ecuación x=8, da como resultado 6.9.
O sea que, la calificación esperada para Prob. y Est. de ese alumno es alrededor de 7.

A la estimación del valor de una variable dependiente cuando x está entre los límites inferior y superior de los datos, se le llama interpolación. Si x está fuera de los límites, se conoce como extrapolación.

Pasos para plantear Hipótesis

  1. Del contexto del problema, identificar el parámetro de interés.
  2. Establecer una Hipótesis Nula (siempre contiene la igualdad)
  3. Especificar alguna Hipótesis Alternativa apropiada
  4. Seleccionar el nivel de significancia
  5. Establecer un estadístico de prueba apropiado
  6. Establecer la región de rechazo (crítica)
  7. Calcular las cantidades muestrales y sustituir en el estadístico de prueba y encontrar Z*, t*, X²* o F*.
  8. Decidir si se rechaza o se acepta la Hipótesis Nula.
  9. Conclusión



Ejemplo:

Los sistemas de escape de emergencia para tripulaciones de aeronaves son impulsados por un combustible........ Una de las caraterísticas importantes de este producto es la rapidez de combustión. Las especificaciones requieren que la rapidez de combustión promedio sea 50cm/seg. Se sabe que la desviación estándar de ésta rapidez 2 cm/seg. El experimentador decide especificar una probabilidad para el ERROR tipo 1, o el nivel de siginificancia de a=0.005. Selecciona una muestra aleatoria de n=25 y obtiene una rapidez promedio de combustión de 51.3 cm/seg.

A que conclusión debemos llegar?

Ho: μ=50
H1:
μ≠50

α=0.005


Esto da 3.25




3.25>1.96, entonces se cumple:

Z*>Za/2

Se rechaza Ho.

Conclusión: Existe evidencia estadística que comprueba que el valor especificado no se está cumpliendo.

Tamaño Apropiado de una Muestra

1. Si n es igual o mayor a 30 se puede aplicar el teorema del limite central para un apoblación con cualquier tipod de distribución.

2. Si n es menor a 30, es necesario asegurarse de que la distribución es normal.


Tamaño para una población:




Tamaño para dos poblaciones:


_________________________________________________________________

Ejemplo:Supóngase se desea que el error de la estimación de la conductividad térmica promedio de una cierta clase de hierro con una desviación estándar poblacional de 0.1 sea menor que 0.05 btu/h*ft*°F si queremos un nivel de confianza del 95% encuentre el tamaño de muestra.


Criterios de Decisión

Criterios de decisión para el estadístico Z:

Si es Bilateral


Si es Unilateral



Criterios para el estadístico t:

Si es Bilateral


Si es Unilateral


Criterios para el estadístico Ji-cuadrada:

Prueba de Hipótesis



La Hipótesis Nula (Ho) es lo que queremos rechazar.
La Hipótesis Alternativa (H1) es lo que queremos aceptar.

_________________________________________________________________

Ejemplo:

Un fabricante de monitores prueba dos diseños para determinar si estos producen un flujo de corriente satisfactorio.
Estos fueron los resultados:

Diseño 1


n1=15

μ1=24.2

σ²1=10

Diseño 2


n2=10

μ2=23.9

σ²2=20


Con una α de 0.1 se desea determinar si existe alguna diferencia significativa en el flujo de corriente promedio donde se supone que las dos poblaciones son normales pero no es posible suponer que las varianzas desconocidas son iguales.

H0: μ1=μ2
H1: μ1=/μ2



v=16.6









Por lo tanto no es posible rechazar H0.

Conclusión. Existe evidencia estadística que comprueba que no existe diferencia entre ambos diseños.



Errores Tipo I y II



P( Error tipo I ) = alfa = P( Rehazar Ho|Ho verdadera)

El valor de alfa lo decide el investigador.

viernes, diciembre 12

Estimación Puntual Y Por Intervalos

Diapositiva 8
Diapositiva 8

Una estimación puntual del valor de un parámetro desconocido, como la media o la desviación estándar, es un número que se utiliza para aproximar el verdadero valor de ese parámetro poblacional.



Diapositiva 20
Archivo:ConfIntervNormalP.png



Si X es la media muestral de una muestra aleatoria de tamaño n de un apoblación con varianza conocida, un intervalo de confianza para M de un porcentaje de confianza 100(1-α) está dado por:


Donde Zα/2 es el punto que corresponde al valor de la distribución para α/2.


Tabla de Distribución de Z



Intervalo de Confianza para la Diferencia de Medias






Intervalo de Confianza para la Media de una Distribución Normal y con Varianza Desconocida






Intervalo de Confianza para la Diferencia de Medias con Varianzas Desconocidas


Donde Sp:






Intervalo de Confianza para la Diferencia de Medias con Varianzas Desconocidas




Donde v:






UNIDAD IV - Inferencia Estadística

Se basa en las conclusiones a la que se llega por la ciencia experimental basándose en información incompleta (de una parte de la población). La inferencia estadística es una parte de la Estadística que permite generar modelos probabilísticos a partir de un conjunto de observaciones. Del conjunto se observaciones que van a ser analizadas, se eligen aleatoriamente sólo unas cuantas, que es lo que se denomina muestra, y a partir de dicha muestra se estiman los parámetros del modelo, y se contrastan las hipótesis establecidas, con el objeto de determinar si el modelo probabilístico es el adecuado al problema real que se ha planteado.

Se elaboran hipótesis sobre el comportamiento de las variables aleatorias.


Muestreo aleatorio.

Población: Está formada por al totalidad de las observaciones en las que se tiene cierto interés.

Muestra: Subconjunto de observaciones seleccionadas de una población.



Las variables aleatorias de la muestra, contituye una muestra aleatoria de tamaño n.

1) Las variables aleatorias son independientes.
2) Todas las observaciones tienen la misma distribución de probabilidad.



De la muestra aleatoria se pueden calcular estadísticos:
Media, Varianza, Desviación Estándar, que tamnbién son variables aleatorias.

_____________________________________________________________________________________

Los problemas de estimación se presentan muy seguido y a veces es necesario estimar las media poblacional, la varianza, la proporción de objetos de una población que pertenece a cierta clase de interés.



Diferencia de medias entres dos poblaciones:

Diferencia de proporciones: P1-P2

Distribución F

Se emplea para probar si dos muestras provienen de poblaciones que poseen varianzas iguales. Esta prueba es útil para determinar si una población normal tiene una mayor variación que la otra y también se aplica cuando se trata de comparar simultáneamente varias medias poblacionales. La comparación simultánea de varias medias poblacionales se conoce como análisis de varianza. En ambas situaciones, las poblaciones deben ser normales y los datos tener al menos la escala de intervalos.

La distribución F se define como la razón entre dos distribuciones ji cuadrada independientes, dividida cada una de ellas entre sus respectivos grados de libertad.




Si las dos varianzas poblacionales son iguales, se genera una distribución F con promedio de 1. Si las varianzas de la población no son iguales, la distribución de las razones será también una distribución F, pero el promedio no será igual a 1.

jueves, diciembre 11

Distribución Ji-cuadrada

La distribución ji-cuadrado tiene muchas aplicaciones en inferencia estadística , por ejemplo en el test ji-cuadrado y en la estimación de varianzas. También está involucrada en el problema de estimar la media de una población normalmente distribuida y en el problema de estimar la pendiente de una recta deregresión lineal, a través de su papel en la distribución t , y participa en todos los problemas de análisas de varianza , por su papel en la distribución F , que es la distribución del cociente de dos variables aleatorias de distribución ji-cuadrada e independientes.

Tabla de distribución Ji cuadrada

En realidad la distribución ji-cuadrada es la distribución muestral de S² . O sea que si se extraen todas las muestras posibles de una población normal y a cada muestra se le calcula su varianza, se obtendrá la distribución muestral de varianzas.

Para estimar la varianza poblacional o la desviación estándar, se necesita conocer el estadístico X² . Si se elige una muestra de tamaño n de una población normal con varianza , el estadístico:

donde n es el tamaño de la muestra, S² la varianza muestral y la varianza de la población de donde se extrajo la muestra.

Las distribuciones X² no son simétricas. Tienen colas estrechas que se extienden a la derecha; esto es, están sesgadas a la derecha. Cuando n>2, la media de una distribución X² es n-1 y la varianza es 2(n-1).


__________________________________________________________________

Ejemplo:

Probabilidad para Ji con 27 grados de libertad.



Distribución t

La variable se distribuye normalmente con media cero y varianza. Sin embargo, para calcular Z se requiere que S sea conocido. Por lo tanto, se requiere una distribución para el caso en que S sea desconocido y se pueda reemplazar por un estadístico, tal como S. Esa es la distribución t.


T=\frac{\overline{X}_n-\mu}{S_n/\sqrt{n}}


[eq.latex.gif]




Ejemplo:

Al fabricante de un agente propulsor utilizado en sistemas de escape de emergencia de aeronaves, le gustaría afirmar que su producto tiene una tasa promedio de combustión de 40 in. por minuto. Para investigar esta afirmación, el fabricante prueba 25 granos de propulsor seleccionados al azar, y si el valor de t cae entre

entonces quedará satisfecho. ¿A qué conclusión debe llegar el fabricante si tiene una muestra con una media de 42.5 in/min y una desviación estándar de 0.75 in/min?

Según la tabla de distribución de t:




16.67 es un valor que excede por mucho a 1.711. De hecho, si la media es igual a 40, entonces la probabilidad de obtener un valor de t mayor que este es considerablemente menor que 0.05. El valor de t obtenido es un indicador de que la tasa promedio de combustión es mayor que 40 in/min.

_________________________________________________________________

Mas ejemplos:







Para el siguente ejemplo, se busca el valor para alfa, teniendo una confianza de 95%



como se considera la confianza de 0.95, entonces alfa sería 0.05 y se obtiene el valor:



Aproximación de la Distribución Binomial por la Normal

Utilizar la distribución normal (continua) como sustituto de una distribución binomial (discreta) para valores grandes de n, parece razonable porque conforme n aumenta, una distribución binomial se acerca más a una distribución normal.
La distribución de probabilidad normal, en general, se considera una buena aproximación a la binomial cuando n y n(1 - ) son ambos mayores que 5.
El valor .5 se resta o se suma, dependiendo del problema, a un valor seleccionado cuando una distribución de probabilidad binomial se aproxima por una distribución de probabilidad normal.


___________________________________________________________________


Ejemplo.

Un estudio reciente de una compañía de investigación de mercados mostró que 15% de las casas en Estados Unidos poseen una cámara de video. Se obtuvo una muestra de 200 casas.
De las 200 casas en la muestra ¿cuántas se espera que tengan una cámara de video?



La varianza

La desviación estándar


¿Cuál es la probabilidad de que menos de 40 casas de la muestra tengan cámara de video?
Se necesita P(X<40)>