Inferencia

La estadística inferencial es una parte de la estadística que comprende los métodos y procedimientos para deducir propiedades de una población estadística, a partir de una pequeña parte de la misma. La estadística inferencial comprende como aspectos importantes:
  • La toma de muestras o muestreo.
  • La estimación de parámetros o variables estadisticas.
  • El contraste de hipótesis.
  • El diseño experimental.
  • La inferencia bayesiana.
  • Los métodos no paramétricos
La Inferencia Estadística es la parte de la estadística matemática que se encarga del estudio de los métodos para la obtención del modelo de probabilidad (forma funcional y parámetros que determinan la función de distribución) que sigue una variable aleatoria de una determinada población, a través de una muestra (parte de la población) obtenida de la misma.
Los dos problemas fundamentales que estudia la inferencia estadística son el "Problema de la estimación" y el "Problema del contraste de hipótesis"
Cuando se conoce la forma funcional de la función de distribución que sigue la variable aleatoria objeto de estudio y sólo tenemos que estimar los parametros que la determinan, estamos en un problema de inferencia estadística paramétrica ; por el contrario cuando no se conoce la forma funcional de la distribución que sigue la variable aleatoria objeto de estudio, estamos ante un problema de inferencia estadística no paramétrica.

Coeficiente de Determiación

En Estadística, se llama coeficiente de determinación a la proporción de la varianza de la variable dependiente que está explicada por un modelo estadístico.

Caso general

Un modelo estadístico se construye para explicar una variable aleatoria que llamaremos dependiente a través de otras variables aleatorias a las que llamaremos factores. Dado que podemos predecir una variable aleatoria mediante su media y que, en este caso, el error cuadrático medio es su varianza, el máximo error cuadrático medio que podemos aceptar en un modelo para una variable aleatoria que posea los dos primeros momentos es la varianza. Para estimar el modelo haremos varias observaciones de la variable a predecir y de los factores. A la diferencia entre el valor observado de la variable y el valor predicho la llamaremos residuo. La media cuadrática de los residuos es la varianza residual.
Si representamos por \sigma^2 la varianza de la variable dependiente y la varianza residual por \sigma^2_r, el coeficiente de determinación viene dado por la siguiente ecuación:
 \rho^2 = 1 - { {\sigma^2_r} \over  {\sigma^2} }
Se mide en tantos por ciento. Si la varianza residual es cero, el modelo explica el 100% de valor de la variable; si coincide con la varianza de la variable dependiente, el modelo no explica nada y el coeficiente de determinación es del 0%. En variables económicas y financieras, suele ser difícil conseguir un coeficiente de determinación mayor de un 30% .



            sum n      2
 2   scE    i=1 (y^i- y)
R =  scG--=  sum n------2-
              (yi- y)
           i=1
(6.15)
o bien

        scR      n - 2 ^s2 R2 = 1
-----= 1- ----- -R2-
        scG      n - 1 ^sY
Como scE < scG, se verifica que 0 < R2 < 1.
El coeficiente de determinación mide la proporción de variabilidad total de la variable dependiente (Y ) respecto a su media que es explicada por el modelo de regresión. Es usual expresar esta medida en tanto por ciento, multiplicándola por cien.

Coeficientes de Correlación

Coeficiente de correlación

El coeficiente de correlación lineal se expresa mediante la letra r.
coeficiente de correlación lineal

Propiedades

1. El coeficiente de correlación no varía al hacerlo la escala de medición.
Es decir, si expresamos la altura en metros o en centímetros el coeficiente de correlación no varía.
2. El signo del coeficiente de correlación es el mismo que el de la covarianza.
Si la covarianza es positiva, la correlación es directa.
Si la covarianza es negativa, la correlación es inversa.
Si la covarianza es nula, no existe correlación.
3. El coeficiente de correlación lineal es un número real comprendido entre menos −1 y 1.
−1 ≤ r ≤ 1
4. Si el coeficiente de correlación lineal toma valores cercanos a −1 la correlación es fuerte e inversa, y será tanto más fuerte cuanto más se aproxime r a −1.
5. Si el coeficiente de correlación lineal toma valores cercanos a 1 la correlación es fuerte y directa, y será tanto más fuerte cuanto más se aproxime r a 1.
6. Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación es débil.
7. Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o decreciente. Entre ambas variables hay dependencia funcional.

Criterios de Minimo Cuadrados

Mínimos cuadrados es una técnica de análisis numérico encuadrada dentro de la optimización matemática, en la que, dados un conjunto de pares ordenados: (variable independiente, variable dependiente) y una familia de funciones, se intenta encontrar la función, dentro de dicha familia, que mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo error cuadrático.
En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias ordenadas (llamadas residuos) entre los puntos generados por la función y los correspondientes en los datos. Específicamente, se llama mínimos cuadrados promedio (LMS) cuando el número de datos medidos es 1 y se usa el método de descenso por gradiente para minimizar el residuo cuadrado. Se puede demostrar que LMS minimiza el residuo cuadrado esperado, con el mínimo de operaciones (por iteración), pero requiere un gran número de iteraciones para converger.

Deducción analítica de la aproximación discreta mínimo cuadrática lineal

Sea {\{(x_k,y_k)\}}_{k=1}^n un conjunto de n pares con abscisas distintas, y sea {\{f_j (x)\}}_{j=1}^m un conjunto de m funciones linealmente independientes (en un espacio vectorial de funciones), que se llamarán funciones base. Se desea encontrar una función f(x) de dicho espacio, o sea, combinación lineal de las funciones base, tomando por ello la forma:
f(x)=c_1 f_1 (x)+ c_2 f_2(x)+ . . . + c_m f_m (x) =\sum_{j=1}^m {c_j f_j (x)}
.
Ello equivale por tanto a hallar los m coeficientes: {\{c_j (x)\}}_{j=1}^m . En concreto, se desea que tal función f(x) sea la mejor aproximación a los n pares {(x_k,y_k)}_1^n empleando, como criterio de "mejor", el criterio del mínimo error cuadrático medio de la función f(x) con respecto a los puntos {(x_k,y_k)}_1^n .
El error cuadrático medio será para tal caso:
E_{cm} = \sqrt{\frac{\sum_{k = 1}^n (e_k)^2}{n}}=\sqrt{\frac{1}{n} \sum_{k=1}^n (y_k-f(x_k))^2}=\sqrt{\frac{1}{n} \sum_{k=1}^n (y_k-\sum_{j=1}^m c_j f_j(x_k))^2}
Minimizar el error cuadrático medio es equivalente a minimizar el error cuadrático, definido como el radicando del error cuadrático medio, esto es:
E_c= \sum_{k=1}^n (y_k-\sum_{j=1}^m c_j f_j(x_k))^2
Así, los c_j que minimizan E_{cm} también minimizan E_c, y podrán ser calculados derivando e igualando a cero este último:
\frac{\partial E_c}{\partial c_i}=\sum_{k=1}^n 2(y_k-\sum_{j=1}^m c_j f_j(x_k))(-f_i(x_k))=0
Siendo i=1,2, . . .,m
Se obtiene un sistema de m ecuaciones con m incógnitas, que recibe el nombre de "Ecuaciones Normales de Gauss". Operando con ellas:
\sum_{k=1}^n(\sum_{j=1}^m c_j f_j(x_k) )f_i(x_k) = \sum_{k=1}^n y_k f_i(x_k)
, para i=1,2, . . .,m
\sum_{j=1}^m (\sum_{k=1}^n f_i(x_k) f_j (x_k) )c_j = \sum_{k=1}^n y_k f_i(x_k)
, para i=1,2, . . .,m


Errores de Tipo I y de Tipo II

En un estudio de investigación, el error de tipo I también denominado error de tipo alfa (α) o falso positivo, es el error que se comete cuando el investigador no acepta la hipótesis nula (H_o) siendo ésta verdadera en la población. Es equivalente a encontrar un resultado falso positivo, porque el investigador llega a la conclusión de que existe una diferencia entre las hipótesis cuando en realidad no existe. Se relaciona con el nivel de significancia estadística.
La hipótesis de la que se parte H_0 aquí es el supuesto de que la situación experimental presentaría un «estado normal». Si no se advierte este «estado normal», aunque en realidad existe, se trata de un error estadístico tipo I. Algunos ejemplos para el error tipo I serían:
  • Se considera que el paciente está enfermo, a pesar de que en realidad está sano; hipótesis nula: El paciente está sano.
  • Se declara culpable al acusado, a pesar de que en realidad es inocente; hipótesis nula: El acusado es inocente.
  • No se permite el ingreso de una persona, a pesar de que tiene derecho a ingresar; hipótesis nula: La persona tiene derecho a ingresar.

Errores en el contraste

Una vez realizado el contraste de hipótesis, se habrá optado por una de las dos hipótesis, la hipótesis nula o base H_0\,o la hipótesis alternativa H_1\,, y la decisión escogida coincidirá o no con la que en realidad es cierta. Se pueden dar los cuatro casos que se exponen en el siguiente cuadro:

H_0\, es cierta H_1\, es cierta
Se escogió H_0\, No hay error (verdadero positivo) Error de tipo II (β o falso negativo)
Se escogió H_1\, Error de tipo I (α o falso positivo) No hay error (verdadero negativo)
Si la probabilidad de cometer un error de tipo I está unívocamente determinada, su valor se suele denotar por la letra griega α, y en las mismas condiciones, se denota por β la probabilidad de cometer el error de tipo II, esto es:

\begin{matrix}
P(\mbox{escoger } H_1 | H_0 \mbox{ es cierta} ) = \alpha \\
P(\mbox{escoger } H_0 | H_1 \mbox{ es cierta} ) = \beta  \end{matrix}
En este caso, se denomina Potencia del contraste al valor 1-β, esto es, a la probabilidad de escoger H_1\, cuando esta es cierta
 P(\mbox{escoger }H_1 | H_1 \mbox{ es cierta}) = 1-\beta\,.

Pueba de Hipotesis

Si queremos decidir entre dos hipótesis que afectan a un cierto parámetro de la población, a partir de la información de la muestra usaremos el contraste de hipótesis, cuando optemos por una de estas dos hipótesis, hemos de conocer una medida del error cometido, es decir, cuantas veces de cada cien nos equivocamos.
En primer lugar, veremos cómo se escribirían las hipótesis que queremos contrastar:
  • H0 se llama hipótesis nula y es lo contrario de lo que sospechamos que va a ocurrir (suele llevar los signos igual, mayor o igual y menor o igual)
  • H1 se llama hipótesis alternativa y es lo que sospechamos que va a ser cierto (suele llevar los signos distinto, mayor y menor)
Los contrastes de hipótesis pueden ser de dos tipos:
  • Bilateral: En la hipótesis alternativa aparece el signo distinto.
  • Unilateral: En la hipótesis alternativa aparece o el signo > o el signo <.
Podemos aceptar una hipótesis cuando en realidad no es cierta, entonces cometeremos unos errores, que podrán ser de dos tipos:
  • Error de tipo I: Consiste en aceptar la hipótesis alternativa cuando la cierta es la nula.
  • Error de tipo II: Consiste en aceptar la hipótesis nula cuando la cierta es la alternativa.
Estos errores los aceptaremos si no son muy grandes o si no nos importa que sean muy grandes.
  • alfa: Es la probabilidad de cometer un error de tipo I.
  • beta: Es la probabilidad de cometer un error de tipo II.
De los dos, el más importante es alfa que llamaremos nivel de significación y nos informa de la probabilidad que tenemos de estar equivocados si aceptamos la hipótesis alternativa.
  1. Expresar la hipótesis nula

  2. Expresar la hipótesis alternativa
  3. Especificar el nivel de significancía
  4. Determinar el tamaño de la muestra
  5. Establecer los valores críticos que establecen las de rechazo de las de no rechazo.
  6. Determinar la prueba estadística.
  7. Coleccionar los datos y calcular el valor de la muestra de la prueba estadística apropiada.
  8. Determinar si la prueba estadística ha sido en la de rechazo a una de no rechazo.
  9. Determinar la decisión estadística.
  10. Expresar la decisión estadística en términos del problema.
Una prueba de hipótesis consiste en contrastar dos hipótesis estadísticas. Tal contraste involucra la toma de decisión acerca de las hipótesis. La decisión consiste en rechazar o no una hipótesis en favor de la otra. 

Hipotesis

Una hipótesis puede definirse como una solución provisional (tentativa) para un problema dado. El nivel de verdad que se le asigne a tal hipótesis dependerá de la medida en que los datos empíricos recogidos apoyen lo afirmado en la hipótesis. Esto es lo que se conoce como contrastación empírica de la hipótesis o bien proceso de validación de la hipótesis. Este proceso puede realizarse de uno o dos modos: mediante confirmación (para las hipótesis universales) o mediante verificación (para las hipótesis existenciales). 

Es una proposición que establece relaciones, entre los hechos; para otros es una posible solución al problema; otros mas sustentan que la hipótesis no es mas otra cosa que una relación entre las variables, y por último, hay quienes afirman que es un método de comprobación.

La hipótesis como proposición que establece relación entre los hechos: una hipótesis es el establecimiento de un vínculo entre los hechos que el investigador va aclarando en la medida en que pueda generar explicaciones lógicas del porqué se produce este vínculo.
Tamayo (1989 – 75): afirma que:
"La hipótesis es una proposición que nos permite establecer relaciones entre los hechos. Su valor reside en la capacidad para establecer mas relaciones entre los hechos y explicar el por que se producen".
Arias (1897 – 55) asegura que:
La hipótesis tiene como propósito llegar a la comprensión del porqué entre dos elementos se establece algún tipo definido de relación y establece que la hipótesis:
"Es una proposición respecto a alguno elementos empíricos y otros conceptos y sus relaciones mutuas, que emerge mas allá de los hechos y las experiencias conocidas, con el propósito de llegar a una mayor comprensión de los mismos".

La hipótesis como una posible solución del problema: la hipótesis no es solamente la explicación o comprensión del vínculo que se establece entre los elementos inmersos en un problema, es también el planteamiento de una posible solución al mismo.
Pardinas (1974 – 132):
"La hipótesis es una proposición anunciada para responder tentativamente a un problema".
Deben ser sustentada por Van Dalen (1974 – 170) conduce a una definición en la que se establece que:
"La hipótesis son posibles soluciones del problema que se expresan como generalizaciones o proposiciones. Se trata de enunciados que constan de elementos expresados según un sistema ordenado de relaciones, que pretenden describir o explicar condiciones o sucesos aún no confirmados por los hechos".