Análisis estadístico: población, muestra, medidas de centralización, dispersión, asimetría y apuntamiento, moda, mediana, rango intercuartílico, media aritmética, geométrica, cuadrática y armónica, coeficiente de Pearson, covarianza, momentos y varianza generalizada.

ecuacionesLas leyes físicas, al ser ésta una ciencia experimental, se formulan en base a los resultados obtenidos durante observaciones. Así pues, una ley representa una aproximación estadística a los resultados que cabe esperar de un experiencia concreta.

Si definimos población como el conjunto de elementos sobre el cual debería actuar una cierta ley, en general el número de los mismos es tan elevado que debemos recurrir al muestreo y seleccionar una muestra de la misma que más o menos contenga todas los posibles resultados.

Una vez analizada una muestra, un posterior tratamiento estadístico nos permitirá estudiar si es posible generalizar algunas características para toda la población o no. Veremos en este tema, pues, cómo analizar muestras.

Tipos de Variables:

Cuando el fenómeno que vamos a estudiar toma valores muy concretos (un dado solo puede valer 1, 2, 3, 4, 5 ó 6), hablamos de una variable discreta.

Cuando el fenómeno toma una cantidad de valores infinita y no numerable (las posibles alturas de una persona), hablamos de una variable continua. Al proceso mediante el cual aproximamos una variable continua a una discreta se le denomina discretización de la variable.

Si la altura un conjunto de 100 personas está entre 1,6 metros y 2 metros, una forma de discretizar la variable continua es agrupar las alturas en intervalos o clases de 0,05 m: [1,6 metros, 1,65 metros) …, de tal modo que un valor no esté en dos grupos distintos.

En caso de que el posible número de valores de una variable discreta o discretizada sea muy amplio, lo aconsejable es discretizarla aún más, en un número de clases próximo a la raíz cuadrada del número de valores (Si hay 100 resultados posibles los agruparemos en 10 clases).

Tabla de frecuencias:

tablasUna vez que tenemos nuestras variables discretizadas, es aconsejable escribir sus tablas de frecuencia, que pueden tener una infinidad de componentes, de los cuales 3 suelen aparecer siempre:

  • La columna de las clases “xi”, en la que se indicará el nombre de todas las clases que aparecen en el experimento.
  • La columna de frecuencias absolutas “ni”, que, junto a la columna de clases, indicará el número de veces que aparece cada una.
  • La columna de frecuencias relativas “fi”, que indica lo mismo que la anterior, pero dividido entre el número total de resultados “N”. Si el número “N” de veces que tiramos el dado es igual a 10, y el valor “xi” igual a 5 aparece 4 veces (ni), su frecuencia relativa es fi = ni / N = 4 / 10.

Medidas de Centralización:

Una vez que hemos obtenido una muestra y hemos escrito la correspondiente tablas de frecuencias, es interesante empezar a estudiar en torno a qué clases hay mayor acumulación de elementos. Hay varias formas de estudiar esto.

.-Moda: es la clase o el conjunto de clases que más veces aparecen. En general es única, multiplicándose con cuantas más clases tengan el mayor número de frecuencia absoluta. Se representa por “Md”.

.-Mediana: si consideramos el número “N” de elementos analizados y los ordenamos por orden según el valor de sus clases, denominamos mediana a la clase del elemento “N / 2”. Se representa por “Me”.

.-Primer Cuartil: igual que en el caso anterior. En esta ocasión será el elemento “N / 4”.

.-Tercer Cuartil: igual que en los casos anteriores. En esta ocasión será el elemento “3 N / 4”.

De entre todas las medidas de centralización, sin duda, las más importantes son las medias, por la complejidad de su cálculo. Fundamentalmente hay cuatro tipos de medias, a saber:

.-Arimética: se suman todos los elementos y el resultado se divide entre el número total de elementos. Se representa por “x‾”, y analíticamente se expresa:

  • x‾ = ∑(xi) desde “1” hasta “N” / N.

Si “K” es el número de clases, podremos simplificar la expresión sumando cada clase un número de veces igual a su frecuencia absoluta:

  • x‾ = ∑(xi ni) desde “1” hasta “K” / N = ∑(fi xi) desde “1” hasta “K”.

.-Geométrica: se multiplican todos los elementos y al resultado se le aplica la raíz N-ésima.

  • xg‾ = (Π(xi) desde “1” hasta “N”)^1/N.

Sin embargo, la forma más común de expresarla es como 10 elevado a la media de los logaritmos de los elementos:

  • xg‾ = 10^(log(x)‾).

.-Cuadrática: se suman todos los elementos elevados al cuadrado, y al resultado se le aplica la raíz cuadrada:

  • xq = (∑(xi^2) desde “1” hasta “N”)^1/2.

Sin embargo, es más usual verla expresado como la raíz de la media de los cuadrados de los elementos:

  • xq‾ = (x^2‾)^1/2.

.-Armónica: se define su inversa como la media de la suma de las inversas de los elementos, de modo que:

  • xa = 1 / ((1 / x)‾).

Suele acontecer la siguiente relacion:

  • xa ≤ xg‾ ≤ x‾ ≤ xq‾.

Medidas de Dispersión:

dispersionEste nuevo tipo de medidas es útil para saber más o menos el nivel de concentración de los datos. Así pues, se puede interpretar como una forma de valorar la fiabilidad de decir que la mayoría se agrupan en torno a un valor. Cuanta mayor sea la dispersión mayor será la aleatoriedad del experimento.

.-Rango: es la diferencia entre el elemento de mayor valor y el el de menor valor.

.-Rango Intercuartílico: es la diferencia entre el primer y el tercer cuartiles.

.-Varianza: se define como la suma de las distancias al cuadrado entre cada elemento y la media aritmética, dividida cada una de ellas entre el número de elementos:

  • s^2 = ∑([xi – x‾]^2) desde “1” hasta “N” / N.

.-Desviación Típica: se define como la raíz cuadrada de la varianza. Posee las mismas unidades que los elementos y por tanto es la que se les puede sumar. Se define como:

  • s = [s^2]^1/2.

En general, en distribuciones de datos normales o gaussianas, el intervalo (x‾ – 2 s, x‾ + 2 s) contiene el 95% de los elementos.

Conociendo todo esto, es interesante introducir el llamado Coeficiente de Pearson para dispersiones, que se define como:

  • cp = s / x‾.

Factor “k”:

  • k = (xi – x‾) / s(x).

Básicamente es una medida que da una idea de lo alejado que está un elemento de la media aritmética, es por eso que al valor del elemento “xi” se le resta el de la media de los elementos “x”, y después se divide entre la desviación típica de los “xi”. Si la distancia de un elemento a la media es menor que la desviación típica, diramos que está poco disperso, en caso contrario diremos que está bastante disperso.

La Desigualdad de Tchebychev:

  • f(xi//|xi – x‾| > k s) < 1 / k^2.

, es otro dato importante en las medidas de dispersión, pues implica que cuando un elemento está alejado k s veces de la media su frecuencia será menor que la inversa del cuadrado de “k”.

.-Momentos Característicos de la Distribución de Datos:

Se define como el momento de orden r-ésimo respecto a un valor “c” en una distribución de datos a la expresión:

  • mr(c) = (x – c)^r‾.

, es decir, la media de las distancias de los elementos a “c” elevadas a “r”.

Así pues, el momento de primer orden respecto a “0” es la media, y el momento de segundo orden respecto a la media es la varianza.

Medidas de Asimetría:

asimetriaLa asimetría, como su propio nombre nos indica, nos da una idea de hacia qué lado de la media están más agrupados los datos, y en general usaremos dos coeficientes, siendo uno de ellos mucho más fiable que el otro.

.-Coeficiente de Pearson: se define como el cociente de la distancia de la media a la moda, dividido entre la desviación típica. Si es positivo hablamos de asimetría positiva, y análogamente trataremos los valores negativos:

  • Ap = (x‾ – Md) / s.

Tiene el fallo de que no considerar la posibilidad de que haya más de una moda.

.-Coeficiente de Fisher: se define como el momento de tercer orden respecto a la media dividido entre el cubo de la desviación típica:

  • Af = m3(x‾) / s^3.

, que en última instancia es:

  • ∑(fi(xi – x‾)^3) desde “1” hasta “K” / s^3.

Medidas de Apuntamiento:

curtosisEn última instancia, el apuntamiento nos da una idea de lo importante que es la media en una distribución (si los datos se amontonan ciertamente en torno a ella o no). El factor curtosis, que es el que nos ayudará a determinar esta característica, se define como:

  • g = m4(x‾) / s^4.

Si “g” es igual a 3, la distribución será normal o gaussiana. Si “g” es menor que 3, la distribución será leptocúrtica, y si “g” es mayor que 3 la distribución será platicúrtica.

Distribuciones Bivariantes:

Son otro tipo de distribuciones en las que, para un mismo elemento, analizamos dos características “x” e “y” en vez de una, y posteriormente analizamos si están relacionadas en toda la muestra. Un ejemplo de este tipo de distribuciones pueden ser: la altura y el peso (sin relación), las notas en dos asignaturas (más o menos relacionadas), o la masa y el peso (completamente relacionadas)…

Medidas interesantes de este tipo de distribuciones son:

.-Distribución de Frecuencia Marginal:

Hablamos de Frecuencia Absoluta Marginal para referirnos al número de veces que una de las variables toma cierto valor. Así, la frecuencia absoluta marginal del valor “xi” de la variable “x” es el número de veces que aparece, independientemente del valor de “y”. Así pues, matemáticamente la expresaremos como la suma de las veces que que aparece “xi” junto a todos los valores de “y” que comparte, que serán “j”:

  • nxi = ∑(nij) desde “j=1” hasta “l”.

Análogamente:

  • nyj = ∑(nij) desde “i=1” hasta “k”.

, siendo “k” el número de valores de “x” ue pueden aparecer con “yj”.

La Frecuencia Relativa Marginal la podemos obtener sustituyendo “nij” por “fij”:

  • fxi = ∑(fij) desde “j=1” hasta “l”.
  • fyj = ∑(fij) desde “i=1” hasta “k”.

.-Frecuencias Coordinadas:

Definimos la frecuencia coordinada “f'” respecto a un valor “xi” como el cociente de la frecuencia relativa de algún elemento que tome el valor “xi” y la frecuencia relativa marginal de “xi”:

  • f'(yj // x = xi ) = fij / fxi.

(La frecuencia coordinada para cualquier valor de “y” siempre y cuando “x = xi”). Análogamente:

  • f'(xi // y = yj) = fij / fyj.

.-Momentos bivariantes:

Definimos el momento de una distribución bivariante de datos de orden “r, s” respecto a los puntos “c, d” como:

  • m”r,s”(c,d) = ∑(∑(fij (xi – c)^r (yj – d)^s) desde “j = 1” hasta “l”) desde “i = 1” hasta “k”.

Se cumplen las siguientes propiedades:

  • m”0,0″(c,d) = 1. El momento “0,0” respecto a (c,d) es siempre la unidad.
  • m”1,0″(0,d) = x‾. El momento “1,0” respecto a (0,d) es siempre la media de la variable “x”.
  • m”0,1″(c,0) = y‾. El momento “0,1” respecto a (c,0) es siempre la media de la variable “y”.
  • m”2,0″(x‾,d) = s(x)^2. El momento “2,0” respecto a (x‾,d) es siempre la varianza de la variable “x”.
  • m”0,2″(c,y‾) = s(y)^2. El momento “0,2” respecto a (c,y‾) es siempre la varianza de la variable “y”.

.-Covarianza:

Se define la covarianza de una distribución bivariante como el momento “1,1” respecto a (x‾,y‾).

  • Cov(x,y) = m”1,1″(x‾,y‾) = ∑(∑(fij (xi – x‾) (yj – y)) desde “j = 1” hasta “l”) desde “i = 1” hasta “k”. Desarrollando el producto nos resulta: Cov(x,y) = ∑(∑(fij (xi yi – x‾ yi – xi y‾ + x‾ y)) desde “j = 1” hasta “l”) desde “i = 1” hasta “k” = (x y)‾ – x‾ y‾ – x‾ y‾ + x‾ y‾ = (x y)‾ – x‾ y‾.

La covarianza es igual a la media del producto “xi yi” menos el producto de la media de la variable “x” por la media de la variable “y”.

La covarianza de una variable consigo misma es siempre igual a la varianza de la misma:

  • Cov(x,x) = (x^2)‾ – (x‾)^2 = s(x)^2.

.-Coeficiente de Correlación:

Para ver la relación entre las dos variables se establecen varios coeficientes de correlación, que indican el tipo de relación entre las mismas. Veremos ahora el Coeficiente de Correlación Lineal “r”, que tan solo nos da una idea de si las variables son directa o inversamente proporcionales, y cuanto. Este coeficiente es igual a la covarianza dividida entre el producto de las varianzas de cada una de las dos variables a analizar:

  • r = Cov(x,y) / (s(x) s(y).

Se puede comprobar que “r” es adimensional, y que toma valores entre “-1” y “1”. Cuanto más cerca esté del “1” mayor será la relación directa entre las variables, siendo perfecta en el “1”. Cuando más cerca esté del “-1” mayor será la relación inversa entre las variables, siendo perfecta en el “-1”. Finalmente, cuanto más cerca esté del “0” menor será la relación entre las variables, siendo completamente independientes en el “0”.

Rectas de Regresión de una Variable sobre Otra:

regresionUna vez obtenido un coeficiente de correlación entre dos variables de una distribución multivariante, y comprobado que existe una dependencia entre las mismas, es posible calcular la ecuación de una recta que se aproxime bastante a todos los elementos obtenidos.

En dos dimensiones, podremos considerar a esta recta por su ecuación explícita: y = m x + n, siendo “x” e “y” las componentes de los puntos contenidos en ella, “m” la pendiente, y “n” una constante.

Si “y” representa la variable “y” de la distribución, hablaremos de la recta de regresión de “y” sobre “x”. Si “y” representa la variable “x” de la distribución, hablaremos de la recta de regresión de “x” sobre “y”.

Nosotros veremos como ejemplo el primer caso, pero el otro sería idéntico.

La distancia sobre “y” de la recta “r” a un punto Pi(xi, yi) es:

  • ¬d(r,Pi) = (xi, m xi + n) – (xi, yi) = (0, m xi + n – yi).

Lo expresaremos siempre elevado al cuadrado para que sea positivo:

  • d = (m xi + n – yi)^2.

Así pues, la suma de todas las distancias es:

  • ¬dt = (0, ∑((m xi + n – yi)^2) desde “i = 1” hasta “N”).

Como queremos que “dt” sea mínima, es decir, que la distancia total de los puntos a la recta sea lo más pequeña posible, recurrimos a la primera derivada.

Como es la derivada de un vector (tiene dos componentes), tenemos que aplicar la función gradiente para derivar, y consecuentemente el operador nabla “¬Å”, que como ya expliqué en su ocasión represento por este símbolo porque wordpress.com no dispone del de verdad.

  • ¬Å ¬dt = (2 ∑(m xi + n – yi) desde “i = 1” hasta “N”, 2 ∑(xi (m xi + n – yi)) desde “i = 1” hasta “N”).

El primer término es la derivada respecto a “n”, y el segundo es la derivada respecto a “m”.

Como ambas derivadas tienen que ser “0” para que encontremos el mínimo, obtenemos:

  • 2 ∑(m xi + n – yi) desde “i = 1” hasta “N” = 0.
  • 2 ∑(xi (m xi + n – yi)) desde “i = 1” hasta “N” = 0.

equivalentes a:

  • ∑(yi) desde “i=1” hasta “N” = n ∑(1) desde “i=1” hasta “N” + m ∑(xi) desde “i=1” hasta “N”.
  • ∑(yi) desde “i=1” hasta “N” = n ∑(xi) desde “i=1” hasta “N” + m ∑(xi^2) desde “i=1” hasta “N”.

Operando, obtenemos que:

  • m = Cov(x,y) / s(x)^2.

Asimismo, como el punto P(x‾, y‾) va a ser el Centro de Gravedad del Ajuste, pues siempre será el punto de corte de las dos posibles  rectas de regresión, sabemos que, al ser una recta, se cumple:

  • y‾ = m x‾ + n, de donde: n = y‾ – m x‾.
Comments
One Response to “Análisis estadístico: población, muestra, medidas de centralización, dispersión, asimetría y apuntamiento, moda, mediana, rango intercuartílico, media aritmética, geométrica, cuadrática y armónica, coeficiente de Pearson, covarianza, momentos y varianza generalizada.”
  1. Ericka :-) dice:

    Muchas grax me ayudaste bastante c0n mi tarea ;-)

Preguntas, correcciones y debate son bien recibidos.

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: