Skip to content

Valores Outliers (3 de 3)

febrero 17, 2009

Por Macario Hernández Garza
Sistemas de Optimización y Estadística, S. C. Copyright © 2009. Todos los derechos reservados.

En un artículo cuyo autor desconozco, pero que usted puede encontrar aquí:  http://exploringdata.cqu.edu.au/box_norm.htm

En ese artículo el autor prueba que utilizando la regla Q1-1.5(Q3-Q1) (ó Q3+1.5(Q3-Q1)) para decidir si un valor es outlier y la distribución es normal, entonces se tiene una probabilidad muy cercana a 0.01, de observar un valor outlier (Para ver la definición de valor outlier y los valores Q1, Q2 y Q3, vea el post anterior Valores outliers (1 de 3).

También el autor prueba que usando la regla Q1-2(Q3-Q1) (ó Q3+2(Q3-Q1)) para decidir si un valor es outlier y la distribución es normal, entonces se tiene una probabilidad de 0.0008 de observar un valor outlier, es decir cerca 0.001, aproximadamente un valor outlier en mil valores observados.

La moraleja de lo anterior es que, si utilizamos la primera regla tendremos más probabilidad de observar un valor outlier y en cualquier de las dos reglas a mayor número de valores, mayor es la posibilidad de observar valores outliers. Así, si tenemos 1000 valores de una distribución normal, no sería raro observar alrededor de 10 valores outlier (poco más o poco menos por las situaciones de aleatoriedad), además de que no nos estarían diciendo nada raro, es bastante probable que estos valores procedan de esa distribución y no sean producto de algún error.

distnormal500Figura 1

Se generaron 500 valores aleatorios con distribución normal estándar, es decir, con media cero y desviación estándar uno. En la Figura 1 se tienen cinco gráficos en uno: el histograma; la línea continua es la distribución teórica; la línea punteada la función de densidad basada en los datos; las líneas verticales debajo de la base del histograma son los valores individuales y en la parte inferior esta un gráfico box-plot el cual puede ver su definición aquí: (http://es.wikipedia.org/wiki/Box_plot), o una definición más completa aquí (http://en.wikipedia.org/wiki/Box_plot).  Los círculos que están a la izquierda y a la derecha del box-plot, son los valores outliers, los cuales son tres, lo cual es bastante probable pertenezcan a la distribución, recuérdese que hay una probabilidad de 0.01 de observar un valor outlier que pertenezca a la distribución, cabría esperar observar 5 valores outliers, pero cabe esperar una pequeña variabilidad aleatoria en el número de valores outlier a observar.

distnormal3000Figura 2

En la Figura 2 anterior tenemos 3000 valores aleatorios procedentes de una distribución normal estándar, cabría esperar alrededor de 30 valores outlier. Vemos que a diferencia del caso anterior, ahora tenemos más valores outlier, dado que tenemos más valores (3000).

distnormal3000outlierextFigura 3

En la Figura 3, tenemos otros 3000 valores aleatorios procedentes de una distribución normal estándar, pero ahora hubo mano negra, puse un valor de 9 (para simular un error de dedo), y vemos que ese valor de la derecha es un auténtico valor outlier extremo. En situaciones de este tipo podemos sospechar de un auténtico error.

distexp500Figura 4

En la Figura 4 tenemos 500 valores aleatorios procedentes de una distribución exponencial, podemos ver que hay un buen número de valores outliers. En este caso no hay nada extraño, lo que ocurre es que tenemos una distribución bastante sesgada. Entonces debemos de tener cuidado al juzgar los valores outliers de una distribución.

Observación: Los gráficos anteriores fueron hechos con el software R, el cual es un software abierto y gratuito. Este software es un software estadístico y para hacer gráficas estadísticas de gran calidad.

Usted puede descargar este software en su versión de Windows del siguiente link: http://cran.r-project.org/bin/windows/base/

No comments yet

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: