En estadística, un valor atípico o "atípico" es un datum que se desvía mucho de cualquier otro datum dentro de una muestra o conjunto de datums (el conjunto de datums se llama datos). A menudo, un valor atípico en un conjunto de datos puede servir como una advertencia para el estadístico de una anomalía o error experimental en las mediciones tomadas, lo que podría llevar al estadístico a eliminar el valor atípico del conjunto de datos. Si el estadístico elimina los valores atípicos del conjunto de datos, las conclusiones extraídas del estudio pueden ser muy diferentes. Por lo tanto, saber cómo calcular y analizar valores atípicos es muy importante para garantizar la comprensión correcta de un conjunto de datos estadísticos.
Paso
Paso 1. Aprenda a identificar datums potencialmente atípicos
Antes de decidir si eliminar los datums atípicos del conjunto de datum o no, por supuesto, debemos identificar qué datums tienen el potencial de convertirse en atípicos. En general, un valor atípico es un datum que se desvía mucho de los otros datums en un conjunto de datum; en otras palabras, un valor atípico está “fuera” de los otros datums. Por lo general, es fácil detectar valores atípicos en una tabla de datos o (en particular) en un gráfico. Si un conjunto de datums se describe visualmente con un gráfico, el datum atípico parecerá estar "muy lejos" de los otros datums. Si, por ejemplo, la mayoría de los puntos de referencia de un conjunto de puntos de referencia forman una línea recta, no se interpretará razonablemente que el punto de referencia atípico forma esa línea.
Veamos un conjunto de referencias que representan las temperaturas de 12 objetos diferentes en una habitación. Si 11 objetos tienen una temperatura de aproximadamente 70 Fahrenheit (21 grados Celsius), pero el duodécimo objeto, un horno, tiene una temperatura de 300 Fahrenheit (150 grados Celsius), se puede ver inmediatamente que es muy probable que la temperatura del horno sea mayor. un valor atípico
Paso 2. Organice los puntos de referencia en un conjunto de puntos de referencia de menor a mayor
El primer paso para calcular valores atípicos en un conjunto de datos es encontrar la mediana (valor medio) de ese conjunto de datos. Esta tarea se vuelve muy simple si los datums en un conjunto de datums están ordenados desde el más pequeño al más grande. Por lo tanto, antes de continuar, organice los puntos de referencia en uno de esos conjuntos de datos.
Continuemos con el ejemplo anterior. Este es nuestro conjunto de referencias que representan las temperaturas de varios objetos en una habitación: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Si ordenamos los datums de menor a mayor, el orden de los datums se convierte en: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}
Paso 3. Calcule la mediana del conjunto de datos
La mediana de un conjunto de datos es un punto de referencia en el que la otra mitad del punto de referencia está por encima de ese punto de referencia y la mitad restante está por debajo. Básicamente, ese punto de referencia es el punto de referencia que está en el "medio" del conjunto de datos. Si el número de referencias en un conjunto de referencias es impar, es muy fácil de encontrar: la mediana es la referencia que tiene el mismo número por encima y por debajo. Sin embargo, si el número de datums en el conjunto de datums es par, entonces, debido a que ningún datum cabe en el medio, los 2 datums del medio se promedian para encontrar la mediana. Cabe señalar que, al calcular los valores atípicos, a la mediana se le suele asignar la variable Q2-ni porque Q2 se encuentra entre Q1 y Q3, el cuartil inferior y superior, que analizaremos más adelante.
- No debe confundirse con un conjunto de datos donde el número de puntos de referencia es par (el promedio de los 2 puntos de referencia intermedios a menudo devolverá un número que no está en el conjunto de datos). Esto está bien. Sin embargo, si los 2 datos intermedios son el mismo número, el promedio, por supuesto, también será el mismo número, lo que también está bien.
- En el ejemplo anterior, tenemos 12 referencias. Los 2 datums intermedios son los datums 6 y 7: 70 y 71 respectivamente. Entonces, la mediana de nuestro conjunto de datums es el promedio de estos 2 números: ((70 + 71) / 2), = 70.5.
Paso 4. Calcula el cuartil inferior
Este valor, que le damos a la variable Q1, es el datum que representa el 25 por ciento (o una cuarta parte) de los datums. En otras palabras, es el datum el que biseca los datums que están por debajo de la mediana. Si el número de puntos de referencia por debajo de la mediana es par, debe volver a promediar los 2 puntos de referencia en el medio para encontrar Q1, tal como lo haría para encontrar la propia mediana.
En nuestro ejemplo, hay 6 referencias que se encuentran por encima de la mediana y 6 referencias que se encuentran por debajo de la mediana. Esto significa que, para encontrar el cuartil inferior, necesitaremos promediar los 2 datums en el medio de los 6 datums por debajo de la mediana. El tercer y cuarto datums de 6 datums por debajo de la mediana son ambos 70. Entonces, el promedio es ((70 + 70) / 2), = 70. 70 se convierte en nuestro Q1.
Paso 5. Calcule el cuartil superior
Este valor, que le damos a la variable Q3, es el datum en el que hay un 25 por ciento de los datums en el conjunto de datum. Encontrar Q3 es prácticamente lo mismo que encontrar Q1, excepto que, en este caso, estamos mirando los datums por encima de la mediana, no por debajo de la mediana.
Continuando con nuestro ejemplo anterior, los 2 datums en el medio de los 6 datums por encima de la mediana son 71 y 72. El promedio de estos 2 datums es ((71 + 72) / 2), = 71, 5. 71, siendo 5 nuestro Q3.
Paso 6. Encuentra la distancia intercuartil
Ahora que hemos encontrado Q1 y Q3, necesitamos calcular la distancia entre estas dos variables. La distancia de Q1 a Q3 se calcula restando Q1 de Q3. Los valores que obtiene para las distancias intercuartiles son muy importantes para definir los límites de los datums no atípicos en su conjunto de datum.
- En nuestro ejemplo, nuestros valores de Q1 y Q3 son 70 y 71, 5. Para encontrar la distancia intercuartil, restamos Q3 - Q1 = 71.5 - 70 = 1, 5.
- Cabe señalar que esto también es cierto incluso si Q1, Q3 o ambos son números negativos. Por ejemplo, si nuestro valor de Q1 fuera -70, nuestra distancia intercuartil correcta sería 71,5 - (-70) = 141, 5.
Paso 7. Busque la "valla interior" en el conjunto de datos
Los valores atípicos se encuentran comprobando si el datum cae dentro de los límites numéricos llamados "cerca interior" y "cerca exterior". Un datum que cae fuera del cerco interior del conjunto de datum se denomina "valor atípico menor", mientras que un datum que cae fuera del cerco exterior se denomina "valor atípico mayor". Para encontrar la valla interior en su conjunto de datos, primero multiplique la distancia intercuartil por 1, 5. Luego, sume el resultado por Q3 y también réstelo de Q1. Los dos valores que obtiene son los límites de la cerca interior de su conjunto de datos.
-
En nuestro ejemplo, la distancia intercuartil es (71,5 - 70), o 1,5. Multiplica 1,5 por 1,5, lo que da como resultado 2,25. Sumamos este número a Q3 y restamos Q1 por este número para encontrar los límites de la cerca interior de la siguiente manera:
- 71, 5 + 2, 25 = 73, 75
- 70 - 2, 25 = 67, 75
- Entonces, los límites de nuestra cerca interior son 67, 75 y 73, 75.
-
En nuestro conjunto de referencias, solo la temperatura del horno, 300 Fahrenheit, está fuera de estos límites, por lo que esta referencia es un valor atípico menor. Sin embargo, todavía no hemos calculado si esta temperatura es un valor atípico importante, así que no saque conclusiones precipitadas hasta que hayamos hecho nuestros cálculos.
Paso 8. Busque la "valla exterior" en el conjunto de datos
Esto se hace de la misma manera que para encontrar la cerca interior, excepto que la distancia intercuartil se multiplica por 3 en lugar de 1,5. El resultado luego se suma a Q3 y se resta de Q1 para encontrar los límites superior e inferior de la cerca exterior.
-
En nuestro ejemplo, multiplicar la distancia intercuartil por 3 da (1, 5 x 3), o 4, 5. Encontramos los límites de la cerca exterior de la misma manera que antes:
- 71, 5 + 4, 5 = 76
- 70 - 4, 5 = 65, 5
- Los límites de la cerca exterior son 65,5 y 76.
-
Los datums que se encuentran fuera del límite de la cerca exterior se denominan valores atípicos principales. En este ejemplo, la temperatura del horno, 300 Fahrenheit, está claramente fuera de la cerca exterior, por lo que este dato es "definitivamente" un valor atípico importante.
Paso 9. Utilice un juicio cualitativo para determinar si se debe "descartar" o no el dato atípico
Usando el método descrito anteriormente, se puede determinar si un dato es un dato menor, un dato mayor o no un valor atípico en absoluto. Sin embargo, no se equivoque: encontrar un dato como un valor atípico solo lo marca como un "candidato" para ser eliminado del conjunto de datos, no como un dato que "debería" descartarse. La "razón" que hace que un datum atípico se desvíe de otros datums en un conjunto de datum es muy importante para determinar si se debe descartar o no. En general, un valor atípico causado por un error en la medición, el registro o la planificación experimental, por ejemplo, puede descartarse. Por otro lado, los valores atípicos que no son causados por errores y que indican nueva información o tendencias que no se habían predicho previamente, generalmente “no” se descartan.
- Otro criterio a considerar es si el valor atípico tiene un gran efecto en la media de un conjunto de datos, es decir, si el valor atípico lo confunde o hace que parezca incorrecto. Es muy importante considerar esto si tiene la intención de sacar conclusiones del promedio de su conjunto de datos.
-
Estudiemos nuestro ejemplo. En este ejemplo, dado que parece "altamente" improbable que el horno alcanzara los 300 Fahrenheit a través de fuerzas naturales impredecibles, podemos concluir con casi certeza que el horno se dejó encendido accidentalmente, lo que resultó en una anomalía de referencia de alta temperatura. Además, si no eliminamos los valores atípicos, la media de nuestro conjunto de datos es (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 Fahrenheit (32 grados Celsius), mientras que el promedio si eliminamos los valores atípicos es (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 Fahrenheit (21 grados Celsius).
Dado que estos valores atípicos fueron causados por un error humano y porque sería incorrecto decir que la temperatura ambiente promedio alcanza casi los 90 Fahrenheit (32 grados Celsius), es mejor que decidamos “desechar” nuestros valores atípicos
Paso 10. Conozca la importancia (a veces) de mantener valores atípicos
Aunque algunos valores atípicos deben eliminarse del conjunto de datos porque causan errores y / o hacen que los resultados sean inexactos o erróneos, algunos valores atípicos deben mantenerse. Si, por ejemplo, un valor atípico parece adquirirse de forma natural (es decir, no es el resultado de un error) y / o proporciona una nueva perspectiva sobre el fenómeno en estudio, el valor atípico no debe eliminarse del conjunto de datos. La investigación científica suele ser una situación muy delicada cuando se trata de valores atípicos: la eliminación incorrecta de los valores atípicos puede significar descartar información que indique una nueva tendencia o descubrimiento.