O termo “outlier” é utilizado para se referir a qualquer elemento que contrarie o senso comum. Ou seja, é tudo aquilo que foge a alguma regra.
Existem vários métodos para identificar “outliers“. A escolha depende do contexto e do objectivo da análise. Alguns dos métodos incluem:
Ordenação dos dados
Ao ordenar os dados por ordem crescente ou decrescente, pode tornar-se evidente que certos valores são muito superiores ou inferiores aos restantes. Por exemplo, no conjunto:
1, 1, 3, 4, 5, 5, 102
É provável que se identifique o valor 102 como um “outlier”. Posteriormente, deve analisar-se esse valor com mais detalhe para compreender a sua origem.
Visualização de dados
Outra forma de identificar “outliers” é através da visualização gráfica dos dados. Pode recorrer a diferentes tipos de gráficos, sendo os mais comuns os histogramas e os diagramas de dispersão.
Histogramas
Os histogramas apresentam os dados em intervalos (“bins”), que representam segmentos do conjunto de dados. Cada intervalo mostra quantos valores se encontram dentro de um determinado intervalo. Isto permite identificar facilmente valores fora do padrão. Por exemplo, se existirem muitos valores entre 10 e 30 e um valor isolado em 200, este último poderá ser um “outlier”.
Diagramas de dispersão (scatter plots)
Os diagramas de dispersão representam os dados num gráfico com eixo horizontal (x) e eixo vertical (y). Normalmente, a maioria dos pontos forma um agrupamento. Se existir um ponto muito afastado desse grupo, é provável que seja um “outlier”.
Fonte: Coursera

