Os “outliers” são pontos de dados que diferem acentuadamente dos restantes. Podem distorcer a análise ou revelar informações raras e valiosas quando analisados de forma adequada.
A detecção eficaz de “outliers” requer a escolha do método adequado, dependendo da forma dos dados, da sua origem e do objectivo da análise.
É possível identificar e tratar “outliers” para melhorar a precisão dos dados, descobrir informações raras e reduzir enviesamentos na análise.
O que são “outliers” nos dados?
Os “outliers” são valores que se situam fora da maioria dos dados num determinado conjunto. Estes valores podem ser significativamente mais elevados ou mais baixos do que os restantes e podem influenciar os resultados da análise de forma a distorcer a representação da amostra.
Ao aprender a identificar e tratar “outliers”, os analistas de dados aumentam a probabilidade de que as suas análises reflictam com maior exactidão a validade e a fiabilidade dos resultados.
O papel dos “outliers” na análise de dados
Os “outliers” desempenham um papel importante na análise de dados, variando consoante a sua origem e impacto. Em alguns casos, podem fornecer informações sobre acontecimentos raros, indicando a necessidade de uma análise mais aprofundada.
Por exemplo, na área da saúde, um “outlier” pode representar um indivíduo com sintomas ou padrões de recuperação invulgares. Isto pode justificar uma investigação adicional, como a análise de pacientes com características semelhantes para prever possíveis resultados.
Noutros casos, os “outliers” podem resultar de erros. Inexactidões na medição, erros de digitação ou outros factores podem introduzir ruído no conjunto de dados que não representa a realidade. A presença de “outliers” também pode indicar baixa qualidade dos dados e introduzir enviesamentos na análise. Se existirem erros sistemáticos na recolha de dados, será necessário tomar decisões informadas sobre como proceder.
Fonte: Coursera

