Atividades comerciais, governamentais e acadêmicas quase sempre exigem a coleta e a análise de dados. Uma das maneiras de representar dados numéricos é através de gráficos, histogramas e gráficos. Essas técnicas de visualização permitem que as pessoas tenham uma visão melhor dos problemas e criem soluções. Gaps, clusters e outliers são características de conjuntos de dados que influenciam a análise matemática e são facilmente visíveis em representações visuais.
Furos nos dados
Os intervalos referem-se a áreas ausentes em um conjunto de dados. Por exemplo, se um experimento científico coleta dados de temperatura no intervalo de 50 graus Fahrenheit a 100 graus Fahrenheit, mas nada entre 70 e 80 graus, isso representaria uma lacuna no conjunto de dados. Um gráfico de linha deste conjunto de dados teria "x" marcas para temperaturas entre 50 e 70 e novamente entre 80 e 100, mas não haveria nada entre 70 e 80. Os pesquisadores podem cavar mais fundo e explorar por que certos pontos de dados não aparecem em uma amostra coletada.
Grupos Isolados
Os clusters são grupos isolados de pontos de dados. Gráficos de linha, que são uma das maneiras de representar conjuntos de dados, são linhas com marcas "x" colocadas acima de números específicos para representar sua frequência de ocorrência no conjunto de dados. Um cluster é representado como uma coleção dessas marcas "x" em um pequeno intervalo ou subconjunto de dados. Por exemplo, se as pontuações do exame para uma turma de 10 alunos forem 74, 75, 80, 72, 74, 75, 76, 86, 88 e 73, a maioria das marcas "x" em um gráfico de linha estaria no 72- to-76 intervalo de pontuação. Isso representaria um cluster de dados. Observe que a frequência para 74 e 75 é dois, mas para todas as outras pontuações, é uma.
Nos Extremos
Outliers são valores extremos - pontos de dados que estão significativamente fora de outros valores em um conjunto de dados. Um outlier deve ser significativamente menor ou maior que a maioria dos números em um conjunto de dados. A definição de "extremo" depende da circunstância e do consenso dos analistas envolvidos na pesquisa. Os outliers podem ser pontos de dados ruins, também conhecidos como ruído, ou podem conter informações valiosas sobre o fenômeno sendo investigado e a própria metodologia de coleta de dados. Por exemplo, se as pontuações da turma estiverem na maior parte na faixa de 70 a 80, mas algumas pontuações estiverem na faixa dos 50s, elas podem representar valores discrepantes.
Colocando tudo junto>
, outliers e clusters em conjuntos de dados podem afetar os resultados da análise matemática. Lacunas e clusters podem representar erros na metodologia de coleta de dados. Por exemplo, se uma pesquisa por telefone pesquisar apenas determinados códigos de área, como complexos habitacionais de baixa renda ou áreas residenciais urbanas de alto nível, e não um amplo corte transversal da população, há chances de haver lacunas e clusters nos dados. . Os outliers podem distorcer o valor médio ou médio de um conjunto de dados. Por exemplo, o valor médio ou médio de um conjunto de dados que consiste em quatro números - 50, 55, 65 e 90 - é 65. Sem o outlier 90, no entanto, a média é de cerca de 57.