ISSN: 2165- 7866
Abdalla Bala e Alain Abran
Os repositórios multiorganizacionais, em particular aqueles baseados em contribuições voluntárias de dados, como o repositório do International Software Benchmarking Standards Group (ISBSG), podem não ter um grande número de valores para muitos dos seus campos de dados, bem como incluir alguns valores discrepantes. Este artigo sugere uma série de problemas de qualidade de dados associados ao repositório ISBSG que podem comprometer os resultados para os utilizadores que o exploram para fins de benchmarking ou para construir modelos de estimativa. Propomos uma série de critérios e técnicas para o pré-processamento dos dados, de forma a melhorar a qualidade das amostras identificadas para análise estatística detalhada, e apresentamos uma estratégia de imputação múltipla (MI) para lidar com conjuntos de dados com valores em falta.