ISSN: 2161-0932
Rinhart John
Enquadramento: Os dilemas de tomada de decisão clínica são particularmente notáveis na prática da fertilização in vitro, uma vez que são frequentemente gerados grandes conjuntos de dados que permitem aos médicos fazer previsões que informam as escolhas de tratamento. Este estudo aplicou a aprendizagem automática utilizando dados de fertilização in vitro para determinar o risco de gémeos quando dois ou mais embriões estão disponíveis para transferência. Embora a maioria dos classificadores seja capaz de fornecer estimativas de precisão, este estudo foi mais longe, comparando os classificadores tanto por precisão como por Área Sob a Curva (AUC).
Métodos: Os dados do estudo foram derivados de um grande sistema de registos médicos eletrónicos utilizado por mais de 140 clínicas de FIV e continha 135.000 ciclos de FIV. O conjunto de dados foi reduzido de 88 variáveis para 40 e incluiu apenas os ciclos de FIV em que foram criados dois ou mais embriões blastocisto. Os seguintes classificadores foram comparados em termos de precisão e AUC: um modelo linear generalizado, análise discriminante linear, análise discriminante quadrática, K-vizinhos mais próximos, máquina de vetores de suporte, florestas aleatórias e reforço. Foi também aplicado um algoritmo de aprendizagem de conjunto de empilhamento para utilizar previsões de classificadores para criar um novo modelo.
Resultados: Embora o classificador conjunto tenha sido o mais preciso, nenhum dos classificadores predominou como sendo significativamente superior aos outros classificadores. As descobertas indicaram que os métodos de reforço para classificadores tiveram um desempenho insatisfatório; os classificadores de análise discriminante logística e linear tiveram um melhor desempenho do que o classificador de análise discriminante quadrática, e a máquina de vetores de suporte teve um desempenho quase tão bom como o classificador de árvore. Os resultados da ASC foram consistentes com as comparações de precisão. A validação externa foi também realizada utilizando um conjunto de dados diferente contendo 588 observações. Todos os modelos tiveram um melhor desempenho utilizando o conjunto de dados de validação externa, com o classificador de floresta aleatória a apresentar um desempenho notavelmente melhor do que qualquer outro classificador.
Conclusões : Estes resultados suportam a impressão de que o big data pode ser valioso no processo de tomada de decisão clínica; mas nenhum algoritmo estatístico fornece a máxima precisão para todas as bases de dados. Portanto, diferentes conjuntos de dados exigirão investigação para determinar quais os algoritmos mais precisos para um determinado conjunto de dados. Estas descobertas sublinham a premissa de que os médicos com acesso a grandes quantidades de dados podem utilizar modelos analíticos preditivos avançados para criar informações clínicas robustas de vital importância para o atendimento ao paciente.