ISSN: 2376-130X
Jon Ander Gómez Adrian
A maioria das técnicas de Inteligência Artificial, em particular as pertencentes à aprendizagem automática, necessitam do máximo de dados possível para obter modelos mais robustos e precisos treinados através de algoritmos que utilizam amostras de dados para ajustar os parâmetros do modelo. A título de exemplo, um modelo baseado em redes neuronais profundas possui milhões de parâmetros (denominados pesos) cujos valores são progressivamente atualizados pelo algoritmo Error-Backpropagation que visita iterativamente todas as amostras do conjunto de dados de treino. Cukier explicou que os investigadores da Universidade de Stanford utilizaram milhares de amostras de células cancerígenas da mama e as taxas de sobrevivência dos pacientes para treinar um modelo de aprendizagem automática e definiram a função objetivo do algoritmo de aprendizagem para identificar padrões nos atributos dos dados de entrada. que melhor se correlacionam com o objetivo de prever se uma determinada biópsia será gravemente cancerígena. O modelo de aprendizagem automática obtido identificou onze atributos que melhor predizem que uma biópsia é altamente cancerígena. O que surpreendeu os investigadores foi que apenas oito dos onze atributos eram previamente conhecidos pelos médicos e estudados na literatura médica. As Stanford researchers included in the experiment all the attributes of input data, without instructing the learning algorithm which ones to use, the outcome as that three of the attributes (or indicators) found by the machine-learning algorithm were not considered as relevant by medical comunidade; os patologistas nunca concentraram a sua atenção nestes indicadores. Como observou Cuckier, a aprendizagem automática funciona porque o algoritmo de aprendizagem é alimentado com muitos dados – muito mais informação do que qualquer ser humano poderia digerir durante a vida e gerir a qualquer momento.