ISSN: 2167-7670
Panagiotis Meletis
A compreensão holística da cena é um componente vital dos veículos autônomos do futuro. É crucial que esses veículos sejam capazes de entender e interpretar seu ambiente para dirigir com segurança. Isso requer detecção precisa de objetos ao redor (veículos, humanos, objetos de tráfego, natureza), discriminação entre superfícies dirigíveis e não dirigíveis (estrada, calçada, edifícios) e segmentação de objetos estáticos e dinâmicos em classes semânticas de alto nível. No passado, a visão computacional abordou esses problemas separadamente devido à sua complexidade e altas necessidades computacionais. Hoje em dia, sistemas baseados em aprendizado profundo são treinados em conjuntos de dados anotados manualmente para resolver esses problemas, no entanto, eles enfrentam vários desafios: 1) o número de classes semânticas anotadas é limitado pelos conjuntos de dados disponíveis a algumas dezenas, diminuindo a variedade de objetos reconhecíveis, 2) a densidade de anotações é inversamente proporcional ao tamanho dos conjuntos de dados, tornando enormes conjuntos de dados incompatíveis para segmentação precisa e 3) a detecção e a segmentação são resolvidas separadamente, o que leva a maiores demandas de memória e computacionais. Nossa pesquisa aborda os desafios acima mencionados propondo novos métodos para: 1) treinar uma única rede em vários conjuntos de dados com diferentes classes semânticas e diferentes tipos de anotações, e 2) resolver simultaneamente com uma única rede os problemas de detecção e segmentação semântica. Implementamos essas redes em nosso carro autônomo com desempenho em tempo real. Demonstramos resultados de última geração, juntamente com um aumento de cinco vezes no número de classes reconhecíveis, e integramos eficientemente a detecção e a segmentação em um sistema de segmentação panóptica conjunta, dando passos importantes para alcançar a compreensão holística da cena.