ISSN: 2165- 7866
Ashutosh Gupta
O ácido desoxirribonucléico (ADN) constitui o meio físico no qual se codificam todas as propriedades dos organismos vivos. A compreensão da sua sequência é a principal preocupação da biologia molecular. Algumas bases de dados importantes de biologia molecular (ERIBL, GenBank, DDJB) são desenvolvidas em todo o mundo para acumular sequências de nucleótidos (DNA, RNA) e sequências de aminoácidos de proteínas. É bem reconhecido que o seu tamanho aumenta hoje em dia exponencialmente rápido. Ainda não tão grande como algumas outras bases de dados científicas, o seu tamanho é de centenas de GB [1]. Para genomas completos, estes textos podem ser muito alongados. O genoma humano, por exemplo, contém três mil milhões de caracteres em vinte e três pares de cromossomas. Contém toda a substância genética dos seres humanos. Com a disponibilização de um número crescente de sequências genómicas, a dificuldade de armazenamento e utilização de bases de dados tem de ser resolvida. Como resultado, a compressão da informação genética constitui um trabalho muito importante. Outro fator que também deve ser considerado é a previsão de um determinado tipo de doença aplicando a pesquisa de um padrão no domínio comprimido.