@PHDTHESIS{ 2019:2103783839, title = {Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano}, year = {2019}, url = "http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/8150", abstract = "As técnicas de classificação são frequentemente utilizadas na solução de diferentes problemas da bioinformática. A maioria dos genes na sequência do DNA é transcrita pelo RNA mensageiro e traduzida para proteína. O DNA contém regiões que codificam as proteínas chamadas exons, e regiões que não codificam as proteinas são chamadas de introns, os limites entre os exons e introns são chamados de splice site. Durante o processo de transcrição, os introns são "cortados", isso é conhecido como splicing, que coloca os exons de um gene um atrás do outro consecutivamente, prontos para serem traduzidos na sequência de aminoácidos que compõem a proteína. Nos splice sites, a transição da região codificante exon para a região não codificante intron (EI) é distinguida com os nucleótidos GT, e a transição da região não codificante intron para a região codificante exon (IE) é distinguida com os nucleótidos AG. Uma pequena porcentagem dessas combinações são splice sites reais. Neste estudo, é apresentada uma metodologia para o problema de classificação EI e IE que consistem em obter distribuições de probabilidades usando técnicas de aprendizagem de máquina, e a partir delas obter diferentes medidas de desempenho. Uma série de algoritmos (Support Vector Machine (SVM), Neural Networks (RNA), Random Forest (RF), Naive Bayes(NB)) foram testados e comparados para encontrar o melhor classificador. Para fazer a seleção do melhor classificador, as medidas mais conhecidas, foram aplicadas com base na matriz de confusão: Acurácia, Especificidade, Sensibilidade, dentre outros, bem como a distância de Kolgomorov-Smirnov (KS) como medida de desempenho dos modelos de classificação. Mais precisamente, a KS é uma medida do grau de separação entre as distribuições de classe de probabilidade, sendo este um indicativo de maior acurácia. Os resultados apresentados neste estudo foram iguais ou superiores em acurácia quando são comparado com os trabalhos apresentados na literatura.", publisher = {Universidade Federal Rural de Pernambuco}, scholl = {Programa de Pós-Graduação em Biometria e Estatística Aplicada}, note = {Departamento de Estatística e Informática} }