Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/8150
Tipo do documento: Tese
Título: Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano
Autor: SANZ, Albaro Ramon Paiva 
Primeiro orientador: FERREIRA, Tiago Alessandro Espínola
Primeiro membro da banca: CUNHA FILHO, Moacyr
Segundo membro da banca: BALBINO, Valdir Queiroz
Terceiro membro da banca: SANTOS, Antônio de Pádua
Quarto membro da banca: MIRANDA, Péricles Barbosa Cunha de
Resumo: As técnicas de classificação são frequentemente utilizadas na solução de diferentes problemas da bioinformática. A maioria dos genes na sequência do DNA é transcrita pelo RNA mensageiro e traduzida para proteína. O DNA contém regiões que codificam as proteínas chamadas exons, e regiões que não codificam as proteinas são chamadas de introns, os limites entre os exons e introns são chamados de splice site. Durante o processo de transcrição, os introns são "cortados", isso é conhecido como splicing, que coloca os exons de um gene um atrás do outro consecutivamente, prontos para serem traduzidos na sequência de aminoácidos que compõem a proteína. Nos splice sites, a transição da região codificante exon para a região não codificante intron (EI) é distinguida com os nucleótidos GT, e a transição da região não codificante intron para a região codificante exon (IE) é distinguida com os nucleótidos AG. Uma pequena porcentagem dessas combinações são splice sites reais. Neste estudo, é apresentada uma metodologia para o problema de classificação EI e IE que consistem em obter distribuições de probabilidades usando técnicas de aprendizagem de máquina, e a partir delas obter diferentes medidas de desempenho. Uma série de algoritmos (Support Vector Machine (SVM), Neural Networks (RNA), Random Forest (RF), Naive Bayes(NB)) foram testados e comparados para encontrar o melhor classificador. Para fazer a seleção do melhor classificador, as medidas mais conhecidas, foram aplicadas com base na matriz de confusão: Acurácia, Especificidade, Sensibilidade, dentre outros, bem como a distância de Kolgomorov-Smirnov (KS) como medida de desempenho dos modelos de classificação. Mais precisamente, a KS é uma medida do grau de separação entre as distribuições de classe de probabilidade, sendo este um indicativo de maior acurácia. Os resultados apresentados neste estudo foram iguais ou superiores em acurácia quando são comparado com os trabalhos apresentados na literatura.
Abstract: Classification techniques are often used to solve different bioinformatics problems. Most genes in the DNA sequence are transcribed by messenger RNA and translated into protein. The DNA contains regions that encode proteins (exons) and regions that do not encode proteins (introns), the boundaries between exons and introns are called the splice site. During the transcription process, the introns are "cut", this is known as splicing that puts the exons of a gene consecutively, ready to be translated into the amino acid sequence that make up the protein. In splice sites, the transition from the coding region exon to the non-coding region intron (EI) and distinguished with the nucleotides GT, and transition from the non-coding region (intron) to the coding region exon (IE) and distinguished with the nucleotides AG. A small percentage of these combinations are actual splice sites. In this study, a methodology for the classification problem EI and IE is presented, which consists in obtaining probability distributions using machine learning technique and starting from them to obtain different measures of performance. A number of algorithms (Support Vector Machine (SVM), Artificial Neural Network (RNA), Random Forest (RF), Naive Bayes (NB)) are tested and compared to find the best classifier. To make the selection of the best classifier the most known measures are applied based on the confusion matrix: Accuracy, Specificity, Sensitivity, among others, as well as the Kolgomorov distance (KS) as measured performance of the classification models. More precisely, the KS is a measure of the degree of sep aration between the distributions of probability class, which is an indication of greater accuracy. The results presented in this study are equal or superior in accuracy when compared with the papers presented in the literature Classification.
Palavras-chave: Classificação exon-intron
Classificação intron-exon
Aprendizagem de máquina
Algoritmo
Área(s) do CNPq: CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
Idioma: por
País: Brasil
Instituição: Universidade Federal Rural de Pernambuco
Sigla da instituição: UFRPE
Departamento: Departamento de Estatística e Informática
Programa: Programa de Pós-Graduação em Biometria e Estatística Aplicada
Citação: SANZ, Albaro Ramon Paiva. Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano. 2019. 75 f. Tese (Programa de Pós-Graduação em Biometria e Estatística Aplicada) - Universidade Federal Rural de Pernambuco, Recife.
Tipo de acesso: Acesso Aberto
URI: http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/8150
Data de defesa: 27-Fev-2019
Aparece nas coleções:Doutorado em Biometria e Estatística Aplicada

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Albaro Ramon Paiva Sanz.pdfDocumento principal1,55 MBAdobe PDFBaixar/Abrir Pré-Visualizar


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.