Aspectos estatísticos da distribuição espacial de palavras em linguagem escrita

Exportar este item:

Use este identificador para citar ou linkar para este item: http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/6857

Tipo do documento:	Dissertação
Título:	Aspectos estatísticos da distribuição espacial de palavras em linguagem escrita
Autor:	SANTOS, Maelyson Rolim Fonseca dos
Primeiro orientador:	FIGUEIRÊDO, Pedro Hugo de
Resumo:	A investigação do processo de evolução e caracterização das diversas linguagens humanas tem sido um dos campos mais ativos de pesquisa nas últimas décadas. Embora a busca por padrões linguísticos que possam estabelecer uma filogenia as línguas seja bem mais antiga, a caracterização estatística da linguagem escrita, comumente denominada linguística quantitativa, possui uma tradição ao mais recente que se apoia nos trabalhos desenvolvidos por George Zipf e Claude Shannon, escritos no final da década de 1940. Nesta disserta c~ao investigamos aspectos frequencistas e espaciais da distribuição de verbetes em textos e o papel destas quantidades sobre a informação contida em linguagem escrita. Num primeiro momento exploramos a relação de escala entre o vocabulário V e o tamanho dos textos T, denominada Lei de Heaps, que segundo nossos resultados e t pica para cada língua. Estabelecemos empiricamente, uma relação funcional entre a frequência máxima kmax e o número total de palavras do texto T. Num segundo momento analisamos características morfológicas dos símbolos obtendo a distribuição de tamanho P(l) dos verbetes e a partir desta a sua respectiva entropia, concluímos que este procedimento nos permite categorizar diferentes grupos linguísticos. Por m introduzimos dois modelos capazes de fornecer comportamentos limitantes universais, para a relação entre a intermitência e a frequência k dos verbetes. Os modelos foram concebidos de forma a descrever o comportamento de verbetes correlacionados e não correlacionados, reproduzindo diversas propriedades de textos como a fração de verbetes correlacionada f e a entropia estrutural H. Ao longo de nossa abordagem, todos os nossos resultados teóricos foram comparados com aqueles obtidos de um corpus composto por 500 textos, que incluem artigos da wikipédia e obras literárias de diversas épocas em 10 idiomas distribuídos em três famílias linguísticas: germânica (alemão, dinamarquês, inglês e sueco), latina (espanhol, italiano, francês e português) e urálica (finlandês e húngaro).
Abstract:	The investigation of the process of evolution and characterization of diferent human languages has been one of the most active research elds in recent decades. Although the search for linguistic patterns that can establish a phylogeny of languages is much older, the statistical characterization of the written language, commonly called quantitative linguistic, has a newer tradition that relies on the work developed by Claude Shannon and George Zipf, written at the end of the 1940s. In this work we investigate some statistical aspects of the frequencies and positions for words in texts and the function of this quantities into the information contained in written language. Initially we explored the scaling relationship between the vocabulary V and the text sizes T, called Heaps' Law, which according to our results is typical for each language. We establish, empirically, a functional relationship between maximum frequency kmax and the total number of words in the text. Secondly we analyze morphological features of symbols, obtaining the word sizes distribution and from its respective entropy. We conclude that this procedure allows us to categorize diferent linguistic groups. Finally we introduce two models able to provide universal limiting behaviors to the relationship between standard deviation and frequency k. The models were designed to describe the behavior of correlated and uncorrelated words, reproducing various properties of texts as the fraction f of correlated words and the structural entropy H. All our theoretical results were compared with those obtained from 500 texts that include wikipedia articles and literary works from various epochs in 10 languages distributed in three linguistic families: germanic (german, danish, swedish and english), romanic (spanish, italian, french and portuguese) and uralic ( nnish and hungarian).
Palavras-chave:	Linguagem escrita Entropia Linguística quantitativa Mecânica estatística
Área(s) do CNPq:	CIENCIAS EXATAS E DA TERRA::FISICA
Idioma:	por
País:	Brasil
Instituição:	Universidade Federal Rural de Pernambuco
Sigla da instituição:	UFRPE
Departamento:	Departamento de Física
Programa:	Programa de Pós-Graduação em Física Aplicada
Citação:	SANTOS, Maelyson Rolim Fonseca dos. Aspectos estatísticos da distribuição espacial de palavras em linguagem escrita. 2014. 102 f. Dissertação (Programa de Pós-Graduação em Física Aplicada) - Universidade Federal Rural de Pernambuco, Recife.
Tipo de acesso:	Acesso Aberto
URI:	http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/6857
Data de defesa:	13-Ago-2014
Aparece nas coleções:	Mestrado em Física Aplicada

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Maelyson Rolim Fonseca dos Santos.pdf	Documento principal	7,37 MB	Adobe PDF	Baixar/Abrir Pré-Visualizar ×

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Biblioteca Digital de Teses e Dissertações

Biblioteca Digital de Teses e Dissertações