Produtividade morfológica e tecnologia do texto: aspectos da construção de um transdutor lexical do português capaz de analisar neologismos

Leonel Figueiredo de Alencar

Resumo


Neste artigo, apresentamos o LEXPOR, protótipo de um componente morfológico do português capaz de segmentar e classificar os constituintes de derivados por meio da sufixação de -ismo, -iano, -ês e -mente bem como de derivados desses por prefixação com elementos de origem grega ou latina do tipo de neo-, pseudo-, anti- ou ultra-. Partimos do pressuposto de que uma representação das palavras complexas em termos de morfemas e categorias morfossintáticas não é só relevante na linguística de corpus, mas também em outras subáreas da tecnologia do texto, como a extração e a recuperação de informações. Este protótipo consiste de um transdutor lexical que modela o conjunto de palavras que se podem potencialmente construir usando esses afixos derivacionais. Esse transdutor foi compilado a partir de uma descrição da morfotática e das regras de alternância morfofonológicas e ortográficas desse fragmento do léxico, formalizada nas linguagens de programação de estados finitos xfst e lexc. A principal característica desse transdutor é a capacidade de realizar análises de neologismos construídos a partir de bases não lexicalizadas, tomadas de empréstimo de outras línguas. Como a utilização de antropônimos estrangeiros é uma das causas principais da extrema produtividade dos afixos derivacionais que focamos, o LEXPOR oferece uma arquitetura adequada para o desenvolvimento de um anotador automático de corpora do português capaz de preencher as lacunas de corpora como o CETENFolha e do analisador automático do projeto VISL. Em um como outro caso, as análises morfológicas de palavras complexas com os afixos derivacionais referidos frequentemente são insuficientemente detalhadas ou simplesmente incorretas.

Palavras-chave: derivação, sufixação, prefixação, autômatos, transdutores lexicais, morfologia de estados finitos, anotação automática de corpora, linguística computacional, linguística de corpus.

Texto completo: PDF



ISSN: 2177-6202 - Melhor visualizado no Mozilla Firefox

Licença Creative Commons
Este trabalho está licenciado sob uma Licença Creative Commons Attribution 3.0

São Leopoldo, RS. Av. Unisinos, 950. Bairro Cristo Rei, CEP: 93.022 -000. Atendimento Unisinos +55 (51) 3591 1122

Projeto gráfico: Jully Rodrigues


 

SCImago Journal & Country Rank Crossref Member Badge Crossref Similarity Check logo