Produtividade morfológica e tecnologia do texto: aspectos da construção de um transdutor lexical do português capaz de analisar neologismos

Leonel Figueiredo de Alencar

Resumo


Neste artigo, apresentamos o LEXPOR, protótipo de um componente morfológico do português capaz de segmentar e classificar os constituintes de derivados por meio da sufixação de -ismo, -iano, -ês e -mente bem como de derivados desses por prefixação com elementos de origem grega ou latina do tipo de neo-, pseudo-, anti- ou ultra-. Partimos do pressuposto de que uma representação das palavras complexas em termos de morfemas e categorias morfossintáticas não é só relevante na linguística de corpus, mas também em outras subáreas da tecnologia do texto, como a extração e a recuperação de informações. Este protótipo consiste de um transdutor lexical que modela o conjunto de palavras que se podem potencialmente construir usando esses afixos derivacionais. Esse transdutor foi compilado a partir de uma descrição da morfotática e das regras de alternância morfofonológicas e ortográficas desse fragmento do léxico, formalizada nas linguagens de programação de estados finitos xfst e lexc. A principal característica desse transdutor é a capacidade de realizar análises de neologismos construídos a partir de bases não lexicalizadas, tomadas de empréstimo de outras línguas. Como a utilização de antropônimos estrangeiros é uma das causas principais da extrema produtividade dos afixos derivacionais que focamos, o LEXPOR oferece uma arquitetura adequada para o desenvolvimento de um anotador automático de corpora do português capaz de preencher as lacunas de corpora como o CETENFolha e do analisador automático do projeto VISL. Em um como outro caso, as análises morfológicas de palavras complexas com os afixos derivacionais referidos frequentemente são insuficientemente detalhadas ou simplesmente incorretas.

Palavras-chave: derivação, sufixação, prefixação, autômatos, transdutores lexicais, morfologia de estados finitos, anotação automática de corpora, linguística computacional, linguística de corpus.

Texto completo:

PDF


DOI: https://doi.org/10.4013/4874



SCImago Journal & Country Rank

ISSN 2177-6202