Um mundo novo na Floresta Sintá(c)tica – o treebank do Português

Claudia Freitas, Paulo Rocha, Eckhard Bick

Resumo


A Floresta Sintá(c)tica tem como objetivo criar e disponibilizar um corpus sintaticamente anotado. Neste artigo, são apresentados dois novos materiais do projeto: Selva (300 mil palavras e parcialmente revisto) e Amazônia (3.8 milhões de palavras, não revisto). Para lidar com um material tão grande e variado foi construída a interface Milhafre. O artigo mostra, ainda, como vem sendo enfrentado o desafio de compatibilizar, de uma lado, o usuário lingüista, que pode ter um perfil muito heterogêneo e, em geral, pouca familiaridade determinadas formalizações mais utilizadas em informática e, de outro, um único modelo de anotação sintática, freqüentemente pouco conhecido do lado “lingüístico não-computacional” e uma interface de acesso e manipulação de corpora capaz de lidar com um objeto tão complexo como a língua.

Palavras-chave: árvores sintáticas, corpus anotado, corpus revisto, busca em corpora.

Texto completo: PDF



ISSN: 2177-6202 - Melhor visualizado no Mozilla Firefox

Licença Creative Commons
Este trabalho está licenciado sob uma Licença Creative Commons Attribution 3.0

São Leopoldo, RS. Av. Unisinos, 950. Bairro Cristo Rei, CEP: 93.022 -000. Atendimento Unisinos +55 (51) 3591 1122

Projeto gráfico: Jully Rodrigues


 

SCImago Journal & Country Rank Crossref Member Badge Crossref Similarity Check logo