Nheengatu: Cearenses criam plataforma para tradução da única língua viva descendente do tupi antigo

Conhecimento sobre o idioma pode evitar a extinção e permitir o entendimento sobre palavras do português brasileiro

Uma tecnologia cearense pode evitar a extinção da Língua Geral Amazônica (LGA), conhecida como nheengatu, por meio de ferramentas computacionais para investigação da estrutura gramatical com capacidade de tradução. A plataforma ainda permite o aprendizado da língua e adaptação para o inglês.

A iniciativa faz parte do grupo de pesquisa Computação e Linguagem Natural (Complin) da Universidade Federal do Ceará (UFC). Em conjunto, eles buscam manter a única língua viva descendente do tupi antigo. As informações são da Agência UFC.

Existem apenas 6 mil falantes do nheengatu no Brasil - concentrados na região amazônica - e 8 mil na Colômbia, de acordo com o catálogo de línguas “Ethnologue”, do Summer Institute of Linguistics (SIL). Assim, o idioma está em risco de extinção.

E a situação é agravada porque nos dois países menos crianças sabem nheengatu devido à priorização do português, no Brasil, ou da língua tucano, na Colômbia. O fenômeno é estudado pelo núcleo de Linguística Computacional, criado em 2009, na UFC.

Esse ramo cria modelos computacionais para entender o funcionamento das línguas naturais, que surgem naturalmente no contato entre seres humanos.

Para isso, são usadas linguagens de programação para o processamento da língua em níveisl fonético e semântico, por exemplo.

Dez anos depois da criação do grupo de estudos na UFC surgiu a ideia de analisar o nheengatu devido à importância histórica e linguística. O projeto busca a tradução automática entre o nheengatu e outras línguas.

O termo que dá nome ao idioma surgiu no século XIX, significando “língua boa”. É resultado de uma evolução gradual do tupi antigo ao longo de 500 anos.

As informações sobre a língua podem permitir o acesso à literatura e o entendimento sobre a formação de palavras do português.

O nheengatu é a única supra étnica entre as línguas indígenas brasileiras ainda vivas. Os especialistas contextualizam que a língua não pertence a uma etnia específica, mas foi usada no Maranhão e Grão-Pará oficialmente até 1727. 

Participam da iniciativa o professor Leonel Figueiredo de Alencar Araripe, do Programa de Pós-Graduação em Linguística e criador do Complin, Inari Listenmaa, cientista da computação finlandesa, ligada ao Centro de Direito Computacional da Universidade de Administração de Cingapura. Além da aluna de graduação Dominick Maia Alexandre e da mestranda Juliana Gurgel

Como funciona a tradução

Em 2020, os pesquisadores criaram um tradutor automático específico para língua indígena brasileira, chamado de GrammYEP. A ferramenta permite a tradução de textos simples considerando padrões gramaticais e o significado das palavras do tupi moderno.

Com o GrammYEP também é possível traduzir a língua indígena para o português e o inglês e para o aprendizado do idioma. Mas essa possibilidade deve ser ampliada com uma nova versão incluindo mais de 30 línguas.

A produção da tecnologia foi feita com base trabalhos acadêmicos com dados da região do Alto Rio Negro, no município de São Gabriel da Cachoeira, no Amazonas.

No entanto, foi notada a carência sobre a organização de palavras como verbos, substantivos e adjetivos, além da função sintática, como sujeito e predicado. Por isso, foi necessário o aprofundamento no conhecimento da língua.

Etiquetador de palavras

Para investigar a estrutura gramatical da língua nheengatu foi desenvolvido um etiquetador morfossintático, que recebeu o nome de Nheentiquetador. O nome diferente é para a ferramenta que atribui a classe gramatical para cada palavra de uma frase.

Esse etiquetador permanece em construção e, quando finalizado, deve permitir a classificação de palavras que não constam no dicionário.

Além disso, o grupo deve dar início ao projeto analisador sintático automático para verificar a função das palavras dentro da frase. As tecnologias devem ampliar o conhecimento e disseminação da língua.

Algumas particularidades da língua tornam o processo de conhecimento e tradução mais complexo. Uma delas é que os pronomes pessoais não distinguem o gênero da pessoa ou do objeto e isso compromete a tradução precisa.