O Corpus de Referencia do Galego Actual e o etiquetador Xiada actualizan as súas versións

Ambos proxectos son froito dun convenio entre a USC e o Centro Ramón Piñeiro

Martes, 16 de abril de 2019

Dentro do convenio que manteñen a USC e o Centro Ramón Piñeiro para a investigación en Humanidades, o Corpus de Referencia do Galego Actual (CORGA) acaba de presentar a súa nova versión 3.1 e o etiquetador/lematizador Xiada a súa versión 2.7. A dirección e coordinación destas dúas liñas de traballo corresponde aos docentes de Filoloxía Guillermo Rojo e María Sol López Martínez.

O Corpus de Referencia do Galego Actual (CORGA), accesible no enderezo http://corpus.cirp.gal/corga, é un corpus documental aberto que abrangue cronoloxicamente dende 1975 ata a actualidade, cuxo obxectivo é fornecer datos para o estudo da lingua galega actual dende múltiples perspectivas: léxica, morfolóxica, sintáctica, fraseolóxica, terminolóxica, comunicativa etc. O corpus, enriquecido automaticamente coa lematización e etiquetaxe morfosintáctica dos seus textos, contén 40.178.271 palabras ortográficas (48.184.012 elementos gramaticais) pertencentes maioritariamente a distintos tipos de textos escritos representativos do galego actual, mais tamén inclúe 25 horas de transcricións ortográficas de programas de radio nas que se aliña o texto coa voz.

Entre outras, na súa versión 3.1 incorpora como novidades o recoñecemento automático das formas con grafías innovadoras para a linguaxe non sexista; a recuperación centrada no parámetro ‘ interlocutor’, o que permite discriminar entre os textos de carácter oral fronte aos escritos; ou a implementación do hiperlema nas modalidades de consulta por elementos gramaticais para minimizar a variación gráfica nos lemas, entre outros.

XIADA
XIADA é un etiquetador estatístico de alta precisión empregado para etiquetar e lematizar automaticamente os documentos do CORGA, e poder así dar un salto cualitativo na recuperación de información formulando consultas que utilizan información gramatical (etiquetas, lemas, hiperlemas, clases de palabras ou trazos morfosintácticos, entre outros).

Nesta versión libérase o código do etiquetador xunto cos recursos que este emprega; amplíase o etiquetador con 71 novas etiquetas para dar cabida a grafías innovadoras; actualízase a estrutura do lexicón para facilitar a análise das formas que presentan as grafías anteriores; ou créanse novas regras para reconstruír a forma do verbo cando non está avalada pola normativa e se amalgama con pronomes enclíticos ou segunda forma do artigo, entre outras novidades.

Como explican os promotores destes dous proxectos, a flexibilidade e potencialidade da aplicación de consulta permite empregar nunha mesma procura comodíns, operadores ‘booleanos’, sensibilidade a acentos ou maiúsculas e variables clasificatorias dos documentos combinándoos cos distintos tipos de modalidade de busca, por palabras ortográficas ou elementos gramaticais, ben sucesivos ben descontinuos, “o que converte o CORGA nunha ferramenta moi útil para obter datos da lingua galega actual de tipo léxico, gramatical, terminolóxico, fraseolóxico ou discursivo”. Completan o equipo de traballo as lingüistas Eva María Domínguez Noya, María Caíña Hurtado e Bárbara Bujía Tourón. O equipo informático está respaldado por NLPgoTechnologies e José Carlos Sánchez Rivas.