O Centro Ramón Piñeiro lanza as versións 3.1 e 2.7 de CORGA e XIADA
xoves, 11 de abril do 2019
O
Centro Ramón Piñeiro para a
Investigación e Humanidades, dependente da SecretarÃa Xeral de
PolÃtica LingüÃstica, vén de publicar as novas versións de dúas
ferramentas moi relevantes e útiles para facer avanzar a presenza do
galego nas novas tecnoloxÃas da información. Estamos a falar do
proxecto CORGA (Corpus de Referencia do Galego Actual), que vén de
publicar a súa versión 3.1, e máis do
etiquetador/lematizador XIADA, da que se lanzou a versión 2.7.
As contribucións foron posÃbeis grazas ao traballo do Centro Ramón
Piñeiro e a súa alianza coa Universidade de Santiago.
Respecto
de CORGA, é froito directo do compromiso do Centro Ramón Piñeiro
para desenvolver e deseñar recursos informáticos que axuden á
incorporación da lingua galega ao mundo das novas ferramentas
dixitais. O Corpus de Referencia do Galego Actual (CORGA) é un
corpus documental aberto que abrangue cronoloxicamente dende 1975 ata
a actualidade, cuxo obxectivo é fornecer datos para o estudo da
lingua galega actual dende múltiples perspectivas: léxica,
morfolóxica, sintáctica, fraseolóxica, terminolóxica,
comunicativa etc. O corpus, enriquecido automaticamente coa
lematización e etiquetaxe morfosintáctica dos seus textos, contén
40.178.271 palabras ortográficas (48.184.012 elementos gramaticais)
pertencentes maioritariamente a distintos tipos de textos escritos
representativos do galego actual, mais tamén inclúe 25 horas de
transcricións ortográficas de programas de radio nas que se aliña
o texto coa voz.
A
versión 3.1 de CORGA vén coas seguintes novidades: a complección
textual do lustro 2010-2014 e inicio do 2015-2019, unha
funcionalidade de recuperación centrada no parámetro interlocutor
(o cal permite discriminar entre os textos de carácter oral fronte
ós escritos), o recoñecemento automático das formas con grafÃas
innovadoras para a linguaxe non sexista, a implementación do
hiperlema nas modalidades de consulta por elementos gramaticais para
minimizar a variación gráfica nos lemas, e, por último, un
incremento das posibilidades de ordenación dos resultados.
No
que atinxe a XIADA, que estreou a versión 2.7, é un etiquetador
estatÃstico de alta precisión que se emprega para etiquetar e
lematizar de maneira automática os documentos do CORGA, e poder asÃ
avanzar na recuperación de información formulando consultas con
información gramatical (etiquetas, lemas, hiperlemas, clases de
palabras, trazos morfosintácticos etc.).
Esta
nova versión presenta, entre outros, os seguintes cambios: a
liberación do código do etiquetador xunto cos recursos que este
emprega (corpus de adestramento e lexicón), a ampliación do
etiquetario con 71 novas etiquetas para dar cabida ás grafÃas
innovadoras que promoven unha linguaxe non sexista, a actualización
da estrutura do lexicón para facilita-la análise das formas que
presentan as grafÃas anteriores (de xeito que nen@, nen@s, nena/o,
neno/a, nena/neno, neno/nena, etc, intégranse baixo o lema neno,
igual ca nena, neno, nenos e nenas) ou, tamén, a neutralización da
variación gráfica formal en lemas semellantes relacionándoos a
través dun hiperlema (na nova versión o lexicón contén 59.360
hiperlemas).
O
equipo de traballo estivo formado por Guillermo Rojo e MarÃa Sol
López MartÃnez (dirección e coordinación), Eva MarÃa DomÃnez
Noya, MarÃa CaÃña Hurtado, Bárbara BujÃa Tourón (lingüÃstas)
e NLPgo Technologies e José Carlos Sánchez Rivas (equipo
informático).