O CCG e TecAnDaLi salientan a importancia dos datos lingüísticos para o avance da informática
venres, 30 de novembro do 2018
O
Consello da Cultura Galega (Sección de Lingua, Literatura e
Comunicación) e maila Rede de Investigación Galega TecAnDaLi
(Tecnoloxías e Análise dos
Datos Lingüísticos) organizaron onte unha xornada conxunta
sobre información lingüística e sobre as potencialidades deste
coñecemento en múltiples eidos culturais, de investigación ou
empresariais. Os participantes na sesión coincidiron en salientar as
importantes utilidades da lingua para os estudos humanistas e para os
proxectos dos tecnólogos (informáticos, físicos, enxeñeiros de
telecomunicacións, matemáticos...) xerándose en última instancia
unha confluencia entre uns e outros que, a súa vez, abre moitas máis
posibilidades de traballo que as inicialmente previstas. Por exemplo:
traducir filmes en tempo real, procesar automaticamente textos
medievais ou mesmo detectar tentativas de suicidio.
Estas
e outras cuestións puxéronse sobre a mesa na xornada Para que
serven os datos lingüísticos?, organizada pola Sección de
Lingua, Literatura e Sociedade do Consello da Cultura Galega (CCG),
xunto coa Rede de Investigación TecAnDaLi (Tecnoloxías e Análise
de Datos Lingüísticos).
O
programa de mañá arrincou coa presentación de catro microproxectos
que se están a desenvolver no marco da rede TecAnDaLi. O primeiro
deles ten que ver coa elaboración de información en galego a partir
de datos metereolóxicos e explicárono Alberto J. Bugarín e Xavier
Gómez Guinovart.
O
segundo deles fala de toponimia en documentos medievais e correu a
cargo Pablo Gamallo, que forma parte da dita rede e que falou de
toponimia en documentos medievais. Explicou como empregar ferramentas
para tentar atopar topónimos en textos medievais e como “dunha
banda estaba a dificultade de procesar textos medievais, doutra é a
variedade lingüística, ortográfica... xa que non había unha
norma, e máis adiante estaba o recoñecemento de entidades”. A
idea, dixo, “era identificar nomes propios, cunha ou varias
palabras dentro dun texto”.
Carme
García Mateo falou no seu relatorio de diferentes sistemas de
recoñecemento automático que permiten a transcrición simultánea
de produtos audiovisuais, de recoñecemento e etiquetaxe das persoas
que falan nunha pantalla, entre outras utilidades. No caso dos
modelos de recoñecemento de voz, García Mateo incidiu “na
necesidade de traballar con material que está ben anotado e revisado
para que o sistema funcione o mellor posible”.
A
parte expositiva dos microproxectos rematou coas intervencións de
María José Ginzo e Xulio Sousa, que abordaron a análise
cuantitativa de datos lingüísticos, é dicir, converter os textos
en números. Ao longo do seu relatorio explicaron as utilidades á
hora de estudar as variables dialectais así como a análise de datos
onomásticos, concretamente dos apelidos.
Fóra
dos traballos da rede TecAnDaLi presentáronse dous relatorios. Un a
cargo do psiquiatra Alejandro García Caballero, profesional con
ampla experiencia na adaptación da tecnoloxía ao seu eido de
traballo como é a elaboración de videoxogos para tratar a pacientes
con trastornos mentais. Na súa intervención explicou como usar
datos lingüísticos para o diagnóstico e tratamento de patoloxías
como a esquizofrenia ou o autismo. Ademais, tamén falou da relación
entre o bilingüismo e a protección da demencia empregando datos de
realidades como Escocia e Canadá. O outro relatorio correu a cargo
do profesor de Computación e Intelixencia Artificial da Universidade
da Coruña, Carlos Gómez Rodríguez, e tivo que ver co procesado de
linguaxe natural.
A
rede
Para
quen non o saiba, TecAnDaLi é o acrónimo de Tecnoloxía e Análise
de Datos Lingüísticos, unha rede conformada por sete grupos de
investigación do Sistema Universitario Galego: tres grupos de
humanidades (o grupo coordinador, Filoloxía e Lingüística Galega
[FILGA], integrado no Instituto da Lingua Galega da Universidade de
Santiago de Compostela; Tecnoloxías e Aplicacións da Lingua Galega
[TALG], Universidade de Vigo; Gramática, Discurso e Sociedade
[GRADES], Universidade de Vigo); dous grupos de enxeñaría
informática (Grupo de Sistemas Intelixentes [GSI], CITIUS,
Universidade de Santiago de Compostela; Gráficos por Computador e
Enxeñaría de Datos [COGRADE, GI-2116], CITIUS, Universidade de
Santiago de Compostela); un grupo de enxeñaría de telecomunicacións
(Grupo de Tecnoloxías Multimedia [GTM], Universidade de Vigo) e
outro grupo de estatística (Modelos de Optimización, Decisión,
Estatística e Aplicacións [MODESTYA], Universidade de Santiago de
Compostela).
Trátase
pois dun equipo de traballo interdisciplinario cuxa investigación
está relacionada coas tecnoloxías da linguaxe e as humanidades
dixitais, poñendo o foco no galego pero tamén no castelán e na
linguaxe de signos española. A rede está especializada no
tratamento informático e estatístico de datos lingüísticos. Entre
os seus principais cometidos atópase o de mostrar e aproveitar as
canles presentes e futuras de colaboración entre grupos de
humanidades, enxeñaría e estatística, provenientes de tradicións
investigadoras moi diferentes, mesmo de marcos científicos
aparentemente separados, como as ciencias e as letras.