O CCG e TecAnDaLi salientan a importancia dos datos lingüísticos para o avance da informática

venres, 30 de novembro do 2018 Fernando Sarasketa

O Consello da Cultura Galega (Sección de Lingua, Literatura e Comunicación) e maila Rede de Investigación Galega TecAnDaLi (Tecnoloxías e Análise dos Datos Lingüísticos) organizaron onte unha xornada conxunta sobre información lingüística e sobre as potencialidades deste coñecemento en múltiples eidos culturais, de investigación ou empresariais. Os participantes na sesión coincidiron en salientar as importantes utilidades da lingua para os estudos humanistas e para os proxectos dos tecnólogos (informáticos, físicos, enxeñeiros de telecomunicacións, matemáticos...) xerándose en última instancia unha confluencia entre uns e outros que, a súa vez, abre moitas máis posibilidades de traballo que as inicialmente previstas. Por exemplo: traducir filmes en tempo real, procesar automaticamente textos medievais ou mesmo detectar tentativas de suicidio.
Estas e outras cuestións puxéronse sobre a mesa na xornada Para que serven os datos lingüísticos?, organizada pola Sección de Lingua, Literatura e Sociedade do Consello da Cultura Galega (CCG), xunto coa Rede de Investigación TecAnDaLi (Tecnoloxías e Análise de Datos Lingüísticos).
O programa de mañá arrincou coa presentación de catro microproxectos que se están a desenvolver no marco da rede TecAnDaLi. O primeiro deles ten que ver coa elaboración de información en galego a partir de datos metereolóxicos e explicárono Alberto J. Bugarín e Xavier Gómez Guinovart.
O segundo deles fala de toponimia en documentos medievais e correu a cargo Pablo Gamallo, que forma parte da dita rede e que falou de toponimia en documentos medievais. Explicou como empregar ferramentas para tentar atopar topónimos en textos medievais e como “dunha banda estaba a dificultade de procesar textos medievais, doutra é a variedade lingüística, ortográfica... xa que non había unha norma, e máis adiante estaba o recoñecemento de entidades”. A idea, dixo, “era identificar nomes propios, cunha ou varias palabras dentro dun texto”.
Carme García Mateo falou no seu relatorio de diferentes sistemas de recoñecemento automático que permiten a transcrición simultánea de produtos audiovisuais, de recoñecemento e etiquetaxe das persoas que falan nunha pantalla, entre outras utilidades. No caso dos modelos de recoñecemento de voz, García Mateo incidiu “na necesidade de traballar con material que está ben anotado e revisado para que o sistema funcione o mellor posible”.
A parte expositiva dos microproxectos rematou coas intervencións de María José Ginzo e Xulio Sousa, que abordaron a análise cuantitativa de datos lingüísticos, é dicir, converter os textos en números. Ao longo do seu relatorio explicaron as utilidades á hora de estudar as variables dialectais así como a análise de datos onomásticos, concretamente dos apelidos.
Fóra dos traballos da rede TecAnDaLi presentáronse dous relatorios. Un a cargo do psiquiatra Alejandro García Caballero, profesional con ampla experiencia na adaptación da tecnoloxía ao seu eido de traballo como é a elaboración de videoxogos para tratar a pacientes con trastornos mentais. Na súa intervención explicou como usar datos lingüísticos para o diagnóstico e tratamento de patoloxías como a esquizofrenia ou o autismo. Ademais, tamén falou da relación entre o bilingüismo e a protección da demencia empregando datos de realidades como Escocia e Canadá. O outro relatorio correu a cargo do profesor de Computación e Intelixencia Artificial da Universidade da Coruña, Carlos Gómez Rodríguez, e tivo que ver co procesado de linguaxe natural.
A rede
Para quen non o saiba, TecAnDaLi é o acrónimo de Tecnoloxía e Análise de Datos Lingüísticos, unha rede conformada por sete grupos de investigación do Sistema Universitario Galego: tres grupos de humanidades (o grupo coordinador, Filoloxía e Lingüística Galega [FILGA], integrado no Instituto da Lingua Galega da Universidade de Santiago de Compostela; Tecnoloxías e Aplicacións da Lingua Galega [TALG], Universidade de Vigo; Gramática, Discurso e Sociedade [GRADES], Universidade de Vigo); dous grupos de enxeñaría informática (Grupo de Sistemas Intelixentes [GSI], CITIUS, Universidade de Santiago de Compostela; Gráficos por Computador e Enxeñaría de Datos [COGRADE, GI-2116], CITIUS, Universidade de Santiago de Compostela); un grupo de enxeñaría de telecomunicacións (Grupo de Tecnoloxías Multimedia [GTM], Universidade de Vigo) e outro grupo de estatística (Modelos de Optimización, Decisión, Estatística e Aplicacións [MODESTYA], Universidade de Santiago de Compostela).
Trátase pois dun equipo de traballo interdisciplinario cuxa investigación está relacionada coas tecnoloxías da linguaxe e as humanidades dixitais, poñendo o foco no galego pero tamén no castelán e na linguaxe de signos española. A rede está especializada no tratamento informático e estatístico de datos lingüísticos. Entre os seus principais cometidos atópase o de mostrar e aproveitar as canles presentes e futuras de colaboración entre grupos de humanidades, enxeñaría e estatística, provenientes de tradicións investigadoras moi diferentes, mesmo de marcos científicos aparentemente separados, como as ciencias e as letras.