Investigadores do CiTIUS achegan unha ferramenta libre para procesar textos da Rede de xeito máis eficiente

xoves, 20 de novembro do 2014 Redacción

Os nosos centros tecnolóxicos ferven de actividade en materia de iniciativas das que logo tirarmos proveito os usuarios TIC e as empresas (transferencia tecnolóxica). Un exemplo salientábel (e recente) disto é a ferramenta aberta creada por un equipo de investigadores do CiTIUS (expertos nas áreas de Computación de Altas Prestacións (HPC) e Procesamento de Linguaxe Natural (PLN) que permite adaptar de xeito automático aplicacións empregadas no ámbito do procesamento de textos e documentos a modelos de computación paralela compatíbeis con clústeres multi-core (clústeres multinúcleo). Dito doutro xeito: ábrese o camiño para xestionar e crear textos e documentos de maneira moito máis rápida e eficaz. Polo tanto, haberá menor tempo de execución e unha meirande marxe para traballar con volumes de datos inxentes (Big Data).
A razón de ser deste desenvolvemento atopámola nunha necesidade concreta da Sociedade do Coñecemento actual: a necesidade de ser de doado manexo para os integrantes da mesma, nós. A ninguén se lle pode escapar o feito de que a información medra a pasos axigantados, o que fai aínda máis necesario que teñamos recursos específicos para procurala, tratala e xestionala. Segundo informa o equipo de investigación do CiTIUS, “estímase quen en só nunha xornada xeramos preto 2,5 trillóns de bytes (2,5 Exabytes)”. Asemade, estímase que o 90% dos datos dispoñíbeis da actualidade no mundo foron creados nos dous últimos anos.
O problema é: que facer con todo isto? Como podemos acceder a algo tan grande e quen en moitas ocasións non ten orde nin artellamento? De feito, os investigadores do CiTIUS apuntan a que só un 5% do devandito, pódese considerar información estruturada. O resto, sobre todo textos, non ten organización ou orde. Este é o problema ao que nos enfrontamos: como xestionar todo iso. Cara a dar resposta a estas necesidades é cara a onde se dirixe esta investigación, precisamente. “A proposta”, explican, “baseouse no deseño dun novo sistema que permite transformar o software usado para o Procesamento da Linguaxe Natural, decote programado na linguaxe informática Perl, nunha solución compatíbel con tecnoloxías Big Data”. E engaden: “Con só introducir unhas etiquetas na aplicación orixinal, esta ferramenta de tradución permite ao programador converter de maneira automática todo o seu código Perl en código Java adaptado ao paradigma MapReduce, habilitándoo desta maneira para a súa execución nun clúster”. Ou sexa, posibilitando a súa execución simultánea en múltiples cores ou nodos de computación. Deste xeito, lógrase multiplicar a velocidade de cómputo por un factor proporcional ao número de procesadores dispoñíbeis. Así, de termos na nosa man 1.000 procesadores, o código resultante será (nunha circunstancia idónea) 1.000 veces máis eficiente cá solución secuencial.
Os resultados desta investigación, que deu como froito a ferramenta de tradución Perldoop, están arestora en aberto. Ou sexa, é software libre. O obxectivo é “que estea a disposición do maior número posíbel de usuarios e profesionais”, segundo explica o profesor Juan Carlos Pichel, investigador principal e responsábel do proxecto, que lembra que investigación tivo o seu punto de partida no feito de que o desenvolvemento de solucións Big Data para o Procesamento da Linguaxe Natural (PLN) só está neste intre ao alcance da man das empresas máis grandes. Coas achegas do seu equipo e engadindo da nosa parte uns coñecementos básicos de programación, “poderemos converter calquera código programado en linguaxe Perl nunha solución que sexa quen de funcionar nun clúster de computación”.

PUBLICIDADE