Investigadores do CiTIUS achegan unha ferramenta libre para procesar textos da Rede de xeito máis eficiente
xoves, 20 de novembro do 2014
Os nosos centros
tecnolóxicos ferven de actividade en materia de iniciativas das que
logo tirarmos proveito os usuarios TIC e as empresas (transferencia
tecnolóxica). Un exemplo salientábel (e recente) disto é a
ferramenta aberta creada por un equipo de investigadores do CiTIUS
(expertos nas áreas de Computación
de Altas Prestacións (HPC) e Procesamento de Linguaxe
Natural (PLN) que permite adaptar de xeito automático
aplicacións empregadas no ámbito do procesamento de textos e
documentos a modelos de computación paralela compatíbeis con
clústeres multi-core (clústeres
multinúcleo). Dito doutro xeito: ábrese o camiño para xestionar e
crear textos e documentos de maneira moito máis rápida e eficaz.
Polo tanto, haberá menor tempo de execución e unha meirande marxe
para traballar con volumes de datos inxentes (Big Data).
A
razón de ser deste desenvolvemento atopámola nunha necesidade
concreta da Sociedade do Coñecemento actual: a necesidade de ser de
doado manexo para os integrantes da mesma, nós. A ninguén se lle
pode escapar o feito de que a información medra a pasos axigantados,
o que fai aínda máis necesario que teñamos recursos específicos
para procurala, tratala e xestionala. Segundo informa o equipo de
investigación do CiTIUS, “estímase quen en só nunha xornada
xeramos preto 2,5 trillóns de bytes (2,5 Exabytes)”.
Asemade, estímase que o 90% dos datos dispoñíbeis da actualidade
no mundo foron creados nos dous últimos anos.
O problema é: que
facer con todo isto? Como podemos acceder a algo tan grande e quen en
moitas ocasións non ten orde nin artellamento? De feito, os
investigadores do CiTIUS apuntan a que só un 5% do devandito, pódese
considerar información estruturada. O resto, sobre todo textos, non
ten organización ou orde. Este é o problema ao que nos enfrontamos:
como xestionar todo iso. Cara a dar resposta a estas necesidades é
cara a onde se dirixe esta investigación, precisamente. “A
proposta”, explican, “baseouse no deseño dun novo sistema que
permite transformar o software usado para o Procesamento da Linguaxe
Natural, decote programado na linguaxe informática Perl, nunha
solución compatíbel con tecnoloxías Big Data”. E
engaden: “Con só introducir unhas etiquetas na aplicación
orixinal, esta ferramenta de tradución permite ao programador
converter de maneira automática todo o seu código Perl en código Java
adaptado ao paradigma
MapReduce, habilitándoo desta maneira para a súa
execución nun clúster”. Ou sexa, posibilitando a súa execución
simultánea en múltiples cores ou nodos de computación.
Deste xeito, lógrase multiplicar a velocidade de cómputo por un
factor proporcional ao número de procesadores dispoñíbeis. Así,
de termos na nosa man 1.000 procesadores, o código resultante será
(nunha circunstancia idónea) 1.000 veces máis eficiente cá
solución secuencial.
Os resultados desta
investigación, que deu como froito a ferramenta de tradución
Perldoop,
están arestora en aberto. Ou sexa, é software libre. O obxectivo é
“que estea a disposición do maior número posíbel de usuarios e
profesionais”, segundo explica o profesor Juan
Carlos Pichel, investigador principal e responsábel do proxecto,
que lembra que investigación tivo o seu punto de partida no feito de
que o desenvolvemento de solucións Big Data para o
Procesamento da Linguaxe Natural (PLN) só
está neste intre ao alcance da man das empresas máis grandes. Coas
achegas do seu equipo e engadindo da nosa parte uns coñecementos
básicos de programación, “poderemos converter calquera código
programado en linguaxe Perl nunha solución que sexa quen de
funcionar nun clúster de computación”.