El árbol genealógico de las palabras españolas

30/10/2017

El árbol genealógico de las palabras españolas

Un grupo de investigadores informáticos y filólogos del Instituto de Análisis y Aplicaciones Textuales de la ULPGC colabora con la Real Academia Española en la confección del Nuevo Diccionario Histórico de la Lengua Española.

 

Hace más de veinte años que los miembros del grupo de investigación Cognition, Linguistic, Text and Information Processing (CLTIP) de la ULPGC investigan y trabajan en el procesamiento del lenguaje natural. Es uno de los pocos equipos de investigadores españoles que reúnen actualmente expertos en filología y en informática para estudiar y crear aplicaciones sobre el tratamiento automático de textos, conjugadores verbales, detección de neologismos, correctores ortográficos, análisis del lenguaje, entre otras.

 

Sus proyectos han sido fruto de un trabajo multidisciplinar llevado a cabo en el ámbito de la Lingüística Computacional y es por ello que en la actualidad forman parte del Instituto Universitario de Análisis y Aplicaciones Textuales (IATEXT) de la ULPGC. “Somos el único equipo de investigadores mixtos que se ha integrado en un instituto de investigación de la rama de Humanidades, en donde informáticos y filólogos trabajamos de manera conjunta para dar respuesta a muchas herramientas tecnológicas de interés”, explica el profesor de la ULPGC, Francisco Javier Carreras Riudavets.

 

rae_interior.png

Y precisamente liderado por el profesor Carreras, este equipo de investigadores está inmerso, en la actualidad, en un novedoso proyecto de la Real Academia Española: la confección del Nuevo Diccionario Histórico de la Lengua Española. “El proyecto está codirigido por la Universidad de Santiago de Compostela, que se encarga especialmente de la parte más humanista, mientras que al equipo de la ULPGC nos han encargado desarrollar la parte más técnica e informática”, explica el profesor Francisco Javier Carreras.

 

En este sentido, el grupo CLTIP centra su trabajo en investigar la forma óptima de desarrollar e implementar los programas informáticos para clasificar, catalogar y automatizar la genealogía de todas las palabras del español. “Estamos creando un árbol genealógico de toda la morfología del español, en donde se especifica de dónde 

arbol_rae.png

 proviene cada palabra y sus diferentes relaciones con otras”, destaca. Así, en la actualidad ya cuentan con un “árbol” de más de 80.000 relaciones de palabras que serán parte de la base de datos del Nuevo Diccionario Histórico, y que podrán ser consultadas cualquier usuario a través de una aplicación web en los próximos meses.

 

Para llevar a cabo este minucioso trabajo informático se basan en más de ciento cincuenta lenguas, que han servido para descubrir y catalogar el origen de gran parte de las palabras españolas. De este modo, se está creando una base de datos única en el mundo sobre la lengua española que se convertirá en una herramienta muy útil de consulta y formativa. Durante tres años más, el grupo de investigadores de la ULPGC (Francisco Javier Carreras Riudavets, Gustavo Rodríguez Rodríguez y Zenón Hernández Figueroa) seguirán nutriendo este gran árbol morfológico del español.

 

Pero su interés es continuar en el futuro con este proyecto, abarcando un ámbito europeo. “Queremos ponernos en contacto con otros grupos de investigadores europeos para poder desarrollar una herramienta similar dedicada a la morfología de otros idiomas como el francés, el italiano o el portugués”, y así disponer de una gran base de datos de todas las lenguas románicas.