Twitter ayuda en detectar anglicismos del español en EE.UU

Twitter retira la verificación de cuentas de usuarios que incumplen las normas de la red social

El Instituto de Ingeniería del Conocimiento (IIC) y el Instituto Cervantes de la Universidad de Harvard trabajan en un proyecto que combina el conocimiento de los lexicógrafos y de los lingüistas computacionales para detectar anglicismos en el uso del español en Estados Unidos en las redes sociales.

El proyecto, bautizado como ‘Búsqueda de anglicismos en el español estadounidense a través de Twitter, tiene por fin ampliar el Diccionario de Anglicismos en Español (DAEE) a través de los anglicismos que utilizan los hablantes hispanos de Estados Unidos que están en contacto con ambas lenguas.

Twitter resulta un excelente medio para observar cómo se está produciendo la adaptación gráfica de los préstamos lingüísticos que genera dudas tanto entre los hablantes como entre los lexicógrafos.

“La red social de microblog se presenta como el medio idóneo para este tipo de investigación porque recoge el habla espontánea e inmediata. Se observa la innovación lingüística de forma masiva, general y rápida», señala el investigador senior del IIC y director del Laboratorio de Lingüística Informática de la UAM, Antonio Moreno Sandoval, responsable del proyecto junto a Francisco Moreno Fernández, Director ejecutivo del Instituto Cervantes en la Universidad de Harvard y catedrático de la Universidad de Alcalá.

Para esta iniciativa, el IIC ha empleado una nueva metodología para la búsqueda de anglicismos. El material para la investigación fue recopilado de entre todos los ‘tuits’ emitidos desde Estados Unidos por usuarios que tienen identificado en su perfil que hablan español, hispanos o procedentes de un país hispano, recogidos en dos momentos diferentes: entre agosto-diciembre de 2014 y entre enero-febrero de 2016. En total, se superan los 850.000 mensajes y más de 15 millones de palabras, con cerca de 175.000 palabras diferentes.

El proceso comprende tres fases. La primera de compilación en la que se han empleado herramientas informáticas para realizar un filtro en la red social con el fin de obtener el corpus de mensajes. En segundo lugar se ha producido una limpieza exhaustiva de los mensajes eliminando todo ruido para la investigación. Y, por último, se procede a la extracción de candidatos para analizar, eliminando casos que no sean de interés.

En este estadio se aplican una serie de filtros automáticos para detectar palabras desconocidas, descartar nombres propios, onomatopeyas, risas, diminutivos o palabras con sufijos.

Del total de casi 175.000 palabras recopiladas en la primera fase, se ha llegado con este proceso a una lista de 3.800 de la que los especialistas han estudiado casi 600 términos.

Todo este proceso de investigación ha concluido con varias decenas de nuevos anglicismos. Términos como ‘bróder’, ‘coworker’, ‘fangirlear’, ‘favear’, ‘gossipeo’ o ‘chin’ son ejemplos de las voces que engrosarán próximamente el Diccionario de Anglicismos en Español (DAEE).

Más Noticias

Dejar respuesta