Creación de corpus de palabras embebidas de tweets generados en Argentina

Palabras clave: emociones, Twitter, procesamiento de lenguaje natural, aprendizaje automatico, word embedding

Resumen

El procesamiento de textos de cualquier índole es una tarea de gran interés en la comunidad científica. Una de las redes sociales donde frecuentemente las personas se expresan libremente es Twitter, y por lo tanto, es una de las principales fuentes para obtener datos textuales. Para poder realizar cualquier tipo de análisis, como primer paso se debe representar los textos de manera adecuada para que, luego, puedan ser usados por un algoritmo. En este artículo se describe la creación de un corpus de representaciones de palabras obtenidas de Twitter, utilizando Word2Vec. Si bien los conjuntos de tweets utilizados no son masivos, se consideran suficientes para dar el primer paso en la creación de un corpus. Un aporte importante de este trabajo es el entrenamiento de un modelo que captura los modismos y expresiones coloquiales de Argentina, y que incluye emojis y hashtags dentro del espacio vectorial.

Descargas

La descarga de datos todavía no está disponible.

Biografía del autor/a

Matías Nicolás Amor, Universidad Católica de Salta

Ingeniero en Informática.

Docente de "Base de datos I" de la carrera Ingeniería en Informática de la Facultad de Ingeniería, Universidad Católica de Salta.

Participa en proyectos de investigación sobre minería de texto y forensia digital.

Coordinador del Grupo Ideas (Grupo de incubación de trabajos de investigación de alumnos -https://ideas.ucasal.edu.ar/ )

Publicado
2021-12-13
Cómo citar
Talamé, M. L., Monge, A., Amor, M. N., & Cardoso, A. C. (2021). Creación de corpus de palabras embebidas de tweets generados en Argentina. Cuadernos De Ingeniería, 13(XIII), 07-24. https://doi.org/10.53794/ci.v13iXIII.357