Combinación de métricas y rasgos léxico-semánticos para el análisis de similitud textual entre dos frases
Date
2017-08
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Católica de la Santísima Concepción
Abstract
A partir del procesamiento del lenguaje natural, ha surgido una gama de problemas a
resolver durante los a˜nos, y uno de ellos ha sido la similitud sem´antica textual.
La similitud sem´antica textual, problema que tiene aplicaciones en variados t´opicos,
como por ejemplo en textos de resumen, traducci´on autom´atica, la mejora de la eficacia de
los motores de b´usqueda sem´anticos, educaci´on como revisi´on de respuestas breves. Resolver
y optimizar las aplicaciones de las ´areas en general tiene mucho inter´es en la comunidad
cient´ıfica. Lo que hacen los algoritmos hoy en d´ıa es dar una puntuaci´on de similitud a las
frases que se comparan a trav´es de ciertas m´etricas. Si bien se han hecho conferencias para
resolver este tipo de problema, ya hay variados enfoques que dan una puntuaci´on a las frases
similares, a´un no se ha logrado dar con un enfoque exacto para resolver este problema. Lo
que propuso esta investigaci´on para abordar el problema, fueron cuatro enfoques combinando
m´etricas tanto sem´anticas y l´exicas, desambiguando las frases de dos maneras distintas y
entrenando los datos con algoritmos de aprendizajes autom´aticos. Por ende, una hip´otesis que
sigui´o esta investigaci´on fue al combinar m´etricas tanto l´exicas como sem´anticas se puede
obtener mejores resultados.
Los experimentos realizados con el modelo propuesto en esta investigaci´on, permitieron
ver que el enfoque A da mejores resultados, pero con la prueba de Wilcoxon se concluy´o
que el enfoque A no tiene mayor relevancia que el enfoque B en los modelos utilizados (Random
Forest, Dagging, Linear Regression, SMOreg).
Description
Informe de Proyecto de Título para optar al Título de Ingeniero Civil Informático
Keywords
Facultad de Ingeniería, Ingeniería Civil Informática