Combinación de métricas y rasgos léxico-semánticos para el análisis de similitud textual entre dos frases

Date
2017-08
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Católica de la Santísima Concepción
Abstract
A partir del procesamiento del lenguaje natural, ha surgido una gama de problemas a resolver durante los años, y uno de ellos ha sido la similitud semántica textual. La similitud semántica textual, problema que tiene aplicaciones en variados tópicos, como por ejemplo en textos de resumen, traducción automática, la mejora de la eficacia de los motores de búsqueda semánticos, educación como revisión de respuestas breves. Resolver y optimizar las aplicaciones de las áreas en general tiene mucho interés en la comunidad científica. Lo que hacen los algoritmos hoy en día es dar una puntuación de similitud a las frases que se comparan a través de ciertas métricas. Si bien se han hecho conferencias para resolver este tipo de problema, ya hay variados enfoques que dan una puntuación a las frases similares, aun no se ha logrado dar con un enfoque exacto para resolver este problema. Lo que propuso esta investigación para abordar el problema, fueron cuatro enfoques combinando métricas tanto semánticas y léxicas, desambiguando las frases de dos maneras distintas y entrenando los datos con algoritmos de aprendizajes automáticos. Por ende, una hipótesis que siguió esta investigaciónn fue al combinar métricas tanto léxicas como semánticas se puede obtener mejores resultados. Los experimentos realizados con el modelo propuesto en esta investigación, permitieron ver que el enfoque A da mejores resultados, pero con la prueba de Wilcoxon se concluyó que el enfoque A no tiene mayor relevancia que el enfoque B en los modelos utilizados (Random Forest, Dagging, Linear Regression, SMOreg).
Description
Informe de Proyecto de Título para optar al Título de Ingeniero Civil Informático
Keywords
Facultad de Ingeniería, Ingeniería Civil Informática
Citation