Facultad de Ingeniería

Permanent URI for this collection

https://tesis.ucsc.cl/handle/25022009/7

Browse

Now showing 1 - 3 of 3

Análisis de polaridad en twitter, utilizando rasgos de superficie, semánticos y lexicones
(Universidad Católica de la Santísima Concepción, 2017-07) Castro Montero, Iván Leonardo; Abreu Salas, José Ignacio
En esta investigación se propone un enfoque que combina rasgos de superficie, lexicones y rasgos semánticos. Para esto se realizó un sistema el cual genera 160 modelos distintos, que demuestran que este enfoque logra alcanzar resultados que permiten ser competitivos. Se investiga además la efectividad de ciertos atributos considerados como dinámicos porque su número depende del Corpus, tales como Chargrams, Ngrams y Clusters, los que para este estudio en algunos casos resultan ser prescindibles. Se postula además la utilización de sentidos, como rasgos semánticos y el estudio de la polaridad para rasgos de superficie.
Combinación de métricas y rasgos léxico-semánticos para el análisis de similitud textual entre dos frases
(Universidad Católica de la Santísima Concepción, 2017-08) Oliva Arenas, Sebástian Nicolás; Abreu Salas, José Ignacio
A partir del procesamiento del lenguaje natural, ha surgido una gama de problemas a resolver durante los años, y uno de ellos ha sido la similitud semántica textual. La similitud semántica textual, problema que tiene aplicaciones en variados tópicos, como por ejemplo en textos de resumen, traducción automática, la mejora de la eficacia de los motores de búsqueda semánticos, educación como revisión de respuestas breves. Resolver y optimizar las aplicaciones de las áreas en general tiene mucho interés en la comunidad científica. Lo que hacen los algoritmos hoy en día es dar una puntuación de similitud a las frases que se comparan a través de ciertas métricas. Si bien se han hecho conferencias para resolver este tipo de problema, ya hay variados enfoques que dan una puntuación a las frases similares, aun no se ha logrado dar con un enfoque exacto para resolver este problema. Lo que propuso esta investigación para abordar el problema, fueron cuatro enfoques combinando métricas tanto semánticas y léxicas, desambiguando las frases de dos maneras distintas y entrenando los datos con algoritmos de aprendizajes automáticos. Por ende, una hipótesis que siguió esta investigaciónn fue al combinar métricas tanto léxicas como semánticas se puede obtener mejores resultados. Los experimentos realizados con el modelo propuesto en esta investigación, permitieron ver que el enfoque A da mejores resultados, pero con la prueba de Wilcoxon se concluyó que el enfoque A no tiene mayor relevancia que el enfoque B en los modelos utilizados (Random Forest, Dagging, Linear Regression, SMOreg).
Recuperación en un repositorio de datos abiertos de datasets relevantes a un requerimiento de información expresado en lenguaje natural
(Universidad Católica de la Santísima Concepción, 2017-09) Lai Venegas, Wei Chong; Abreu Salas, José Ignacio
Los repositorios de datos abiertos son grandes bancos de información que se encuentran disponibles a todo el mundo, albergando datos de todos los temas y formatos. Uno solo puede llegar a tener miles de datasets, con los cuales se pueden satisfacer requerimientos de información, estos pueden tardar meses en ser analizados desde que son enviados por el solicitante hasta que son respondidos tanto de manera afirmativa (creando un dataset, o señalando que los datos ya se encuentran) o negativamente. Es por esto que con el presente proyecto se busca proponer un modelo el cual acelere el proceso del análisis de requerimientos de información, formulando un listado de los posibles datasets del repositorio que sean mas afines al tema en cuestión. Para esto se presentaron 5 modelos en los cuales se utilizaron diferentes técnicas del procesamiento del lenguaje natural (tokenize, etiquetado, obtener sinónimos entre otras). Ademas en cada listado se hace la pregunta: ¿Es el primer dataset encontrado el correcto?, o ¿En los 5 primeros? y así sucesivamente. Como idea principal de este proyecto es encontrar en la primera posición del listado lo cual no ocurre en los primeros modelos presentados, pero esto si ocurre en los modelos posteriores. Si bien los resultados de las métricas que se presentan para cada modelo son aceptables (0%-50% de precisión dependiendo del modelo), estas no son representativas ya que se solo se puede utilizar aproximadamente un 1% de los requerimientos de información presentados en el repositorio de datos abiertos.

Browse

Browsing Facultad de Ingeniería by Author "Abreu Salas, José Ignacio"

Results Per Page

Sort Options