Facultad de Ingeniería
Permanent URI for this collection
Browse
Browsing Facultad de Ingeniería by Author "Abreu Salas, José Ignacio"
Now showing 1 - 3 of 3
Results Per Page
Sort Options
Thesis Análisis de polaridad en twitter, utilizando rasgos de superficie, semánticos y lexicones(Universidad Católica de la Santísima Concepción, 2017-07) Castro Montero, Iván Leonardo; Abreu Salas, José IgnacioEn esta investigación se propone un enfoque que combina rasgos de super cie, lexicones y rasgos semánticos. Para esto se realizó un sistema el cual genera 160 modelos distintos, que demuestran que este enfoque logra alcanzar resultados que permiten ser competitivos. Se investiga además la efectividad de ciertos atributos considerados como dinámicos porque su número depende del Corpus, tales como Chargrams, Ngrams y Clusters, los que para este estudio en algunos casos resultan ser prescindibles. Se postula además la utilización de sentidos, como rasgos semánticos y el estudio de la polaridad para rasgos de super cie.Thesis Combinación de métricas y rasgos léxico-semánticos para el análisis de similitud textual entre dos frases(Universidad Católica de la Santísima Concepción, 2017-08) Oliva Arenas, Sebástian Nicolás; Abreu Salas, José IgnacioA partir del procesamiento del lenguaje natural, ha surgido una gama de problemas a resolver durante los a˜nos, y uno de ellos ha sido la similitud sem´antica textual. La similitud sem´antica textual, problema que tiene aplicaciones en variados t´opicos, como por ejemplo en textos de resumen, traducci´on autom´atica, la mejora de la eficacia de los motores de b´usqueda sem´anticos, educaci´on como revisi´on de respuestas breves. Resolver y optimizar las aplicaciones de las ´areas en general tiene mucho inter´es en la comunidad cient´ıfica. Lo que hacen los algoritmos hoy en d´ıa es dar una puntuaci´on de similitud a las frases que se comparan a trav´es de ciertas m´etricas. Si bien se han hecho conferencias para resolver este tipo de problema, ya hay variados enfoques que dan una puntuaci´on a las frases similares, a´un no se ha logrado dar con un enfoque exacto para resolver este problema. Lo que propuso esta investigaci´on para abordar el problema, fueron cuatro enfoques combinando m´etricas tanto sem´anticas y l´exicas, desambiguando las frases de dos maneras distintas y entrenando los datos con algoritmos de aprendizajes autom´aticos. Por ende, una hip´otesis que sigui´o esta investigaci´on fue al combinar m´etricas tanto l´exicas como sem´anticas se puede obtener mejores resultados. Los experimentos realizados con el modelo propuesto en esta investigaci´on, permitieron ver que el enfoque A da mejores resultados, pero con la prueba de Wilcoxon se concluy´o que el enfoque A no tiene mayor relevancia que el enfoque B en los modelos utilizados (Random Forest, Dagging, Linear Regression, SMOreg).Thesis Recuperación en un repositorio de datos abiertos de datasets relevantes a un requerimiento de información expresado en lenguaje natural(Universidad Católica de la Santísima Concepción, 2017-09) Lai Venegas, Wei Chong; Abreu Salas, José IgnacioLos repositorios de datos abiertos son grandes bancos de información que se encuentran disponibles a todo el mundo, albergando datos de todos los temas y formatos. Uno solo puede llegar a tener miles de datasets, con los cuales se pueden satisfacer requerimientos de información, estos pueden tardar meses en ser analizados desde que son enviados por el solicitante hasta que son respondidos tanto de manera afirmativa (creando un dataset, o señalando que los datos ya se encuentran) o negativamente. Es por esto que con el presente proyecto se busca proponer un modelo el cual acelere el proceso del análisis de requerimientos de información, formulando un listado de los posibles datasets del repositorio que sean mas afines al tema en cuestión. Para esto se presentaron 5 modelos en los cuales se utilizaron diferentes técnicas del procesamiento del lenguaje natural (tokenize, etiquetado, obtener sinónimos entre otras). Ademas en cada listado se hace la pregunta: ¿Es el primer dataset encontrado el correcto?, o ¿En los 5 primeros? y así sucesivamente. Como idea principal de este proyecto es encontrar en la primera posición del listado lo cual no ocurre en los primeros modelos presentados, pero esto si ocurre en los modelos posteriores. Si bien los resultados de las métricas que se presentan para cada modelo son aceptables (0%-50% de precisión dependiendo del modelo), estas no son representativas ya que se solo se puede utilizar aproximadamente un 1% de los requerimientos de información presentados en el repositorio de datos abiertos.