Recuperación en un repositorio de datos abiertos de datasets relevantes a un requerimiento de información expresado en lenguaje natural

dc.contributor.advisorAbreu Salas, José Ignacio
dc.contributor.authorLai Venegas, Wei Chong
dc.date.accessioned2018-10-08T16:03:29Z
dc.date.accessioned2023-11-13T20:38:16Z
dc.date.available2018-10-08T16:03:29Z
dc.date.available2023-11-13T20:38:16Z
dc.date.created2018-10-08T16:03:29Z
dc.date.issued2017-09
dc.descriptionInforme de proyecto de título para optar al grado académico de Ingeniero Civil Informático
dc.description.abstractLos repositorios de datos abiertos son grandes bancos de información que se encuentran disponibles a todo el mundo, albergando datos de todos los temas y formatos. Uno solo puede llegar a tener miles de datasets, con los cuales se pueden satisfacer requerimientos de información, estos pueden tardar meses en ser analizados desde que son enviados por el solicitante hasta que son respondidos tanto de manera afirmativa (creando un dataset, o señalando que los datos ya se encuentran) o negativamente. Es por esto que con el presente proyecto se busca proponer un modelo el cual acelere el proceso del análisis de requerimientos de información, formulando un listado de los posibles datasets del repositorio que sean mas afines al tema en cuestión. Para esto se presentaron 5 modelos en los cuales se utilizaron diferentes técnicas del procesamiento del lenguaje natural (tokenize, etiquetado, obtener sinónimos entre otras). Ademas en cada listado se hace la pregunta: ¿Es el primer dataset encontrado el correcto?, o ¿En los 5 primeros? y así sucesivamente. Como idea principal de este proyecto es encontrar en la primera posición del listado lo cual no ocurre en los primeros modelos presentados, pero esto si ocurre en los modelos posteriores. Si bien los resultados de las métricas que se presentan para cada modelo son aceptables (0%-50% de precisión dependiendo del modelo), estas no son representativas ya que se solo se puede utilizar aproximadamente un 1% de los requerimientos de información presentados en el repositorio de datos abiertos.
dc.identifierhttp://repositoriodigital.ucsc.cl/handle/25022009/1384
dc.identifier.urihttps://tesis.ucsc.cl/handle/25022009/3589
dc.languagees
dc.publisherUniversidad Católica de la Santísima Concepción
dc.subjectRepositorios de datos abiertos
dc.subjectDatasets
dc.subjectNLTK
dc.subjectPLN
dc.subjectOpen data
dc.titleRecuperación en un repositorio de datos abiertos de datasets relevantes a un requerimiento de información expresado en lenguaje natural
dc.typeThesis
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Lai Venegas, Wei Chong.pdf
Size:
481.83 KB
Format:
Adobe Portable Document Format