Recuperación en un repositorio de datos abiertos de datasets relevantes a un requerimiento de información expresado en lenguaje natural

Lai Venegas, Wei Chong

Recuperación en un repositorio de datos abiertos de datasets relevantes a un requerimiento de información expresado en lenguaje natural

Files

Lai Venegas, Wei Chong.pdf (481.83 KB)

Date

2017-09

Authors

Lai Venegas, Wei Chong

Publisher

Universidad Católica de la Santísima Concepción

Abstract

Los repositorios de datos abiertos son grandes bancos de información que se encuentran disponibles a todo el mundo, albergando datos de todos los temas y formatos. Uno solo puede llegar a tener miles de datasets, con los cuales se pueden satisfacer requerimientos de información, estos pueden tardar meses en ser analizados desde que son enviados por el solicitante hasta que son respondidos tanto de manera afirmativa (creando un dataset, o señalando que los datos ya se encuentran) o negativamente. Es por esto que con el presente proyecto se busca proponer un modelo el cual acelere el proceso del análisis de requerimientos de información, formulando un listado de los posibles datasets del repositorio que sean mas afines al tema en cuestión. Para esto se presentaron 5 modelos en los cuales se utilizaron diferentes técnicas del procesamiento del lenguaje natural (tokenize, etiquetado, obtener sinónimos entre otras). Ademas en cada listado se hace la pregunta: ¿Es el primer dataset encontrado el correcto?, o ¿En los 5 primeros? y así sucesivamente. Como idea principal de este proyecto es encontrar en la primera posición del listado lo cual no ocurre en los primeros modelos presentados, pero esto si ocurre en los modelos posteriores. Si bien los resultados de las métricas que se presentan para cada modelo son aceptables (0%-50% de precisión dependiendo del modelo), estas no son representativas ya que se solo se puede utilizar aproximadamente un 1% de los requerimientos de información presentados en el repositorio de datos abiertos.

Description

Informe de proyecto de título para optar al grado académico de Ingeniero Civil Informático

Keywords

Repositorios de datos abiertos, Datasets, NLTK, PLN, Open data

URI

https://tesis.ucsc.cl/handle/25022009/3589

Collections

Facultad de Ingeniería

Full item page