Publication:
Extraction of semantic metadata for a web 2.0 site

Thumbnail Image
Authors
Dorval-Joseph, Riemann
Embargoed Until
Advisor
Vega-Riveros, José F.
College
College of Engineering
Department
Department of Electrical and Computer Engineering
Degree Level
M.S.
Publisher
Date
2010
Abstract
This thesis describes the architecture of a metadata extraction and a search engine using Semantic Web technology. The lack of studies about extraction of semantic metadata within PowerPoint or Open Office Presentations generates the following problems: 1) Presentations is one of the most widely used communication tools; and 2) Presenters often find themselves wasting a long time looking for information from previous presentations. Thus, we designed an application that allows: to access the information inside an Open Office Presentation and generate the metadata from this information and to go through the metadata and look for the presentations that match search criteria entered by a user. RDF (Resource Description Framework) and NLP (Natural Language Processing) are the main technologies used in our research. Tests were conducted to measure the quality of results, and then were compared to the results from other well known systems such as Google Desktop and Windows Search.

Esta tesis describe la arquitectura de un motor para extraer metadatos y un motor de búsqueda usando tecnología de “Semántica Web”. Encontramos que hacen falta estudios sobre la extracción de metadatos semánticos dentro de presentaciones de “PowerPoint” u “Open Office”. La importancia de este problema estriba en dos asuntos de interés: 1) Presentaciones es una de las herramientas de comunicación ampliamente más utilizada; y 2) Los presentadores gastan con frecuencia mucho tiempo buscando una o varias diapositivas de presentaciones anteriores que podrían ser usadas en su próxima presentación. Por esta razón, hemos diseñado una aplicación que permite acceder a la información dentro de una presentación de “Open Office” y generar los metadatos correspondientes, e ir a través de ellos para buscar las presentaciones que coinciden con un criterio de búsqueda introducido por un usuario. RDF (“Resource Description Framework”) se utiliza para construir la ontología del sistema. Procesamiento de Idioma Natural (NLP por su sigla en Inglés) puede procesar y analizar la información en lenguaje natural proveniente de las presentaciones o de las solicitudes de los usuarios. Se realizaron pruebas para medir la calidad de los resultados. Los resultados se compararon con resultados de otros sistemas conocidos como “Google Desktop” y “Windows Search”.
Keywords
Cite
Dorval-Joseph, R. (2010). Extraction of semantic metadata for a web 2.0 site [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/2208