Publication:
Temporal outlier detection using dynamic Bayesian networks and probabilistic association rules

dc.contributor.advisor Acuña Fernández, Edgar
dc.contributor.author Quispe Vargas, Walter
dc.contributor.college College of Engineering en_US
dc.contributor.committee Rolke, Wolfgang
dc.contributor.committee Schutz Schmuck, Marko
dc.contributor.committee Aparicio Carrasco, Roxana
dc.contributor.department Department of Electrical and Computer Engineering en_US
dc.contributor.representative Bartolomei Suárez, Sonia M.
dc.date.accessioned 2020-02-18T20:40:53Z
dc.date.available 2020-02-18T20:40:53Z
dc.date.issued 2019-12-10
dc.description.abstract Temporal datasets provide records of the evolution and dependencies of random variables over time. Recently, there has been an increase in the application of temporal datasets in areas such as intrusion detection, fraud detection, activity recognition, etc. Interesting temporal outliers are anomalies that incorporate important or new information and contradict the causal probabilistic relationship in the domain knowledge described in a temporal dataset. One main objective of Data Mining is to discover interesting temporal anomalous patterns. Moreover, provide contextualization of the interestingness of the reported outliers. Most of the methods used to discover temporal outliers are reduction-based, losing valuable information in the discovery process. On the other hand, there are scarce studies about the interestingness of reported temporal outliers. Even less, to provide contextualization of the anomaly causes.
This thesis deals with the problem of discovering these interesting temporal outliers in datasets. We present probabilistic association rules as measures to discover interesting temporal outliers based on domain knowledge that has been learned and represented by a Dynamic Bayesian Network. Dynamic Bayesian networks are models to represent complex stochastic processes, to establish probabilistic dependencies in the feature space over time, and to capture the background knowledge in a causal relationship between features. The two probabilistic association rules: i) low support & high confidence, and ii) high support & low confidence, were used to identify scenarios where the discrepancies between prior and conditional probabilities are significant. Our novel approach coalesces both methods. It allows us to discover interesting temporal outliers and provide contextualization in the form of relational subspaces, under the proposed methodology called “Domain Specific Temporal Anomalous Patterns.” The evaluation of the proposed methodology was done on synthetic and real temporal datasets on the unsupervised and supervised scenario. The experimental results on temporal datasets show that our approach can detect genuine temporal outliers and provide relational subspaces to explain the probable causes of the reported outliers, with reasonable efficiency measures. In this way, our technique becomes a state of the art method to discover interesting temporal outliers in temporal datasets. Designed to provide contextual information of the reported outliers; this, in turn, can be used to improve our understanding of the domain knowledge and the underlying temporal data generating process. en_US
dc.description.abstract Los datos temporales proporcionan registros de la evolución y las dependencias de variables aleatorias a lo largo del tiempo. Recientemente, ha habido un incremento en la aplicación de los datos temporales en disciplinas como la detección de intrusos, la detección de fraudes, el reconocimiento de actividades, etc. Los valores atípicos temporales interesantes son anomalías que incorporan información importante o nueva, y contradicen la relación causal probabilística en el conocimiento de una disciplina descrito en un conjunto de datos temporales. Uno de los principales objetivos en la Minería de Datos es descubrir patrones anómalos temporales interesantes; además, proveer una contextualización de lo interesante del valor atípico reportado. Muchos de los métodos para descubrir valores atípicos temporales están basados en la reducción de dimensionalidad, perdiendo así información importante en el proceso de descubrimiento. Por otro lado, hay muy pocos estudios acerca de lo interesante de un valor atípico temporal reportado, mucho menos que proporcionen contextualización de la causa de la anomalía. Esta tesis trata el problema de descubrir valores atípicos temporales interesantes en un conjunto de datos. Presentamos reglas de asociación probabilísticas como medidas para descubrir valores atípicos temporales interesantes basados en el conocimiento del dominio que ha sido aprendido y representado por una Red Bayesiana Dinámica. Las redes Bayesianas dinámicas son modelos para representar procesos estocásticos complejos, para establecer dependencias probabilísticas en el espacio de variables a lo largo del tiempo y para capturar el conocimiento previo en una relación causal entre variables aleatorias. Las dos reglas de asociación probabilística definidas como: i) soporte bajo & confianza alta y ii) soporte alto & confianza baja, fueron usadas para identificar escenarios donde las discrepancias entre las probabilidades previas y condicionales son significativas. Nuestro enfoque novedoso une ambos métodos y nos permite descubrir valores atípicos temporales interesantes y proporcionan una contextualización en forma de sub-espacios relacionales, bajo la metodología propuesta llamada “Patrones Atípicos Temporales en un Dominio Específico.” La evaluación de la metodología propuesta fue realiza en datos temporales simulados y reales, en escenarios no supervisados y supervisados. Los resultados experimentales en datos temporales muestran que nuestro enfoque puede detectar valores atípicos temporales genuinos y proporcionar sub-espacios relacionales para explicar las causas probables de los valores atípicos temporales reportados, con buenas medidas de eficiencia. De esta manera, nuestra técnica se convierte en un método de vanguardia para descubrir valores atípicos temporales interesantes en conjuntos de datos temporales y diseñado para proporcionar información contextual de valores atípicos reportados, esto a su vez, puede usarse para mejorar nuestra comprensión del conocimiento de la disciplina y el proceso subyacente que genera de datos temporales. en_US
dc.description.graduationSemester Spring en_US
dc.description.graduationYear 2020 en_US
dc.description.sponsorship Grant NSF:16-512 BIGDATA:CR:IA: Large Scale Multi-parameter analysis of Honeybee Behavior en_US
dc.identifier.uri https://hdl.handle.net/20.500.11801/2567
dc.language.iso en en_US
dc.rights.holder (c) 2019 Walter Quispe Vargas en_US
dc.subject Temporal outlier detection en_US
dc.subject Dynamic Bayesian networks en_US
dc.subject Probabilistic association rules en_US
dc.subject Interestingness en_US
dc.subject Domain Knowledge en_US
dc.subject.lcsh Data mining en_US
dc.subject.lcsh Data sets en_US
dc.subject.lcsh Outliers (Statistics) en_US
dc.subject.lcsh Bayesian statistical decision theory en_US
dc.subject.lcsh Association rule mining en_US
dc.title Temporal outlier detection using dynamic Bayesian networks and probabilistic association rules en_US
dc.type Dissertation en_US
dspace.entity.type Publication
thesis.degree.discipline Computing and Information Sciences and Engineering en_US
thesis.degree.level Ph.D. en_US
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
CIIC_QuispeVargasW_2019.pdf
Size:
3.72 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: