Temporal outlier detection using dynamic Bayesian networks and probabilistic association rules

Quispe Vargas, Walter

Publication:

Temporal outlier detection using dynamic Bayesian networks and probabilistic association rules

dc.contributor.advisor	Acuña Fernández, Edgar
dc.contributor.author	Quispe Vargas, Walter
dc.contributor.college	College of Engineering	en_US
dc.contributor.committee	Rolke, Wolfgang
dc.contributor.committee	Schutz Schmuck, Marko
dc.contributor.committee	Aparicio Carrasco, Roxana
dc.contributor.department	Department of Electrical and Computer Engineering	en_US
dc.contributor.representative	Bartolomei Suárez, Sonia M.
dc.date.accessioned	2020-02-18T20:40:53Z
dc.date.available	2020-02-18T20:40:53Z
dc.date.issued	2019-12-10
dc.description.abstract	Temporal datasets provide records of the evolution and dependencies of random variables over time. Recently, there has been an increase in the application of temporal datasets in areas such as intrusion detection, fraud detection, activity recognition, etc. Interesting temporal outliers are anomalies that incorporate important or new information and contradict the causal probabilistic relationship in the domain knowledge described in a temporal dataset. One main objective of Data Mining is to discover interesting temporal anomalous patterns. Moreover, provide contextualization of the interestingness of the reported outliers. Most of the methods used to discover temporal outliers are reduction-based, losing valuable information in the discovery process. On the other hand, there are scarce studies about the interestingness of reported temporal outliers. Even less, to provide contextualization of the anomaly causes. This thesis deals with the problem of discovering these interesting temporal outliers in datasets. We present probabilistic association rules as measures to discover interesting temporal outliers based on domain knowledge that has been learned and represented by a Dynamic Bayesian Network. Dynamic Bayesian networks are models to represent complex stochastic processes, to establish probabilistic dependencies in the feature space over time, and to capture the background knowledge in a causal relationship between features. The two probabilistic association rules: i) low support & high confidence, and ii) high support & low confidence, were used to identify scenarios where the discrepancies between prior and conditional probabilities are significant. Our novel approach coalesces both methods. It allows us to discover interesting temporal outliers and provide contextualization in the form of relational subspaces, under the proposed methodology called “Domain Specific Temporal Anomalous Patterns.” The evaluation of the proposed methodology was done on synthetic and real temporal datasets on the unsupervised and supervised scenario. The experimental results on temporal datasets show that our approach can detect genuine temporal outliers and provide relational subspaces to explain the probable causes of the reported outliers, with reasonable efficiency measures. In this way, our technique becomes a state of the art method to discover interesting temporal outliers in temporal datasets. Designed to provide contextual information of the reported outliers; this, in turn, can be used to improve our understanding of the domain knowledge and the underlying temporal data generating process.	en_US
dc.description.abstract	Los datos temporales proporcionan registros de la evolución y las dependencias de variables aleatorias a lo largo del tiempo. Recientemente, ha habido un incremento en la aplicación de los datos temporales en disciplinas como la detección de intrusos, la detección de fraudes, el reconocimiento de actividades, etc. Los valores atípicos temporales interesantes son anomalías que incorporan información importante o nueva, y contradicen la relación causal probabilística en el conocimiento de una disciplina descrito en un conjunto de datos temporales. Uno de los principales objetivos en la Minería de Datos es descubrir patrones anómalos temporales interesantes; además, proveer una contextualización de lo interesante del valor atípico reportado. Muchos de los métodos para descubrir valores atípicos temporales están basados en la reducción de dimensionalidad, perdiendo así información importante en el proceso de descubrimiento. Por otro lado, hay muy pocos estudios acerca de lo interesante de un valor atípico temporal reportado, mucho menos que proporcionen contextualización de la causa de la anomalía. Esta tesis trata el problema de descubrir valores atípicos temporales interesantes en un conjunto de datos. Presentamos reglas de asociación probabilísticas como medidas para descubrir valores atípicos temporales interesantes basados en el conocimiento del dominio que ha sido aprendido y representado por una Red Bayesiana Dinámica. Las redes Bayesianas dinámicas son modelos para representar procesos estocásticos complejos, para establecer dependencias probabilísticas en el espacio de variables a lo largo del tiempo y para capturar el conocimiento previo en una relación causal entre variables aleatorias. Las dos reglas de asociación probabilística definidas como: i) soporte bajo & confianza alta y ii) soporte alto & confianza baja, fueron usadas para identificar escenarios donde las discrepancias entre las probabilidades previas y condicionales son significativas. Nuestro enfoque novedoso une ambos métodos y nos permite descubrir valores atípicos temporales interesantes y proporcionan una contextualización en forma de sub-espacios relacionales, bajo la metodología propuesta llamada “Patrones Atípicos Temporales en un Dominio Específico.” La evaluación de la metodología propuesta fue realiza en datos temporales simulados y reales, en escenarios no supervisados y supervisados. Los resultados experimentales en datos temporales muestran que nuestro enfoque puede detectar valores atípicos temporales genuinos y proporcionar sub-espacios relacionales para explicar las causas probables de los valores atípicos temporales reportados, con buenas medidas de eficiencia. De esta manera, nuestra técnica se convierte en un método de vanguardia para descubrir valores atípicos temporales interesantes en conjuntos de datos temporales y diseñado para proporcionar información contextual de valores atípicos reportados, esto a su vez, puede usarse para mejorar nuestra comprensión del conocimiento de la disciplina y el proceso subyacente que genera de datos temporales.	en_US
dc.description.graduationSemester	Spring	en_US
dc.description.graduationYear	2020	en_US
dc.description.sponsorship	Grant NSF:16-512 BIGDATA:CR:IA: Large Scale Multi-parameter analysis of Honeybee Behavior	en_US
dc.identifier.uri	https://hdl.handle.net/20.500.11801/2567
dc.language.iso	en	en_US
dc.rights.holder	(c) 2019 Walter Quispe Vargas	en_US
dc.subject	Temporal outlier detection	en_US
dc.subject	Dynamic Bayesian networks	en_US
dc.subject	Probabilistic association rules	en_US
dc.subject	Interestingness	en_US
dc.subject	Domain Knowledge	en_US
dc.subject.lcsh	Data mining	en_US
dc.subject.lcsh	Data sets	en_US
dc.subject.lcsh	Outliers (Statistics)	en_US
dc.subject.lcsh	Bayesian statistical decision theory	en_US
dc.subject.lcsh	Association rule mining	en_US
dc.title	Temporal outlier detection using dynamic Bayesian networks and probabilistic association rules	en_US
dc.type	Dissertation	en_US
dspace.entity.type	Publication
thesis.degree.discipline	Computing and Information Sciences and Engineering	en_US
thesis.degree.level	Ph.D.	en_US

Files

Original bundle

Now showing 1 - 1 of 1

Name:: CIIC_QuispeVargasW_2019.pdf
Size:: 3.72 MB
Format:: Adobe Portable Document Format
Description:

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Theses & Dissertations

Publication: Temporal outlier detection using dynamic Bayesian networks and probabilistic association rules

Files

Original bundle

License bundle

Collections

Publication:

Temporal outlier detection using dynamic Bayesian networks and probabilistic association rules