Publication:
Temporal outlier detection using dynamic Bayesian networks and probabilistic association rules
Temporal outlier detection using dynamic Bayesian networks and probabilistic association rules
Authors
Quispe Vargas, Walter
Embargoed Until
Advisor
Acuña Fernández, Edgar
College
College of Engineering
Department
Department of Electrical and Computer Engineering
Degree Level
Ph.D.
Publisher
Date
2019-12-10
Abstract
Temporal datasets provide records of the evolution and dependencies of random variables over time. Recently, there has been an increase in the application of temporal datasets in areas such as intrusion detection, fraud detection, activity recognition, etc. Interesting temporal outliers are anomalies that incorporate important or new information and contradict the causal probabilistic relationship in the domain knowledge described in a temporal dataset. One main objective of Data Mining is to discover interesting temporal anomalous patterns. Moreover, provide contextualization of the interestingness of the reported outliers. Most of the methods used to discover temporal outliers are reduction-based, losing valuable information in the discovery process. On the other hand, there are scarce studies about the interestingness of reported temporal outliers. Even less, to provide contextualization of the anomaly causes.
This thesis deals with the problem of discovering these interesting temporal outliers in datasets. We present probabilistic association rules as measures to discover interesting temporal outliers based on domain knowledge that has been learned and represented by a Dynamic Bayesian Network. Dynamic Bayesian networks are models to represent complex stochastic processes, to establish probabilistic dependencies in the feature space over time, and to capture the background knowledge in a causal relationship between features. The two probabilistic association rules: i) low support & high confidence, and ii) high support & low confidence, were used to identify scenarios where the discrepancies between prior and conditional probabilities are significant. Our novel approach coalesces both methods. It allows us to discover interesting temporal outliers and provide contextualization in the form of relational subspaces, under the proposed methodology called “Domain Specific Temporal Anomalous Patterns.”
The evaluation of the proposed methodology was done on synthetic and real temporal datasets on the unsupervised and supervised scenario. The experimental results on temporal datasets show that our approach can detect genuine temporal outliers and provide relational subspaces to explain the probable causes of the reported outliers, with reasonable efficiency measures. In this way, our technique becomes a state of the art method to discover interesting temporal outliers in temporal datasets. Designed to provide contextual information of the reported outliers; this, in turn, can be used to improve our understanding of the domain knowledge and the underlying temporal data generating process.
Los datos temporales proporcionan registros de la evolución y las dependencias de variables aleatorias a lo largo del tiempo. Recientemente, ha habido un incremento en la aplicación de los datos temporales en disciplinas como la detección de intrusos, la detección de fraudes, el reconocimiento de actividades, etc. Los valores atípicos temporales interesantes son anomalías que incorporan información importante o nueva, y contradicen la relación causal probabilística en el conocimiento de una disciplina descrito en un conjunto de datos temporales. Uno de los principales objetivos en la Minería de Datos es descubrir patrones anómalos temporales interesantes; además, proveer una contextualización de lo interesante del valor atípico reportado. Muchos de los métodos para descubrir valores atípicos temporales están basados en la reducción de dimensionalidad, perdiendo así información importante en el proceso de descubrimiento. Por otro lado, hay muy pocos estudios acerca de lo interesante de un valor atípico temporal reportado, mucho menos que proporcionen contextualización de la causa de la anomalía. Esta tesis trata el problema de descubrir valores atípicos temporales interesantes en un conjunto de datos. Presentamos reglas de asociación probabilísticas como medidas para descubrir valores atípicos temporales interesantes basados en el conocimiento del dominio que ha sido aprendido y representado por una Red Bayesiana Dinámica. Las redes Bayesianas dinámicas son modelos para representar procesos estocásticos complejos, para establecer dependencias probabilísticas en el espacio de variables a lo largo del tiempo y para capturar el conocimiento previo en una relación causal entre variables aleatorias. Las dos reglas de asociación probabilística definidas como: i) soporte bajo & confianza alta y ii) soporte alto & confianza baja, fueron usadas para identificar escenarios donde las discrepancias entre las probabilidades previas y condicionales son significativas. Nuestro enfoque novedoso une ambos métodos y nos permite descubrir valores atípicos temporales interesantes y proporcionan una contextualización en forma de sub-espacios relacionales, bajo la metodología propuesta llamada “Patrones Atípicos Temporales en un Dominio Específico.” La evaluación de la metodología propuesta fue realiza en datos temporales simulados y reales, en escenarios no supervisados y supervisados. Los resultados experimentales en datos temporales muestran que nuestro enfoque puede detectar valores atípicos temporales genuinos y proporcionar sub-espacios relacionales para explicar las causas probables de los valores atípicos temporales reportados, con buenas medidas de eficiencia. De esta manera, nuestra técnica se convierte en un método de vanguardia para descubrir valores atípicos temporales interesantes en conjuntos de datos temporales y diseñado para proporcionar información contextual de valores atípicos reportados, esto a su vez, puede usarse para mejorar nuestra comprensión del conocimiento de la disciplina y el proceso subyacente que genera de datos temporales.
Los datos temporales proporcionan registros de la evolución y las dependencias de variables aleatorias a lo largo del tiempo. Recientemente, ha habido un incremento en la aplicación de los datos temporales en disciplinas como la detección de intrusos, la detección de fraudes, el reconocimiento de actividades, etc. Los valores atípicos temporales interesantes son anomalías que incorporan información importante o nueva, y contradicen la relación causal probabilística en el conocimiento de una disciplina descrito en un conjunto de datos temporales. Uno de los principales objetivos en la Minería de Datos es descubrir patrones anómalos temporales interesantes; además, proveer una contextualización de lo interesante del valor atípico reportado. Muchos de los métodos para descubrir valores atípicos temporales están basados en la reducción de dimensionalidad, perdiendo así información importante en el proceso de descubrimiento. Por otro lado, hay muy pocos estudios acerca de lo interesante de un valor atípico temporal reportado, mucho menos que proporcionen contextualización de la causa de la anomalía. Esta tesis trata el problema de descubrir valores atípicos temporales interesantes en un conjunto de datos. Presentamos reglas de asociación probabilísticas como medidas para descubrir valores atípicos temporales interesantes basados en el conocimiento del dominio que ha sido aprendido y representado por una Red Bayesiana Dinámica. Las redes Bayesianas dinámicas son modelos para representar procesos estocásticos complejos, para establecer dependencias probabilísticas en el espacio de variables a lo largo del tiempo y para capturar el conocimiento previo en una relación causal entre variables aleatorias. Las dos reglas de asociación probabilística definidas como: i) soporte bajo & confianza alta y ii) soporte alto & confianza baja, fueron usadas para identificar escenarios donde las discrepancias entre las probabilidades previas y condicionales son significativas. Nuestro enfoque novedoso une ambos métodos y nos permite descubrir valores atípicos temporales interesantes y proporcionan una contextualización en forma de sub-espacios relacionales, bajo la metodología propuesta llamada “Patrones Atípicos Temporales en un Dominio Específico.” La evaluación de la metodología propuesta fue realiza en datos temporales simulados y reales, en escenarios no supervisados y supervisados. Los resultados experimentales en datos temporales muestran que nuestro enfoque puede detectar valores atípicos temporales genuinos y proporcionar sub-espacios relacionales para explicar las causas probables de los valores atípicos temporales reportados, con buenas medidas de eficiencia. De esta manera, nuestra técnica se convierte en un método de vanguardia para descubrir valores atípicos temporales interesantes en conjuntos de datos temporales y diseñado para proporcionar información contextual de valores atípicos reportados, esto a su vez, puede usarse para mejorar nuestra comprensión del conocimiento de la disciplina y el proceso subyacente que genera de datos temporales.
Keywords
Temporal outlier detection,
Dynamic Bayesian networks,
Probabilistic association rules,
Interestingness,
Domain Knowledge
Dynamic Bayesian networks,
Probabilistic association rules,
Interestingness,
Domain Knowledge
Usage Rights
All Rights Reserved / restricted to Campus
Persistent URL
Cite
Quispe Vargas, W. (2019). Temporal outlier detection using dynamic Bayesian networks and probabilistic association rules [Dissertation]. Retrieved from https://hdl.handle.net/20.500.11801/2567