Publication:
Impacto en la tardanza promedio del modo de controlar sistemas de manufactura mediante agentes utilizando Reforzamiento del Aprendizaje y Lógica Difusa
Impacto en la tardanza promedio del modo de controlar sistemas de manufactura mediante agentes utilizando Reforzamiento del Aprendizaje y Lógica Difusa
Authors
Soto-Marín, Claudia C.
Embargoed Until
Advisor
Bartolomei-Suárez, Sonia M.
College
College of Engineering
Department
Department of Industrial Engineering
Degree Level
M.S.
Publisher
Date
2008
Abstract
In this investigation it is compared two algorithms in the dispatching rule selection in a system of
three machines. The first algorithm has an agent that controls the decision-making of a system of
three machines. The second algorithm use an agent for each machine, in this case three, which
controls only the dispatching rule selection on the machinery it belong. The algorithms select the
parts to be processed through the dynamic selection of the optimal dispatching policy by the use
of Reinforcement Learning (RL) and Fuzzy Inference Systems (FIS). The agents learn to make
decisions throughout the time by trial-error, receiving rewards or penalties depending on the
impact observed in the objective of the system, which is to reduce the performance measure mean
tardiness. On each machinery it is evaluated the actual state and it is recommended a dispatching
rule to be used in the selection of the parts that waits in the queue. The algorithm receives the
state of the system; it transforms the values of the input variables to fuzzy values, to evaluate
them through the fuzzy base rules. Finally, the algorithm decides the dispatching rule to use.
According to the observed impact in the mean tardiness, the agent rewards or penalizes the taken
action. To evaluate if there exist differences between the used algorithms, it was used simulation.
The system were modeled in ArenaTM and there were performed experimental runs for each
system and it was concluded that for the system in study and the simulation time used, to control
a manufacturing system by one agent presents mean tardiness lower than to control them by three
agents.
En esta investigación se compararon dos algoritmos para la selección de políticas de despacho en un sistema de tres máquinas. El primer algoritmo tiene un solo agente que controla la toma de decisiones de un sistema de 3 máquinas. El segundo algoritmo utiliza un agente para cada máquina, en este caso tres, los cuales controlan la selección de políticas de despacho sólo de la máquina a la que pertenecen. Los algoritmos seleccionan las piezas a procesar mediante la elección dinámica de políticas de despacho óptima utilizando Reforzamiento del Aprendizaje (RL) y Sistemas de Inferencia Difusa (FIS). Los agentes aprenden a tomar decisiones a lo largo del tiempo mediante prueba y error, recibiendo sólo recompensas o penalidades dependiendo del impacto observado en el objetivo del sistema, que es disminuir la medida de rendimiento tardanza promedio del sistema. En cada máquina se evalúa el estado actual y se recomienda una política de despacho a utilizar en la selección de piezas que esperan en fila. El algoritmo recibe el estado del sistema, convierte los valores de las variables de entrada a valores difusos, para luego evaluarlos mediante la base de reglas difusas. Finalmente decide la política de despacho a utilizar. De acuerdo al impacto obervado en la tardanza promedio del sistema, el agente recompensa o penaliza la acción tomada. Para evaluar si existían diferencias entre los algoritmos utilizados, se utilizó simulación. Se modelaron los sistemas en ArenaTM 1 y realizaron corridas experimentales para cada sistema. Se realizó un análisis estadístico de los resultados y se concluyó que para el caso bajo estudio y el tiempo de simulación utilizado, controlar un sistema de manufactura mediante un agente presenta tardanzas promedios del sistema menores que al controlarlo mediante tres agentes.
En esta investigación se compararon dos algoritmos para la selección de políticas de despacho en un sistema de tres máquinas. El primer algoritmo tiene un solo agente que controla la toma de decisiones de un sistema de 3 máquinas. El segundo algoritmo utiliza un agente para cada máquina, en este caso tres, los cuales controlan la selección de políticas de despacho sólo de la máquina a la que pertenecen. Los algoritmos seleccionan las piezas a procesar mediante la elección dinámica de políticas de despacho óptima utilizando Reforzamiento del Aprendizaje (RL) y Sistemas de Inferencia Difusa (FIS). Los agentes aprenden a tomar decisiones a lo largo del tiempo mediante prueba y error, recibiendo sólo recompensas o penalidades dependiendo del impacto observado en el objetivo del sistema, que es disminuir la medida de rendimiento tardanza promedio del sistema. En cada máquina se evalúa el estado actual y se recomienda una política de despacho a utilizar en la selección de piezas que esperan en fila. El algoritmo recibe el estado del sistema, convierte los valores de las variables de entrada a valores difusos, para luego evaluarlos mediante la base de reglas difusas. Finalmente decide la política de despacho a utilizar. De acuerdo al impacto obervado en la tardanza promedio del sistema, el agente recompensa o penaliza la acción tomada. Para evaluar si existían diferencias entre los algoritmos utilizados, se utilizó simulación. Se modelaron los sistemas en ArenaTM 1 y realizaron corridas experimentales para cada sistema. Se realizó un análisis estadístico de los resultados y se concluyó que para el caso bajo estudio y el tiempo de simulación utilizado, controlar un sistema de manufactura mediante un agente presenta tardanzas promedios del sistema menores que al controlarlo mediante tres agentes.
Keywords
Reinforcement Learning,
Fuzzy Inference Systems,
Performance measure mean tardiness
Fuzzy Inference Systems,
Performance measure mean tardiness
Usage Rights
Persistent URL
Cite
Soto-Marín, C. C. (2008). Impacto en la tardanza promedio del modo de controlar sistemas de manufactura mediante agentes utilizando Reforzamiento del Aprendizaje y Lógica Difusa [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/1514