Loading...
Thumbnail Image
Publication

Data caching with deep reinforcement learning

Huaman Allccahuaman, Ruth M.
Citations
Altmetric:
Abstract
The growth of data traffic in telecommunications networks is becoming an issue, pos- ing new challenges to network architectures. Cache memory is a fixed-size, high-speed storage space that stores a subset of data. Cache memory has a policy that makes the decision of what data is important to cache, this helps to have faster access to data re- quested by users. There are caching policies such as least recently used (LRU), and first in, first out (FIFO), but these do not take into account certain patterns that data has. Knowing the need to improve cache organization, this research developed a Reinforce- ment Learning model, we used the Proximal Policy Optimization (PPO) architecture with deep neural networks, within the environment we used the Long Short-Term Mem- ory (LSTM) and embeddig components. The Reinforcement Learning (RL) model was implemented and trained with different observations and rewards. The data used for training and testing are based on the Zipf distribution. Experimental test results show that our proposed model can make smarter decisions in organizing cached data. It improves hit rate based performance and long-term stability compared to LRU, FIFO and RL model policies.
El crecimiento del tráfico de datos en las redes de telecomunicaciones se está convirtiendo en un problema, lo que plantea nuevos retos a las arquitecturas de red. La memoria caché es un espacio de almacenamiento de tamaño fijo y alta velocidad que almacena un subconjunto de datos. La memoria caché tiene una política que toma la decisión de qué datos es importante almacenar en la memoria caché, esto ayuda a tener un acceso más rápido a los datos solicitados por los usuarios. Existen políticas de almacenamiento en caché como la de uso menos reciente (LRU), y la de primero en entrar, primero en salir (FIFO), pero estas no tienen en cuenta ciertos patrones que tienen los datos. Conociendo la necesidad de mejorar la organización de la memoria caché, esta investigación desarrolló un modelo de Aprendizaje por Refuerzo, utilizamos la arquitectura Proximal Policy Optimization (PPO) con redes neuronales profundas, dentro del entorno utilizamos los componentes Long Short-Term Memory (LSTM) y embeddig. El modelo Aprendizaje por Refuerzo (RL) fue implementado y entrenado con diferentes observaciones y recompensas. Los datos utilizados para el entrenamiento y las pruebas se basan en la distribución Zipf. Los resultados de las pruebas experimentales muestran que nuestro modelo propuesto puede tomar decisiones más inteligentes en la organización de los datos almacenados en caché. Mejora el rendimiento basado en la tasa de aciertos y la estabilidad a largo plazo, en comparación con las políticas LRU, FIFO y el modelo RL.
Description
Date
2024-07-09
Journal Title
Journal ISSN
Volume Title
Publisher
Research Projects
Organizational Units
Journal Issue
Keywords
Reinforcement learning, Long Short-Term Memory, Embeddig
Citation
Embedded videos