Publication:
CFL-HC: A coded federated learning framework for heterogeneous computing scenarios

dc.contributor.advisor Lu, Kejie
dc.contributor.author Wang, Dong
dc.contributor.college College of Engineering
dc.contributor.committee Rodríguez Martínez, Manuel
dc.contributor.committee Arzuaga Cruz, Emmanuel
dc.contributor.committee Rivera Gallego, Wilson
dc.contributor.department Department of Computer Science and Engineering
dc.contributor.representative Rodriguez Román, Daniel
dc.date.accessioned 2023-07-07T19:15:22Z
dc.date.available 2023-07-07T19:15:22Z
dc.date.issued 2023-07-07
dc.description.abstract Federated learning (FL) is a promising machine learning paradigm that enables distributed edge devices to collaboratively train a model without sharing their raw data. However, a major challenge in FL is that edge devices are heterogeneous, which compromises the convergence rate of model training. To mitigate this influence, several recent studies have proposed various solutions, one of which is to utilize coded computing to facilitate the training of linear models. Nevertheless, the existing coded federated learning (CFL) scheme is limited by a fixed coding redundancy parameter. Besides, a weight matrix used in the existing design may introduce unnecessary errors. To tackle these limitations, we propose a novel framework to facilitate CFL model training in heterogeneous computing scenarios. Our framework applies a computing system consisting of a central server and multiple computing devices with original or coded datasets. With specifying an expected number of input-output pairs used in one round, we formulate an optimization problem to determine the best deadline for each training round and the optimal size of the computing task allocated to each computing device. To optimize this problem, we design a two-step alternative solution and evaluate the proposed framework by developing a real CFL system using the platform of message-passing interface (MPI). By conducting numerical experiments, we demonstrate the advantages of our framework in terms of both accuracy and convergence speed. Besides, to train a model using real-world data, we apply a kernel method and encoding technique to transform the nonlinear data sample into data pairs with linear properties. We build a distributed system to test the performance of the proposed scheme. The analysis of the experiment shows consistent results.
dc.description.abstract El aprendizaje federado (FL) es un paradigma prometedor de aprendizaje automático que permite que los dispositivos periféricos distribuidos entrenen en colaboración un modelo sin compartir sus datos sin procesar. Sin embargo, un desafilo importante en FL es que los dispositivos de borde son heterogéneos, lo que compromete la tasa de convergencia del entrenamiento del modelo. Para mitigar esta influencia, varios estudios recientes han propuesto varias soluciones, una de las cuales es utilizar computación codificada para facilitar el entrenamiento de modelos lineales. Sin embargo, el esquema existente de aprendizaje federado codificado (CFL) está limitado por un parámetro fijo de redundancia de codificación. Además, una matriz de peso utilizada en el diseño existente puede introducir errores innecesarios. Para abordar estas limitaciones, proponemos un marco novedoso para facilitar el entrenamiento del modelo CFL en escenarios informáticos heterogéneos. Nuestro marco aplica un sistema informático que consiste en un servidor central y múltiples dispositivos informáticos con conjuntos de datos originales o codificados. Al especificar un número esperado de pares de entradasalida utilizados en una ronda, formulamos un problema de optimización para determinar la mejor fecha límite para cada ronda de entrenamiento y el tamaño óptimo de la tarea informática asignada a cada dispositivo informático. Para optimizar este problema, diseñamos una solución alternativa de dos pasos y evaluamos el marco propuesto mediante el desarrollo de un sistema CFL real utilizando la plataforma de interfaz de paso de mensajes (MPI). Al realizar experimentos numéricos, demostramos las ventajas de nuestro marco en términos de precisión y velocidad de convergencia. Además, para entrenar un modelo utilizando datos del mundo real, aplicamos un método kernel y una técnica de codificación para transformar la muestra de datos no lineales en pares de datos con propiedades lineales. Construimos un sistema distribuido para probar el rendimiento del esquema propuesto. El análisis del experimento muestra resultados consistentes.
dc.description.graduationSemester Summer
dc.description.graduationYear 2023
dc.description.sponsorship NSF CRI Grant 1730325: September 2017 – August 2022, project title: “CI-New: Collaborative Research: Developing an Open Networked Airborne Computing Platform”. NSF CCRI Grant 2235158: May 2023 – April 2026, project title: “Collaborative Research: Research Infrastructure: CCRI: ENS: Enhanced Open Networked Airborne Computing Platform”.
dc.identifier.uri https://hdl.handle.net/20.500.11801/3550
dc.language.iso en
dc.rights Attribution-NonCommercial-NoDerivatives 4.0 International *
dc.rights.holder (c) 2023 Dong Wang
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/4.0/ *
dc.subject federated learning
dc.subject coded federted learning
dc.subject.lcsh Machine learning
dc.subject.lcsh Data sets - Knowledge and learning
dc.subject.lcsh Learning - Mathematical models
dc.subject.lcsh Telecommunication - Message processing
dc.title CFL-HC: A coded federated learning framework for heterogeneous computing scenarios
dc.type Dissertation
dspace.entity.type Publication
thesis.degree.discipline Computing and Information Sciences and Engineering
thesis.degree.level Ph.D.
Files