본문 :
FL은 모든 사용자가 Server로부터 ML 모델을 수신하고 동시에 로컬 데이터 세트로 로컬 교육을 수행한 다음 모델 집계를 수행하기 위해 로컬 모델 업데이트를 Server로 보내는 병렬 모델 훈련을 수행했습니다. FL에서 모든 사용자는 모델을 훈련 가능한 충분한 계산 자원을 가지고 있어야 하며 통신 오버헤드는 모델 크기에 따라 결정되었습니다.
FL과 달리 분할 학습(SL)은 ML 모델을 컷 레이어에 의해 하위 모델로 나누고 모델 학습을 위해 client에 배포합니다. , Server의 하위 모델 (Server-side 모델이라고 함)은 서버측에서 훈련되며 여기서 절단 레이어의 스매시된 데이터만 전송되었습니다.
이를 위해 SL은 client 측 모델을 몇개의 상단부 레이어로 제한하여 FL에 비해 사용자의 계산 오버헤드를 줄입니다.
한편 SL의 통신 오버헤드는 사용자가 소유한 데이터 세트의 크기에 의해 결정되었습니다.
이기종 리소스를 가진 사용자의 다양성, 다양한 연산 능력, 데이터 분포 등으로 인해 FL 또는 SL 만을 배치하는 것은 현실적으로 효율적이지 않을 수 있습니다.
이에 이전에 포스팅한 Split Fed에서는 FL과 SL의 장점을 결합하기 위해 SFL(Split Federated Learning)을 제안했지만, 모든 사용자가 SL 방식으로 훈련하기 때문에 여전히 SL에서와 같이 큰 통신 오버헤드 문제가 남습니다.
이에 이 논문에서는 HSFL을 제안하면서 FL과 SL의 이점을 얻기 위해 각 사용자를 ST 또는 FT 방법으로 스케줄링합니다.
System model

client의 집합 $N = {𝑢_1, ..., 𝑢_𝑁 }$과 하나의 Server가 ML 모델을 공동으로 훈련하는 네트워크가 있습니다. 그림에서 볼 수 있듯이 각 사용자 $𝑢_𝑖$는 데이터 크기가 $|𝐷_𝑖 |$로 표시된 로컬 데이터 세트 $𝐷_𝑖$를 소유한다고 가정합니다. 각 라운드에서 사용자의 일부 집합만 모델 훈련에 참여하도록 선택되며 각 사용자는 FT 또는 ST 방법으로 예약할 수 있습니다.
이에 훈련 모델은 다음과 같은 형태 입니다.

알고리즘은 다음과 같습니다.

FL-method
먼저 FL로 스케쥴링된 사용자는 수신된 글로벌 모델 $𝜔_𝑔$을 사용하여 로컬 모델 업데이트를 독립적으로 계산합니다.
사용자의 연산 자원을 $𝑓_𝑖$, $𝐶_{𝑖,𝐹}$를 하나의 샘플데이터를 계산하는데 필요한 CPU 사이클 입니다.
그러면 local model update를 계산하는 시간은 다음과 같습니다.

여기서 $e_i$는 local training iteration 입니다.
model update를 위한 전체 에너지 소모량은

이 됩니다.
SL-method
SL 방법으로 스케쥴링된 사용자는 Server와 협력하여 로컬 모델 업데이트를 계산합니다.
여기서 각 사용자는 수신한 client 모델의 로컬 모델 업데이트를 계산하고 server는 server-side의 로컬 모델 업데이트를 계산합니다.
그러면 FL과 달리 2개로 분할되어 다음과 같은 CPU 사이클을 계산 할 수 있습니다.
같은 논리로 서버와 client에서 분할된 모델의 훈련 합은

로 계산 됩니다.
Transmission cost
FDMA 가정에서 특정 client의 서버로의 uplink rate는 다음과 같습니다.

여기서 $𝑏_𝑖$는 사용자에 할당된 대역폭의 비율, $𝑔_𝑖$는 사용자와 server 간의 채널 이득, $𝐵_𝑤$는 총 대역폭, $𝑝_𝑖$는 사용자의 전송 전력, $𝑁_0$은 가우시안 노이즈의 전력 스펙트럼 밀도입니다.
FL method에서 사용자는 서버로부터 모델을 받고 업데이트 후 업로드 해야 합니다.
그러면 통신 오버헤드는 모델 사이즈 $m_i^g$에 따라 달라 집니다.
그러면 통신 시간은 입니다. 서버에서 보내는 다운 링크는 높은 자원을 바탕으로 한다고 사정하고 다운 비용을 고려하지 않습니다.
SL 방식에서 client는 컷 레이어의 출력 활성화와 client-side의 모델 업데이트를 server에 업로드해야 합니다. 이 경우 통신 오버헤드는 두 부분으로 구성됩니다.
이경우 훈련 시간은 데이터 크기에 의해 결정되며 transmission time은 다음과 같습니다.
그
그러면 HSFL 알고리즘의 1라운드 latency는 다음과 같이 표현됩니다.

이로써 HSFL에서는 유효 자원의 TH 값을 넘는 client에 대한 FL 작업을 수행하고 이하인 client에 대한 SL 작을 수행해 병합하는 과정을 거칩니다.
Uploaded by N2T