[SIGCOMM'25] ByteScale: Communication-Efficient Scaling of LLM Training with a 2048K Context Length on 16384 GPUs
·
[ Laboratory ]/Paper review
ByteScale: Communication-Efficient Scaling of LLM Training with a 2048K Context Length on 16384 GPUshttps://dl.acm.org/doi/10.1145/3718958.3754352https://conferences.sigcomm.org/sigcomm/2025/program/papers-info/ >> NetAI & Wireless https://youtu.be/cXsMyc7ROyo?si=-EAnwxwNIZbZBd4I summaryByteScale은 긴 시퀀스와 짧은 시퀀스가 혼합된 큰 스케일의 학습을 위해 LLM longterm context 학습 과정에서 발생하는 두 가지 문제 (불필요한 통신, 불균형한 연산)를 해결하였..