У нас вы можете посмотреть бесплатно 파라미터 안 늘리고 LLM 키운다? Parallel Scaling Law 핵심 정리 или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
안녕하세요 딥러닝 논문읽기 모임입니다! 오늘 소개드릴 논문은 Parallel Scaling Law for Language Models 입니다. 이 논문은 “모델을 키우려면 파라미터를 늘리거나, 추론 시간을 늘려야 한다”는 기존 상식을 뒤집고, 세 번째 스케일링 방법인 ‘병렬 계산(parallel computation)’ 자체를 늘리는 방식을 제안합니다. LLM을 더 강하게 만들고 싶지만 메모리나 지연 시간(latency)이 부담되는 분들이라면 한 번쯤 꼭 보시면 좋을 논문입니다 기존의 언어 모델 스케일링은 크게 두 가지였습니다. 하나는 파라미터 수를 키우는 방식이고, 다른 하나는 추론 시 더 많은 토큰을 생성하면서 생각 시간을 늘리는 방식입니다. 하지만 파라미터를 키우면 GPU 메모리가 급격히 늘어나고, 추론 토큰을 늘리면 응답 속도가 지나치게 느려지는 문제가 있습니다. 이 논문은 바로 이 지점에서 “파라미터는 그대로 두고, 같은 모델을 여러 번 동시에 돌리면 어떨까?”라는 질문을 던집니다. 논문에서 제안하는 핵심 아이디어는 P개의 병렬 스트림(parallel streams) 입니다. 하나의 입력 문장을 그대로 한 번만 모델에 넣는 것이 아니라, 입력에 서로 다른 학습 가능한 변형(prefix) 을 붙여 P개의 입력을 만들고, 이를 같은 모델에 동시에 통과시킵니다. 이렇게 얻은 P개의 출력은 다시 동적으로 가중합(learnable aggregation) 되어 하나의 최종 출력으로 합쳐집니다. 중요한 점은, 이 과정에서 기존 모델의 파라미터는 거의 그대로 재사용된다는 것입니다. 추가되는 파라미터는 스트림마다 약 0.2% 수준에 불과합니다. 이 방식이 흥미로운 이유는, 단순한 앙상블과 다르기 때문입니다. 앙상블은 보통 서로 다른 모델을 여러 개 쓰지만, 여기서는 같은 모델이 서로 다른 관점으로 동시에 ‘생각’하게 만듭니다. 논문에서는 이를 통해 모델의 계산량(computation)을 늘리면, 마치 파라미터를 늘린 것과 비슷한 효과가 나타난다고 설명합니다. 이 현상을 정량화한 것이 바로 Parallel Scaling Law입니다. 저자들은 이론과 실험을 통해, 병렬 스트림 수를 P로 늘리면 성능이 O(log P) 비율로 파라미터를 키운 것과 유사하게 개선된다는 것을 보였습니다. 예를 들어 P=8로 병렬 스케일링한 모델은, 같은 성능을 얻기 위해 파라미터를 직접 늘리는 방식보다 메모리 증가량은 최대 22배 적고, 지연 시간 증가는 최대 6배 적습니다. 특히 Figure 4와 Table 3 부근의 실험 결과를 보면, 작은 배치 크기(batch size=1) 환경에서는 이 장점이 더욱 두드러집니다. 또 하나 중요한 관찰은, 이 병렬 스케일링이 추론 능력이 중요한 작업에서 특히 효과적이라는 점입니다. 코드 생성이나 수학 문제(GSM8K, HumanEval 등)에서는, P를 늘릴수록 성능이 눈에 띄게 올라가며, 상대적으로 단순한 상식·암기 위주의 작업에서는 개선 폭이 더 작습니다. 논문은 이를 두고 “파라미터는 기억(memoration)에, 계산은 추론(reasoning)에 더 큰 영향을 준다”는 해석을 제시합니다. 훈련 비용이 커질 수 있다는 점을 고려해, 저자들은 2단계 학습(two-stage training) 전략도 제안합니다. 대부분의 토큰으로는 기존 방식으로 학습하고, 마지막 소량의 토큰(약 2%)만 병렬 스케일링을 적용해도 효과가 빠르게 나타난다는 것입니다. 심지어 이미 학습된 Qwen-2.5 같은 오프더셸프 모델에 적용해도, 메인 파라미터를 고정한 채(prefix만 학습) 성능이 유의미하게 개선되는 결과를 보여줍니다. 이 논문이 던지는 메시지는 꽤 분명합니다. “모델의 능력은 파라미터 수만이 아니라, 얼마나 많은 계산을 하느냐로도 키울 수 있다.” 특히 메모리 제약이 큰 엣지 디바이스나, 빠른 응답이 중요한 서비스 환경에서는 병렬 스케일링이 현실적인 대안이 될 수 있습니다. 앞으로의 LLM 스케일링 논의에서, 파라미터·데이터와 함께 계산(computation) 자체를 어떻게 쓰느냐가 핵심 축으로 자리 잡을 가능성을 보여주는 논문입니다. 논문에 대한 자세한 리뷰를 진행해 보았습니다 오늘도 많은 관심 미리 감사 드립니다 :) • 파라미터 안 늘리고 LLM 키운다? Parallel Scaling Law 핵...