Model Compressing

김희규
2 min readMay 19, 2023

Quantization 계열

GPTQ(ICLR 2023): Accurate Post-training Compression for Generative Pretrained Transformers.

무려 3비트, 4비트 양자화를 지원한다. OPT, BLOOM, LLaMA모델에서 쓸 수 있다. 이 방법을 사용한 Vicuna 13B(52GiB)는 7.45GB가 되었다.

https://huggingface.co/anon8231489123/vicuna-13b-GPTQ-4bit-128g

Model Pruning 계열

CoFiPruning(ACL 2022): Structured Pruning Learns Compact and Accurate Models

https://arxiv.org/pdf/2204.00408.pdf
https://github.com/princeton-nlp/CoFiPruning

이 repository에서는 Huggingface BERT 모델을 pruning하는 코드를 제공한다. 성능 예시는 아래와 같다. RoBERTa나 Electra도 지원해주면 좋을 듯.

SparseGPT(2023): Massive Language Models Can Be Accurately Pruned in One-Shot

GPT와 같은 Decoder-only 언어모델인 OPT, BLOOM 의 pruning을 지원한다. 코드를 조금 수정해서 LLaMA나 GPT-NeoX에도 적용해볼 수 있을 것 같다.

찾아보니 역시 이미 있다.

논문에는 GPTQ와 함께 적용한 내용이 있다.

--

--

김희규

나는 최고의 선수다. 나를 최고라고 믿지 않는 사람은 최고가 될 수 없다.