Model Compressing
2 min readMay 19, 2023
Quantization 계열
GPTQ(ICLR 2023): Accurate Post-training Compression for Generative Pretrained Transformers.
무려 3비트, 4비트 양자화를 지원한다. OPT, BLOOM, LLaMA모델에서 쓸 수 있다. 이 방법을 사용한 Vicuna 13B(52GiB)는 7.45GB가 되었다.
https://huggingface.co/anon8231489123/vicuna-13b-GPTQ-4bit-128g
Model Pruning 계열
CoFiPruning(ACL 2022): Structured Pruning Learns Compact and Accurate Models
https://arxiv.org/pdf/2204.00408.pdf
https://github.com/princeton-nlp/CoFiPruning
이 repository에서는 Huggingface BERT 모델을 pruning하는 코드를 제공한다. 성능 예시는 아래와 같다. RoBERTa나 Electra도 지원해주면 좋을 듯.
SparseGPT(2023): Massive Language Models Can Be Accurately Pruned in One-Shot
GPT와 같은 Decoder-only 언어모델인 OPT, BLOOM 의 pruning을 지원한다. 코드를 조금 수정해서 LLaMA나 GPT-NeoX에도 적용해볼 수 있을 것 같다.
찾아보니 역시 이미 있다.
논문에는 GPTQ와 함께 적용한 내용이 있다.