GPT-2, GPT-3 외의 Decoder Only 언어모델들에 대해서 살펴본다 GPT-Neo(125M, 350M, 1.3B, 2.7B) mesh-tensorflow library 이용 Local Attention: LongFormer https://arxiv.org/abs/2004.05150 Linear Attention: https://arxiv.org/abs/1812.01243 Axial PE: Axial Attention https://arxiv.org/abs/1912.12180 MoE GPT-J(6B) Mesh Transformer Jax 프레임워크 학습(TPU 기반) RoPE The Pile 로 학습 TPU v3–256 Pod 에서 402토큰을 383500step 학습 GPT-NeoX(20B) — 2022/2