Open in app

Sign in

Write

Sign in

김희규
김희규

71 Followers

Home

Lists

About

Jun 8

논문을 처음 써보고 느낀 것들

다음부턴 더 잘해야하지 하며 써본다. 리서치 이미 같은 실험을 한게 있는가? 다른 사람들이 만든 더 뛰어나고 좋은 대안이 있지는 않는가? 내가 거기서 개선할 점은 무엇일까? 남들이 하지 않았다면 이유는 뭘까? 실험에 얼마만큼의 비용이 소모될까? — 시간, 인프라, 돈 등등 이 연구가 갖는 novelty는 무엇인가? 사람들이 내 …

2 min read

2 min read


May 19

INSTRUCTOR

하나의 모델에서 여러가지 NLU task를 수행할 수 있는 모델이 나왔다. task instruction이 추가된 text embedding을 이용한다.

Langchain

2 min read

INSTRUCTOR
INSTRUCTOR
Langchain

2 min read


May 19

Model Compressing

Quantization 계열 GPTQ(ICLR 2023): Accurate Post-training Compression for Generative Pretrained Transformers. GitHub - IST-DASLab/gptq: Code for the ICLR 2023 paper "GPTQ: Accurate Post-training Quantization… This repository contains the code for the ICLR 2023 paper GPTQ: Accurate Post-training Compression for Generative…github.com 무려 3비트, 4비트 양자화를 지원한다. OPT, BLOOM, LLaMA모델에서 쓸 수 있다. 이 방법을 사용한 Vicuna 13B(52GiB)는 7.45GB가 되었다.

Deep Learning

2 min read

Model Compressing
Model Compressing
Deep Learning

2 min read


Apr 25

Language Models

GPT-2, GPT-3 외의 Decoder Only 언어모델들에 대해서 살펴본다 GPT-Neo(125M, 350M, 1.3B, 2.7B) mesh-tensorflow library 이용 Local Attention: LongFormer https://arxiv.org/abs/2004.05150 Linear Attention: https://arxiv.org/abs/1812.01243 Axial PE: Axial Attention https://arxiv.org/abs/1912.12180 MoE GPT-J(6B) Mesh Transformer Jax 프레임워크 학습(TPU 기반) RoPE The Pile 로 학습 TPU v3–256 Pod 에서 402토큰을 383500step 학습 GPT-NeoX(20B) — 2022/2

4 min read

Language Models
Language Models

4 min read


Apr 25

Adafactor Optimizer for Deep Learning

메모리 사용량이 적으면서 learning rate도 알아서 찾아주는 Adafactor에 대해서 알아본다. AdamW AdamW는 Adam에 weight decay를 추가한 옵티마이저다. Adam은 RMSProp과 Adagrad(Momentum)를 합친 방식이다. RMSProp과 Momentum은 각각 gradient를 추 …

Adafactor

6 min read

Adafactor Optimizer for Deep Learning
Adafactor Optimizer for Deep Learning
Adafactor

6 min read


Apr 23

Large Language Model의 scaling law와 emergent ability

거대한 언어모델(Large Language Model, LLM)을 학습할 때, 우리는 한정적인 리소스로 최적의 모델을 학습해야 한다. 한 번 학습에 큰 비용이 들기 때문에 여러번 실험하기 어렵다. 공개된 문헌을 바탕을 연산량, 데이터 크기, 모델 크기의 관계에 대해 유추해볼 수 있다. 또한 LLM의 성능은 선형 …

Large Language Models

10 min read

Large Language Model의 scaling law와 emergent ability
Large Language Model의 scaling law와 emergent ability
Large Language Models

10 min read


Nov 9, 2022

Google Bigquery 쓰면서 알게된 것들 정리

쿼리 결과가 너무 크면 결과 테이블을 설정에서 따로 지정해야한다. 미리 경고 안해주고 쿼리 실행 중간에 터진다. 한 row의 최대 크기는 100MB 이다. https://cloud.google.com/bigquery/quotas#query_jobs 사파리 버그 주기적으로 실행되는 쿼리를 웹 콘솔에서 사용하려면 크롬에서 해야된다… 그 외에도 뭔 버그가 있을지 몰라서 이걸 겪은 이후로는 그냥 크롬에서 쓴다. GCS로 테이블 추출 table extract는 크기 …

Google

2 min read

Google Bigquery 쓰면서 알게된 것들 정리
Google Bigquery 쓰면서 알게된 것들 정리
Google

2 min read


Aug 15, 2022

Huggingface Diffusers를 이용해서 만든 Diffusion 모델로 이미지 생성하기

허깅페이스가 NLP 외에도 컴퓨터 비전과 관련된 라이브러리도 제공하고있는데 최근에 diffusers라는 라이브러리가 나왔습니다. 이를 이용해서 간단히 이미지 생성 모델을 만드는 예제도 공개가 됬는데 이를 사용해보았습니다. Diffusion 모델은 열역학에서 아이디어를 따온거라고 하는데, 원본 데이터에 점점 노이즈를 …

Diffuers

5 min read

Huggingface Diffusers를 이용해서 만든 Diffusion 모델로 이미지 생성하기
Huggingface Diffusers를 이용해서 만든 Diffusion 모델로 이미지 생성하기
Diffuers

5 min read


Aug 7, 2022

셀레니움 파이썬 웹 크롤러 프록시 적용 방법 및 트래픽 줄이기

최근 파이썬과 셀레니움을 이용해서 웹 크롤러를 개발하고 프록시를 도입하면서 비용 문제 때문에 최적화를 진행했는데 그 과정에서 사용한 방법들을 정리해봅니다. 웹사이트로부터의 차단 피하기 지나치게 많은 요청을 보내거나 오랫동안 크롤링을 하면 서버에서 알아차리고 접근을 막아버리게 됩니다. 이 때 응답으로 429 Too Many Request를 …

Python

6 min read

셀레니움 파이썬 웹 크롤러 프록시 적용 방법 및 트래픽 줄이기
셀레니움 파이썬 웹 크롤러 프록시 적용 방법 및 트래픽 줄이기
Python

6 min read


Jul 8, 2022

Korean SmileStyle Dataset으로 문체 스타일을 바꾸는 모델 만들어보기

말투를 바꿔주는 AI 모델을 만들고 싶었는데, 때마침 좋은 토이 데이터셋을 스타일게이트에서 공유해주셔서 실험해볼 수 있게 됬습니다. Huggingface 라이브러리를 이용해서 GPT-2, BART 두 모델을 Fine-Tuning해서 말투를 바꾸는 모델을 만들어보았습니다. GitHub - smilegate-ai/korean_smile_style_dataset Smilegate AI에서 공개하는 한국어 문체 스타일 변환 "SmileStyle" 데이터셋입니다. 본 데이터셋은 Smilegate AI에서 구축한 토이 데이터셋으로, 오탈자와 스타일 변환 오류를 내포하고…github.com GPT-2 vs BART 처음에는 GPT-2를 이용해서 문체 스타일을 …

NLP

4 min read

Korean SmileStyle Dataset으로 문체 스타일을 바꾸는 모델 만들어보기
Korean SmileStyle Dataset으로 문체 스타일을 바꾸는 모델 만들어보기
NLP

4 min read

김희규

김희규

71 Followers

나는 최고의 선수다. 나를 최고라고 믿지 않는 사람은 최고가 될 수 없다.

Following
  • Anne Bonfert

    Anne Bonfert

  • Towards AI Editorial Team

    Towards AI Editorial Team

  • Netflix Technology Blog

    Netflix Technology Blog

  • MoMo 단상

    MoMo 단상

  • Terence Shin, MSc, MBA

    Terence Shin, MSc, MBA

See all (43)

Help

Status

About

Careers

Blog

Privacy

Terms

Text to speech

Teams