Nov 9, 2022Google Bigquery 쓰면서 알게된 것들 정리쿼리 결과가 너무 크면 결과 테이블을 설정에서 따로 지정해야한다. 미리 경고 안해주고 쿼리 실행 중간에 터진다. 한 row의 최대 크기는 100MB 이다. https://cloud.google.com/bigquery/quotas#query_jobs 사파리 버그 주기적으로 실행되는 쿼리를 웹 콘솔에서 사용하려면 크롬에서 해야된다… 그 외에도 뭔 버그가 있을지 몰라서 이걸 겪은 이후로는 그냥 크롬에서 쓴다. GCS로 테이블 추출 table extract는 크기 …Google2 min readGoogle2 min read
Aug 15, 2022Huggingface Diffusers를 이용해서 만든 Diffusion 모델로 이미지 생성하기허깅페이스가 NLP 외에도 컴퓨터 비전과 관련된 라이브러리도 제공하고있는데 최근에 diffusers라는 라이브러리가 나왔습니다. 이를 이용해서 간단히 이미지 생성 모델을 만드는 예제도 공개가 됬는데 이를 사용해보았습니다. Diffusion 모델은 열역학에서 아이디어를 따온거라고 하는데, 원본 데이터에 점점 노이즈를 …Diffuers5 min readDiffuers5 min read
Aug 7, 2022셀레니움 파이썬 웹 크롤러 프록시 적용 방법 및 트래픽 줄이기최근 파이썬과 셀레니움을 이용해서 웹 크롤러를 개발하고 프록시를 도입하면서 비용 문제 때문에 최적화를 진행했는데 그 과정에서 사용한 방법들을 정리해봅니다. 웹사이트로부터의 차단 피하기 지나치게 많은 요청을 보내거나 오랫동안 크롤링을 하면 서버에서 알아차리고 접근을 막아버리게 됩니다. 이 때 응답으로 429 Too Many Request를 …Python6 min readPython6 min read
Jul 8, 2022Korean SmileStyle Dataset으로 문체 스타일을 바꾸는 모델 만들어보기말투를 바꿔주는 AI 모델을 만들고 싶었는데, 때마침 좋은 토이 데이터셋을 스타일게이트에서 공유해주셔서 실험해볼 수 있게 됬습니다. Huggingface 라이브러리를 이용해서 GPT-2, BART 두 모델을 Fine-Tuning해서 말투를 바꾸는 모델을 만들어보았습니다.NLP4 min readNLP4 min read
Published in playkeyboard·Jun 21, 2022소프트웨어 키보드는 어떻게 만들어야하는가스마트폰에서 가장 많이 실행되는 앱 중 하나인 키보드는 별도의 소프트웨어로, 내장된 기본 키보드앱이 아닌 다른 서드파티 키보드앱을 설치하여 개성있게 꾸미거나 특별한 기능을 사용할 수도 있습니다. 키보드 앱은 그 용도와 작동방식이 다른 앱과는 완전히 다릅니다. 플레이키보드 출시 이후 4년간의 운영을 바탕으로 이런 …8 min read8 min read
May 8, 2022수습이던 시절2020년 3월 A회사에 산업기능요원 병역특례를 위해 입사했다. 처음 3개월은 수습기간이었고, 이 기간동안 근무한 뒤에 정식으로 채용되는 형태였다. 수습기간동안 급여나 근무형태의 불이익은 없었지만, 수습동안 안좋은 평가를 받고 퇴사하게된 사람도 있었고, 무엇보다 다시 병역특례로 입사할 회사를 찾기가 힘들었기 때 …3 min read3 min read
May 8, 2022욕설, 혐오 분류기에 지식 증류(Knowledge Distillation) 적용해보기얼마전 kcbert-base를 fine-tuning해서 욕설분류기를 만들었습니다. 문제는 bert-base의 400MB에 달하는 모델 크기와 그에 따른 추론속도였습니다. 그래서 지식 증류(Knowledge Distillation)을 이용해서 모델 크기를 확 줄여보고 그냥 작은 모델을 썼을 때보다 성능도 더 뛰어 …Pytorch5 min readPytorch5 min read
Jan 8, 2022추천 시스템 6 — ScaNN을 이용한 벡터 유사도 검색이번 글에서는 ScaNN을 이용해서 빠르게 벡터 유사도 검색을 하는 방법에 대해 알아보겠습니다. Retrieval Model을 구현하면서 사용한 BruteForce는 모든 영화 임베딩벡터와 내적한 뒤 가장 내적값이 큰 Top K개의 아이템을 얻었습니다. 이런 방법은 전체 아이템이 수백 수천만개 이상이 될 경우 …Scann9 min readScann9 min read
Jan 8, 2022추천 시스템 5 — Basic Ranking Model지난 글에서는 TFRS를 이용해서 간단한 Retrieval Model을 만들었습니다. 이번 글에서는 Ranking Model을 구현한 다음 Retrieval Model을 통해서 뽑아낸 100개의 추천 영화들을 Ranking Model을 이용해서 더 정확하게 순위를 매겨서 추천 결과를 개선해보겠습니다. 이전 Bas …Ranking Model6 min readRanking Model6 min read
Jan 7, 2022추천 시스템 4 — Basic Retrieval Model이전 글에서는 SVD를 이용해서 추천 시스템을 만들었는데, 이번 글부터는 Tensorflow Recommenders를 이용해서 딥러닝 추천 시스템을 만드는 법에 대해서 작성하겠습니다. 전체적인 내용은 TF Recommenders(TFRS) 튜토리얼을 가져왔고, 제가 이해한 내용들과 저의 생각과 의견들을 추가로 …Recommendation System10 min readRecommendation System10 min read