Photo by CHUTTERSNAP on Unsplash

[Data Scientist] 실험이란?

Udacity에서 Data Scientist Nanodegree를 수강하며 적는 강의노트입니다. 첨부된 사진은 강의에서 나오는 내용입니다.

실험이란 무엇인가?

  • 실험(Experiment): 피처들에 대해 많은 제어
  • 관측연구(Observational Study): 피처를 전혀 제어하지 않음
  • 준실험(Quasi-Experiment): 약간의 제어

실험

관측연구

준실험

실험의 종류

Between-subjects Experiment

Within-subjects Experiment

Within-subjects experiment는 실험의 결과를 얻어오지 못할 수도 있다. 예를 들어 웹사이트에서 B라는 환경을 겪은 사용자가 다시 웹사이트에 접속하지 않으면 A라는 환경을 다시 겪을 수 없다. 이 경우 모든 환경을 참여자가 겪고 결과를 가져올 수 없게 된다.

Factorial Design

소셜 미디어나 의료분야처럼 개인의 차이가 큰 영향을 주는 분야에서는 이런 방식을 잘 사용하지 않는다.

표본 추출(Sampling)

하지만 위 사진에서 나뉘어진 세 구역에서, 각 지역에 사는 사람들을 조사하고 싶다면

무작위 추출의 경우 위처럼 인구가 적은 지역은 적게 추출되고 실험 결과는 인구가 많은 지역에 편향되게된다.

이 경우 샘플 분포를 인위적으로 조절해주어야한다(계층화된 임의 샘플링 — stratified random sampling)

결과 측정하기

  1. 추천한 영상의 시청시간 증가할수록 좋게 평가 → 제작자들이 영상을 일부러 길게 만들게 된다
  2. 추천한 영상이 높은 랭킹을 가질수록 좋게 평가 → 저순위에 랭크된 영상들이 노출되지 않는다
  3. 사용자들이 검색을 많이 하게 할수록 좋게 평가→ 추천 결과가 별로여서 사람들이 검색을 하는 걸수도 있다.

글 잘 보셨으면 clap 눌러주세요 👏. 이녀석 괜찮다 싶으면 Follow도 부탁드려요 😀

2020.12.8 ~ 2022.6.7 육군복무중 Serving in the South Korean Military Service

2020.12.8 ~ 2022.6.7 육군복무중 Serving in the South Korean Military Service