Photo by CHUTTERSNAP on Unsplash

[Data Scientist] 실험이란?

Udacity에서 Data Scientist Nanodegree를 수강하며 적는 강의노트입니다. 첨부된 사진은 강의에서 나오는 내용입니다.

실험이란 무엇인가?

데이터를 수집하고 테스트하거나 흥미있는 두 변수관의 관계를 이해하는 것에는 여러 방법이 있다. 변수들을 얼마나 인위적으로 제어하냐에 따라 이 방법은 크게 3가지로 나뉜다.

  • 실험(Experiment): 피처들에 대해 많은 제어
  • 관측연구(Observational Study): 피처를 전혀 제어하지 않음
  • 준실험(Quasi-Experiment): 약간의 제어

우리가 테스트하고자 하는 것 외에는 어떤 것도 조작해서는 안된다. 무작위로 산출된 모집단들은 동등해야한다. 이후 우리가 테스트하길 원하는 것만을 고쳐서 그 차이점을 분석해야한다. 예를 들어 50%의 사용자들에게 웹사이트의 버튼을 단 하나만 바꿔서 그 버튼이 잘 눌리는지 분석하는 것이다.

주로 의학 분야에서 위와 같은 실험이 불가능한 경우가 많다. 예를 들어 담배가 암 발생률에 영향을 주는지 알아보고 싶다면, 담배를 피지 않는 사람들을 모아서 담배를 피게 한 후 그 결과를 측정해야한다. 하지만 이는 윤리적으로 부적절하며 실험 참여자에게 잠재적인 위험을 갖게한다. 따라서 기존에 담배를 피던 사람과, 피지 않는 사람들의 암발생률을 관측하여(담배를 피게 만들지 않는다) 상관관계를 분석한다.

실험과 관측연구의 중간으로, 실험만큼 강하게 인과성을 확인할 수는 없지만, 그래도 조사하는 내용에 대해서 충분한 관계를 입증할 수 있다. 설계의 요구사항이 실험에 비해 적기 때문에 보다 유연하고 쉽게 진행할 수 있다.

실험의 종류

A/B Test — 모집단을 A, B 둘로 나눈다. A는 제어 그룹(Control Group), B는 실험 그룹(Experimental Group)이다. A, B는 같은 테스트를 받지만 B는 조사하고자 하는 조작을 가한다. B 그룹의 참여자들만 새로운 약물을 받거나, 변경된 웹사이트를 보여주는 식이다. 서로 다른 그룹에 참여자들은 다른 그룹의 조작을 겪지 않을 경우, 이를 Between-subjects Experiment라고 한다.

반대로 조작을 가한 환경과 가하지 않은 환경 두가지에 노출되는 실험을 Within-subjects Experiment라고 한다. 예를 들어 참가자에게 기존 음료수와 새로운 음료수를 모두 맛보게 하여 맛을 점수로 평가하게하고 그 점수의 차이를 바탕으로 판단하는 실험이다. Repeated Measures Design이라고도 부른다.Within-subjects Experiment에서도 무작위성은 중요하다.

Within-subjects experiment는 실험의 결과를 얻어오지 못할 수도 있다. 예를 들어 웹사이트에서 B라는 환경을 겪은 사용자가 다시 웹사이트에 접속하지 않으면 A라는 환경을 다시 겪을 수 없다. 이 경우 모든 환경을 참여자가 겪고 결과를 가져올 수 없게 된다.

X와 Y라는 변수가 있을 때, 제어 그룹(X, Y 없음), X-only 그룹, Y-only 그룹, X and Y 그룹 4가지로 나누어서 테스트하는 방식이다. 여러 변수가 동시에 묶여 발생하는 경우를 조사할 수 있다.

소셜 미디어나 의료분야처럼 개인의 차이가 큰 영향을 주는 분야에서는 이런 방식을 잘 사용하지 않는다.

표본 추출(Sampling)

웹 환경같이 데이터를 수집하기 쉽지 않은 경우가 있다. 사람들을 대상으로 설문조사하는 경우에는 모든 사람을 대상으로 진행할 경우 시간과 비용이 크게 소모되므로, 표본을 추출하여 조사를 진행한다. 가장 간단한 방법은 완전 무작위로 추출하는 것이다(Simple Random Sampling).

하지만 위 사진에서 나뉘어진 세 구역에서, 각 지역에 사는 사람들을 조사하고 싶다면

무작위 추출의 경우 위처럼 인구가 적은 지역은 적게 추출되고 실험 결과는 인구가 많은 지역에 편향되게된다.

이 경우 샘플 분포를 인위적으로 조절해주어야한다(계층화된 임의 샘플링 — stratified random sampling)

결과 측정하기

연구 성과를 평가하기 위해선 평가지표가 필요하다. 하지만 지표가 목표와 직접적인 연관이 있지 않고 암시일 뿐이라는 걸 기억해야한다. 또한 어떤 성능의 향상은 다른 부작용을 가져올 수 있다. 예를들어 비디오 추천 시스템의 경우

  1. 추천한 영상의 시청시간 증가할수록 좋게 평가 → 제작자들이 영상을 일부러 길게 만들게 된다
  2. 추천한 영상이 높은 랭킹을 가질수록 좋게 평가 → 저순위에 랭크된 영상들이 노출되지 않는다
  3. 사용자들이 검색을 많이 하게 할수록 좋게 평가→ 추천 결과가 별로여서 사람들이 검색을 하는 걸수도 있다.

글 잘 보셨으면 clap 눌러주세요 👏. 이녀석 괜찮다 싶으면 Follow도 부탁드려요 😀

2020.12.8 ~ 2022.6.7 육군복무중 Serving in the South Korean Military Service

2020.12.8 ~ 2022.6.7 육군복무중 Serving in the South Korean Military Service