한쪽으로 치우친 데이터 처리는 쉽지 않네요

   조회 3936   추천 0    

데이터를 처리 해 보다 보니까

대부분의 데이터들은 한쪽으로 치우쳐 있네요

고민하다가 찾아보니 이런 문제가 일반적인 것 이었군요.


예를 보니

디스크의 고장 (년 1% 미만)

시용카드의 불법 사용 (년 2%)

의료 데이터 (대부분의 환자가 건강하고 일부에 병이 있는 경우)

등등


이런 경우 학습을 대강 시키면 쉽게 모두 문제가 없는 것으로 예측해 버려서

정확도는 높게 나오는데 쓸데 없는 학습이 되는 경우가 많네요


쉬운 접근으로는 Oversample, undersample 을한다고 하는데 이걸로 만은 잘 안 되네요

Midabo 2017-12
Positive case 에 가중치를 주는 방법이 있는데, 일반화에 치명타를 입게 되더라고요
     
가중치를 주면 확 쏠리기도 하고 잘 안 되더라고요. 역시 쉽지 않네요




제목Page 2/5
2014-05   2686811   정은준1
2015-12   11043   백메가
2018-09   2321   민사장
2018-09   2702   고기한점해
2018-08   2834   제이레빗
2018-07   2936   백만스물하나
2018-07   3592   Minchul
2018-07   3893   workwork
2018-07   3799   민달팽이
2018-05   3856   백만스물하나
2018-05   3389   백만스물하나
2018-04   4433   adioshun
2018-05   4168   adioshun
2018-04   4559   김주현
2018-04   5098   코드는하는…
2018-03   3782   회원K
2018-03   4572   Dedge
2018-03   4662   명성윤
2018-03   3048   만십
2018-03   4475   만십
2017-12   4919   sephiroce
2017-12   3937   백만스물하나