한쪽으로 치우친 데이터 처리는 쉽지 않네요

   조회 932   추천 0    

데이터를 처리 해 보다 보니까

대부분의 데이터들은 한쪽으로 치우쳐 있네요

고민하다가 찾아보니 이런 문제가 일반적인 것 이었군요.


예를 보니

디스크의 고장 (년 1% 미만)

시용카드의 불법 사용 (년 2%)

의료 데이터 (대부분의 환자가 건강하고 일부에 병이 있는 경우)

등등


이런 경우 학습을 대강 시키면 쉽게 모두 문제가 없는 것으로 예측해 버려서

정확도는 높게 나오는데 쓸데 없는 학습이 되는 경우가 많네요


쉬운 접근으로는 Oversample, undersample 을한다고 하는데 이걸로 만은 잘 안 되네요

Midabo 12-06
Positive case 에 가중치를 주는 방법이 있는데, 일반화에 치명타를 입게 되더라고요
     
가중치를 주면 확 쏠리기도 하고 잘 안 되더라고요. 역시 쉽지 않네요




제목Page 1/3
2015-12   8974   백메가
2015-10   8560   yourip
12-26   734   sephiroce
12-05   933   백만스물하나
2017-11   1337   Kams6052
2017-10   1568   까치98
2017-09   2936   날개
2017-07   3725   백만스물하나
2017-06   3790   백만스물하나
2017-06   3956   백만스물하나
2017-06   2831   노형석
2017-05   2793   김황중
2017-05   2366   백만스물하나
2017-05   2219   띠껑
2017-05   2270   승후니도쿄
2017-05   4451   승후니도쿄
2017-05   3456   blueMango
2017-04   3400   하셀호프
2017-04   2776   베리파잉
2017-04   3110   하셀호프
2017-04   2209   신현준
2017-04   2777   임은천