[빅데이터] 차원의 저주(The curse of dimensionality)
2019. 6. 12. 02:50
차원의 저주란, *데이터 학습을 위해 차원이 증가하면서 학습데이터 수가 차원의 수보다 적어져 성능이 저하되는 현상. *차원이 증가할 수록 개별 차원 내 학습할 데이터 수가 적어지는(sparse) 현상 발생 *해결책: 차원을 줄이거나(축소시키거나) 데이터를 많이 획득 즉, 간단히 말해서 차원이 증가함에 따라(=변수의 수 증가) 모델의 성능이 안 좋아지는 현상을 의미합니다. 무조건 변수의 수가 증가한다고 해서 차원의 저주 문제가 있는 것이 아니라, 관측치 수보다 변수의 수가 많아지면 발생합니다. (예를들어, 관측치 개수는 200개인데, 변수는 7000개) 왜 이런 현상이 발생할까요? 만약, 변수가 1개인, 1차원을 가정해봅시다. 1차원은 '선'이죠. 선위에 관측치들이 표현될 것 입니다. 제일 왼쪽의 그림처럼..