카테고리 없음

EDA (Exploratory Data Analysis, 탐색적 데이터 분석)과 PCA (Principal Component Analysis, 주성분 분석)

시 내 2023. 5. 16. 23:59

EDA (Exploratory Data Analysis, 탐색적 데이터 분석)

탐색적 데이터 분석(EDA)은 데이터를 살펴보고 이해하는 과정입니다. 예를 들어, 우리가 초등학교에서 수업을 듣고, 선생님이 우리에게 달리기 대회에 참여한 모든 학생들의 기록을 줬다고 가정해 봅시다.

탐색적 데이터 분석은 이러한 질문을 던지는 것과 같습니다:

대부분의 학생들은 얼마나 빨리 달렸을까요? (이것은 "평균" 또는 "중앙값"을 찾는 것입니다.)
가장 빠르거나 느린 학생들은 얼마나 달렸을까요? (이것은 "최대값"과 "최솟값"을 찾는 것입니다.)
학생들의 달리기 속도는 어떤 패턴을 보일까요? (이것은 "분포"를 살펴보는 것입니다.)
이런 식으로 데이터를 살펴보면, 우리가 어떤 질문을 던져야 할지, 어떤 가설을 세워야 할지, 또는 데이터가 우리에게 어떤 이야기를 해주고 있는지에 대한 아이디어를 얻을 수 있습니다.


[정리]

EDA는 우리가 데이터를 더 잘 이해하도록 도와주는 과정입니다. 데이터에는 많은 정보가 숨겨져 있을 수 있고, 이 정보를 알아내기 위해선 데이터를 여러 각도에서 살펴봐야 합니다. EDA는 이를 가능하게 합니다. 이 과정에서 데이터의 패턴, 이상치, 변수 간의 관계 등을 발견할 수 있습니다. 이런 정보는 데이터를 더 잘 처리하고, 더 정확한 모델을 만드는 데 도움이 됩니다.



PCA (Principal Component Analysis, 주성분 분석)

주성분 분석(PCA)는 데이터의 차원을 줄이는 방법입니다. 이해하기 쉽게 설명하자면, 이것은 마치 우리가 3D 영화를 보는 것을 2D로 바꾸는 것과 같습니다.

예를 들어, 초등학생들이 공룡에 대해 공부하고 있다고 가정해 봅시다. 공룡에 대한 여러 가지 정보가 있을 것입니다: 그들의 크기, 무게, 이빨의 개수, 얼마나 빨리 달릴 수 있는지 등등. 이 모든 정보는 각각 다른 "차원"을 형성합니다.

하지만, 모든 정보를 한 번에 보는 것은 어렵습니다. 그래서 PCA는 이 모든 정보를 가장 중요한 몇 가지 포인트로 요약합니다. 이는 마치 공룡의 사진을 그림으로 그려서 크기, 무게, 이빨의 개수 등을 한눈에 볼 수 있게 하는 것과 같습니다.

그래서 PCA는 복잡한 데이터를 간단하게 만들어 주는 도구로, 우리가 데이터를 더 잘 이해하고 분석할 수 있게 도와줍니다. 이 방법을 사용하면, 우리는 공룡에 대한 많은 정보를 가장 중요한 몇 가지 포인트로 요약하여 이해할 수 있습니다. 그 결과, 우리는 데이터를 보다 효율적으로 분석하고, 중요한 패턴을 더 쉽게 찾을 수 있습니다.

이런 식으로 PCA는 데이터를 '압축'하는데 도움이 되며, 머신러닝 모델을 학습시키는 데 필요한 계산량을 줄이는 데 도움이 될 수 있습니다. 이는 특히 데이터의 차원(특성의 수)이 많을 때 유용합니다. 이렇게 해서, PCA는 데이터 분석과 모델링 과정을 보다 간단하고 효율적으로 만들어 줍니다.

[정리]


PCA는 데이터의 차원을 줄이는데 사용됩니다. 많은 수의 특성을 가진 데이터는 처리하기 어렵고, 모델의 성능을 저하시킬 수 있습니다. PCA는 이런 문제를 해결하기 위해 사용됩니다. PCA는 데이터의 중요한 정보를 유지하면서 특성의 수를 줄입니다. 이는 데이터를 더 간단하게 만들고, 모델의 성능을 향상하는 데 도움이 됩니다.