본문 바로가기
728x90
반응형

DataFrame 데이터 전처리4

[Python Data Analysis] 14. pandas 데이터 전처리 - 학습/검증 데이터 특성치 분류 필자가 앞서 작성한 데이터 분석 과정에 대해 간략하게 작성한 포스팅을 보면, 분석에 필요한 데이터 중 일부는 학습 데이터와 검증 데이터로 나누는 과정이 있다. 학습데이터는 말 그대로 분석 모델 생성 후, 해당 모델의 학습에 사용하는 데이터이고, 검증 데이터는 생성한 학습 모델이 학습한 내용에 따라 얼마나 정확한 결과가 나오는지 테스트하는 데이터라고 보면 된다. 예를 들어, 소득, 성별과 비만의 상관관계 조사를 위해 데이터를 수집하고, 해당 상관관계에 대해 학습하는 모델을 생성한다고 해보자. 그럼, 수집한 데이터의 일부를 모델 학습에 사용하고(학습데이터), 나머지 일부는 모델에 적용하여 수집한 데이터와 유사한 결과가 나오는지 확인하는데 사용한다(검증 데이터). 그런데, 데이터를 학습/검증용으로 나누기가 생.. 2021. 12. 23.
[Python Data Analysis] 13. pandas 데이터 전처리 - One-Hot-Encoding 특성치가 연속적인 값을 가지는 경우, 이 특성치를 최대최소척도(MinMaxScaler)나 표준정규화(StandardScaler) 클래스를 바로 사용하더라도 큰 문제가 되지 않는다. 하지만, 연속성을 가진 특성치가 아닌 범주형, 그것도 숫자가 아닌 문자값을 가지는 특성치라면, 분석을 위해 이들 값을 정규화하는 것도 매우 어려워진다. 그런다고 이들 값들을 함부로 숫자로 변경할 수도 없는 것이, 숫자로 변환되는 순간 sklearn의 정규화모듈들은 이들 값을 연속적인 값으로 인식하여 정확한 분석이 불가능해지기 때문이다. 만약, 남성을 10, 여성을 20으로 변환한 값으로 정규화를 시도한다면, 이 변환된 값을 분류 척도가 아닌 이산형 변수로 인식한다는 말이다. 따라서, 분류 척도의 경우 다음과 같은 방식으로 분류.. 2021. 12. 23.
[Python Data Analysis] 12. pandas 데이터 전처리 - 정규화 이번 포스팅에서는 pandas의 DataFrame 데이터를 전처리하는 방법에 대해 알아보려 한다. 데이터의 전처리는 앞선 포스팅에서 설명했다시피 scikit-learn 이라는 패키지를 사용한다. 따라서 본 포스팅을 참고하기 전, pip 명령어(python 3버전은 pip3 명령어)를 통해 아래와 같이 scikit learn 패키지가 설치되어 있는지 확인하도록 하자. numpy와 scipy도 데이터 분석에서 많이 사용하는 패키지이므로 같이 설치해주도록 하자. pip 명령어로 패키지를 설치하는 방법은 여기를 참고하자. 설치가 완료되었다면 python 실행 후, import sklearn을 입력해보자. 아무 애러 없이 프롬프트가 떨어진다면 Scikit Learn이 제대로 설치된 상태다. 데이터는 이전 포스팅에.. 2021. 12. 22.
[Python Data Analysis] 10. DataFrame 이상치/결측치 데이터 전처리 이번 포스팅에서는 수집한 데이터에서 나타나는 이상치와 결측치를 다루는 방법에 대해 다루려 한다. 먼저 포스팅을 진행하기 전에 이상치와 결측치라는 용어의 의미를 알아볼 필요가 있다. 그 전에, 오늘 살펴볼 매서드에 대해 간략히 정리한다. # pandas.DataFrame.isnull() : 결측치 여부를 True/False 값으로 반환. 결측치인 경우 True # pandas.DataFrame.notnull() : 결측치 여부를 True/False값으로 반환. 실측치인 경우 True # pandas.DataFrame.dropna(axis) : 결측치가 포함된 데이터를 제외하고 추출 (axis = 0 인 경우 결측치가 포함된 Index 삭제, 1인 경우 Column 삭제) # pandas.DataFrame... 2021. 11. 22.
728x90
반응형