728x90 반응형 One hot encoding1 [Python Data Analysis] 13. pandas 데이터 전처리 - One-Hot-Encoding 특성치가 연속적인 값을 가지는 경우, 이 특성치를 최대최소척도(MinMaxScaler)나 표준정규화(StandardScaler) 클래스를 바로 사용하더라도 큰 문제가 되지 않는다. 하지만, 연속성을 가진 특성치가 아닌 범주형, 그것도 숫자가 아닌 문자값을 가지는 특성치라면, 분석을 위해 이들 값을 정규화하는 것도 매우 어려워진다. 그런다고 이들 값들을 함부로 숫자로 변경할 수도 없는 것이, 숫자로 변환되는 순간 sklearn의 정규화모듈들은 이들 값을 연속적인 값으로 인식하여 정확한 분석이 불가능해지기 때문이다. 만약, 남성을 10, 여성을 20으로 변환한 값으로 정규화를 시도한다면, 이 변환된 값을 분류 척도가 아닌 이산형 변수로 인식한다는 말이다. 따라서, 분류 척도의 경우 다음과 같은 방식으로 분류.. 2021. 12. 23. 이전 1 다음 728x90 반응형