728x90

데이터 인코딩

         1) Label Encoding : 문자를 정수로 변환

 

         2) One-Hot Encoding : 특정 위치를 강조             

              ① OnHotEncoder() > 기본적인 원핫인코딩

              get_dummies()  > Pandas에서 원핫인코딩


레이블 인코딩이란?

문자로 된 레이블을 숫자(정수)로 변환하는 작업

 

레이블 인코딩

 

1) 모듈 임포트 from sklearn.preprocessing import LabelEncoder


2)  데이터 카테고리화 

 


3) 레이블 인코딩 


4) 디코딩 : 레이블 인코딩으로 변환된 데이터를 다시 문자형으로 변환


원 핫 인코딩이란?

원-핫 인코딩은 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어에만 1의 값을 부여해(다른 값은 0) 강조하고 싶은 단어를 눈에 띄게 만드는 방식

 

원 핫 인코딩

 

1) 모듈 임포트 from sklearn.preprocessing import OneHotEncoder 


2) 레이블 인코딩(Label Encoding) : 문자를 정수 형태로 변환


3)  데이터를 2차원 행렬로 변환

 


4) 원-핫 인코딩(One-Hot Encoding)


※ pandas에서도 원-핫 인코딩을 사용할 수 있다. 

  ▷▶ 데이터 프레임으로 보는 것이 확인하기 편하다.

728x90

+ Recent posts