빅데이터분석기사 실기 기출문제를 풀던 중 train 데이터와 test 데이터의 범주형 변수의 범주가 서로 다른 경우가 있었다. 예를 들면 이런 식이다. train['지역'] = ['서울', '인천', '경기']test['지역'] = ['서울', '인천', '부산']위와 같은 경우에 get_dummies를 이용해 가변수화 하면 서로 다른 컬럼이 만들어지기 때문에 train 데이터로 학습해서 test 데이터를 예측하면 오류가 발생한다. 해결 방법train 데이터와 test 데이터를 합쳐서 전처리를 하고, 다시 나눠준다.# train, test 합치기X_all = pd.concat([train, test], keys=['train', 'test'])# 가변수화X_all = pd.get_dummies(X_a..