빅데이터분석기사 실기 기출문제를 풀던 중 train 데이터와 test 데이터의 범주형 변수의 범주가 서로 다른 경우가 있었다. 예를 들면 이런 식이다. train['지역'] = ['서울', '인천', '경기']test['지역'] = ['서울', '인천', '부산']위와 같은 경우에 get_dummies를 이용해 가변수화 하면 서로 다른 컬럼이 만들어지기 때문에 train 데이터로 학습해서 test 데이터를 예측하면 오류가 발생한다. 해결 방법train 데이터와 test 데이터를 합쳐서 전처리를 하고, 다시 나눠준다.# train, test 합치기X_all = pd.concat([train, test], keys=['train', 'test'])# 가변수화X_all = pd.get_dummies(X_a..
빅데이터분석기사 실기 1, 2, 3 유형을 모두 정리한 주피터파일을 깃허브에 올려두었다. 깃허브에서 다운로드 받아 코랩에서 실행 해 보며 연습하는 것을 추천한다. 참고로 2유형은 csv 파일도 다운받아 설정한 경로에 넣어주어야 한다. https://github.com/suetudy/BigDataAnalysisEngineer_Certification GitHub - suetudy/BigDataAnalysisEngineer_CertificationContribute to suetudy/BigDataAnalysisEngineer_Certification development by creating an account on GitHub.github.com
1. 가설검정: 모집단에 대해 어떤 가설을 설정하고 그 모집단으로 부터 추출된 표본을 분석함으로써 그 가설이 틀리는지 맞는지 타당성 여부를 결정(검정)하는 통계적 기법검정통계량(Test Statistic): 연구자에 의해 설정된 가설은 표본을 건거로 하여 채택여부를 결정짓게 되는데 이때 사용되는 표본통계량가설 검정(Hypothesis Testing): 검정통계량의 표본분포에 따라 채택 여부를 결정짓는 일련의 통계적 분석과정 1) 가설 검정의 절차 ① 가설의 설정집단의 특성을 파악하기 위해서 표본을 이용한 의사결정은 오류의 가능성이 상존한다. 따라서 가설 검정은 오류의 가능성을 사전에 관리하는 것이 중요하다. 오류의 허용확률을 정해놓고 그 기준에 따라 가설의 채택이나 기각을 결정한다. 귀무가설(Null H..