빅데이터분석기사

빅데이터분석기사 실기 기출문제를 풀던 중 train 데이터와 test 데이터의 범주형 변수의 범주가 서로 다른 경우가 있었다.  예를 들면 이런 식이다. train['지역'] = ['서울', '인천', '경기']test['지역'] = ['서울', '인천', '부산']위와 같은 경우에 get_dummies를 이용해 가변수화 하면 서로 다른 컬럼이 만들어지기 때문에 train 데이터로 학습해서 test 데이터를 예측하면 오류가 발생한다.  해결 방법train 데이터와 test 데이터를 합쳐서 전처리를 하고, 다시 나눠준다.# train, test 합치기X_all = pd.concat([train, test], keys=['train', 'test'])# 가변수화X_all = pd.get_dummies(X_a..
빅데이터분석기사 실기 1, 2, 3 유형을 모두 정리한 주피터파일을 깃허브에 올려두었다. 깃허브에서 다운로드 받아 코랩에서 실행 해 보며 연습하는 것을 추천한다.  참고로 2유형은 csv 파일도 다운받아 설정한 경로에 넣어주어야 한다.   https://github.com/suetudy/BigDataAnalysisEngineer_Certification GitHub - suetudy/BigDataAnalysisEngineer_CertificationContribute to suetudy/BigDataAnalysisEngineer_Certification development by creating an account on GitHub.github.com
[빅데이터분석기사 실기] 제3유형: 통계적 가설검정제3유형 예상 문제¶모평균 검정: 검정통계량, p-value값, 귀무가설 판단(채택/기각)모집단 1개: 단일 표본모집단 2개: 대응 표본(쌍체), 독립 표본모집단 3개: ANOVA(분산분석) - F검정(일원분산분석)카이제곱검정: 기댓값, 검정통계량, p-value값, 귀무가설 판단(채택/기각)적합성 검정독립성 검정상관분석: 상관계수, 검정통계량, p-value값, 귀무가설 판단(채택/기각)피어슨 상관계수회귀분석: Rsq, odds, ratio, 회귀계수, p-value값다중선형회귀로지스틱회귀가설 검정 순서¶① 가설설정(귀무가설/대립가설)② 유의수준(α) 설정: 일반적으로 5%, 0.05③ 귀무가설 하에 검정통계량 계산④ 검정통계량으로 p-value 계산⑤..
1. 가설검정: 모집단에 대해 어떤 가설을 설정하고 그 모집단으로 부터 추출된 표본을 분석함으로써 그 가설이 틀리는지 맞는지 타당성 여부를 결정(검정)하는 통계적 기법검정통계량(Test Statistic): 연구자에 의해 설정된 가설은 표본을 건거로 하여 채택여부를 결정짓게 되는데 이때 사용되는 표본통계량가설 검정(Hypothesis Testing): 검정통계량의 표본분포에 따라 채택 여부를 결정짓는 일련의 통계적 분석과정 1) 가설 검정의 절차 ① 가설의 설정집단의 특성을 파악하기 위해서 표본을 이용한 의사결정은 오류의 가능성이 상존한다. 따라서 가설 검정은 오류의 가능성을 사전에 관리하는 것이 중요하다. 오류의 허용확률을 정해놓고 그 기준에 따라 가설의 채택이나 기각을 결정한다. 귀무가설(Null H..
[빅데이터분석기사 실기] 제2유형: 데이터 분석빅데이터 분석 과정¶필요 패키지 임포트(import)데이터 불러오기데이터 살펴보기데이터 전처리분석 데이터셋 준비데이터 분석 수행성능평가 및 시각화(8. 예측 및 예측 결과 저장)지도학습, 비지도학습의 대표적인 분석기법지도학습 - 분류: 의사결정나무(분류), KNN, 서포트벡터머신(SVM), 로지스틱회귀분석, 랜덤포래스트, 인공신경망지도학습 - 회귀: 선형회귀분석, 다중회귀분석, 의사결정나무(회귀)비지도학습: 군집분석(Clustering), 연관분석(Association Analysis), 인공신경망(Neural Networks)분류 (Classification)¶예제) Iris 데이터셋을 이용하여 붓꽃의 종류(species) 구별하기1. 필요 패키지 임포트¶..
[빅데이터분석기사 실기] 제1유형: 데이터 전처리1. 데이터 탐색¶1) 데이터 불러오기In [1]: import numpy as np # 넘파이 패키지 임포트import pandas as pd # 판다스 패키지 임포트import matplotlib.pyplot as plt # matplotlib 패키지 임포트# 깃허브에 있는 csv 파일 읽어와서 데이터프레임 df로 넣기 - 타이타닉 데이터셋df = pd.read_csv("https://raw.githubusercontent.com/suetudy/BigDataAnalysisEngineer_Certification/main/Titanic.csv") In [2]: # 데이터프레임 전체 출력df Out[2..
슈01
'빅데이터분석기사' 태그의 글 목록