빅데이터분석기사 실기 1, 2, 3 유형을 모두 정리한 주피터파일을 깃허브에 올려두었다. 깃허브에서 다운로드 받아 코랩에서 실행 해 보며 연습하는 것을 추천한다. 참고로 2유형은 csv 파일도 다운받아 설정한 경로에 넣어주어야 한다. https://github.com/suetudy/BigDataAnalysisEngineer_Certification GitHub - suetudy/BigDataAnalysisEngineer_CertificationContribute to suetudy/BigDataAnalysisEngineer_Certification development by creating an account on GitHub.github.com
전체 글
슈의 슈터디 기록[빅데이터분석기사 실기] 제3유형: 통계적 가설검정제3유형 예상 문제¶모평균 검정: 검정통계량, p-value값, 귀무가설 판단(채택/기각)모집단 1개: 단일 표본모집단 2개: 대응 표본(쌍체), 독립 표본모집단 3개: ANOVA(분산분석) - F검정(일원분산분석)카이제곱검정: 기댓값, 검정통계량, p-value값, 귀무가설 판단(채택/기각)적합성 검정독립성 검정상관분석: 상관계수, 검정통계량, p-value값, 귀무가설 판단(채택/기각)피어슨 상관계수회귀분석: Rsq, odds, ratio, 회귀계수, p-value값다중선형회귀로지스틱회귀가설 검정 순서¶① 가설설정(귀무가설/대립가설)② 유의수준(α) 설정: 일반적으로 5%, 0.05③ 귀무가설 하에 검정통계량 계산④ 검정통계량으로 p-value 계산⑤..
모니터링모니터링은 데이터를 수집, 분석 및 사용하는 행위로, IT 리소스 및 시스템에 대한 여러가지 질문의 답 산출 및 의사 결정을 목적으로 한다. 여기서 질문은 매일 몇 명이 사이트를 방문하고 있는가?, 웹사이트 성능 또는 가용성 문제가 있는가?, 웹사이트가 정상 동작하고 있는가? 등이 있다. 모니터링을 통해 리소스 과다 사용, 애플리케이션 결함, 리소스 구성 오류 또는 보안 관련 이벤트로 인한 운영 문제를 감시할 수 있다. 메트릭(Metric)메트릭은 리소스가 생성하는 다양한 형태의 데이터 중 모니터링을 통해 수집된 데이터를 말한다. 메트릭의 예로는 시간 경과에 따라 EC2 인스턴스에서 수집 및 분석되는 메트릭이 있다. 이 메트릭은 평균 CPU 사용률, 네트워크 사용률, 디스크 성능, 메모리 사용률..
가용성(Availability)가용성은 서비스 가용성이라고도 표현하는데, 워크로드를 사용할 수 있는 시간의 비율(정도)를 말한다. 고가용성(High Availability)고가용성, 즉 높은 가용성은 지속적으로 구현한 시스템이 정상적으로 운영이 되는 성질을 의미한다. 즉, 고가용성은 장애 또는 고장이 나더라도 복구를 해서 서비스를 지속할 수 있는 능력을 말한다. Region Region은 전 세계에서 데이터센터를 클러스터링하는 물리적 위치를 말한다. 일반적으로 어떤 지역으로 서비스하느냐에 따라 지리적으로 가까운 Region을 선택하게 된다. Region Code예를 들면 'us-east-1, ap-northeast-2'와 같은 형식으 Region을 구분하는 Code가 존재한다. AWS는 Regi..
AWS(Amazon Web Service)AWS(Amazon Web Service)는 아마존닷컴의 클라우드 컴퓨팅 서비스이다. 1. EC2(Elastic Compute Cloud)EC2(Elastic Compute Cloud)는 AWS의 가상 서버 서비스로, 사용자가 원하는 크기와 성능의 가상 머신(VM, Virtual Machine)을 생성하고 관리할 수 있다. EC2의 주요 특징:확장성: 필요에 따라 서버의 크기(인스턴스 타입)을 조절할 수 있음유연성: 다양한 운영체제를 선택할 수 있으며, 맞춤형 AMI(Amazon Machine Image)를 사용할 수 있음결제 방식: 온디맨드, 예약 인스턴스, 스팟 인스턴스 등 다양한 결제 옵션을 제공고가용성: 여러 리전과 가용 영역(Availablity Zo..
기존 IT 환경의 문제점가상화 및 클라우드 기술이 등장하기 전에, 전통적인 IT 환경에서는 다음과 같은 여러 가지 문제점들이 존재했다. 1. 자원의 비효율적 사용(낮은 서버 활용률, 자원 낭비)2. 높은 운영 비용(하드웨어, 관리 비용)3. 유연성 부족(확장성의 어려움, 복구 시간 소요)4. 재해 복구 및 백업의 어려움 위와 같은 문제점들은 모든 IT 자산의 가상화를 통해 통해 해결할 수 있게 되었다. 상화 플랫폼을 이용하여 동적이고 유연한 업무 인프라를 구축할 수 있게 되었다. 또한 서비스를 위한 물리적인 서버의 대수를 감소할 수 있으며, 전체적인 상면/전력/관리 비용을 절감할 수 있다. 뿐만 아니라 그린 IT 구현을 위한 탄소배출 절감 효과까지 얻을 수 있다. 가상화그렇다면 가상화란 무엇일까? 가상..
1. 가설검정: 모집단에 대해 어떤 가설을 설정하고 그 모집단으로 부터 추출된 표본을 분석함으로써 그 가설이 틀리는지 맞는지 타당성 여부를 결정(검정)하는 통계적 기법검정통계량(Test Statistic): 연구자에 의해 설정된 가설은 표본을 건거로 하여 채택여부를 결정짓게 되는데 이때 사용되는 표본통계량가설 검정(Hypothesis Testing): 검정통계량의 표본분포에 따라 채택 여부를 결정짓는 일련의 통계적 분석과정 1) 가설 검정의 절차 ① 가설의 설정집단의 특성을 파악하기 위해서 표본을 이용한 의사결정은 오류의 가능성이 상존한다. 따라서 가설 검정은 오류의 가능성을 사전에 관리하는 것이 중요하다. 오류의 허용확률을 정해놓고 그 기준에 따라 가설의 채택이나 기각을 결정한다. 귀무가설(Null H..
플로이드 워셜 알고리즘(Floyd-Warshall Algorithm)다익스트라 알고리즘은 '한 지점에서 다른 특정 지점까지의 최단 경로를 구해야 하는 경우'에 사용할 수 있는 최단 경로 알고리즘이다. 플로이드 워셜 알고리즘(Floyd-Warshall Algorithm)은 '모든 지점에서 다른 모든 지점까지의 최단 경로를 모두 구해야 하는 경우'에 사용할 수 있는 알고리즘이다. 다익스트라 알고리즘은 단계마다 최단 거리를 가지는 노드를 하나씩 반복적으로 선택한다. 그리고 해당 노드를 거쳐 가는 경로를 확인하며, 최단 거리 테이블을 갱신하는 방식으로 동작한다. 플로이드 워셜 알고리즘 또한 단계마다 '거쳐 가는 노드'를 기준으로 알고리즘을 수행한다. 하지만 매번 방문하지 않은 노드 중에서 최단 거리를 갖는 노..