분류 전체보기

빅데이터분석기사 실기 기출문제를 풀던 중 train 데이터와 test 데이터의 범주형 변수의 범주가 서로 다른 경우가 있었다.  예를 들면 이런 식이다. train['지역'] = ['서울', '인천', '경기']test['지역'] = ['서울', '인천', '부산']위와 같은 경우에 get_dummies를 이용해 가변수화 하면 서로 다른 컬럼이 만들어지기 때문에 train 데이터로 학습해서 test 데이터를 예측하면 오류가 발생한다.  해결 방법train 데이터와 test 데이터를 합쳐서 전처리를 하고, 다시 나눠준다.# train, test 합치기X_all = pd.concat([train, test], keys=['train', 'test'])# 가변수화X_all = pd.get_dummies(X_a..
1. 데이터 불러오기¶1) 라이브러리 임포트 및 설치¶In [1]: # scikit-learnimport sklearn In [2]: # pandasimport pandas as pd In [3]: # numpyimport numpy as np In [5]: # seaborn!pip install seabornimport seaborn as sns In [6]: # matplotlibimport matplotlib.pyplot as plt 2) 데이터 로드 및 저장¶In [ ]: # csvdf = pd.read_csv('data.csv') In [ ]: # jsondf = pd.read_json('data.csv..
AICE 자격증AICE(AI Certificate for Everyone)는 인공지능 능력시험이다. AICE는 인공지능 활용능력을 평가하는 AI 자격증으로, KT가 개발하고, 한국경제와 함께 주관하는 시험이다.  https://aice.study/main AICEKT가 개발하여 한국경제신문과 함께 주관하는 인공지능 능력시험입니다.aice.study AICE 시험 종류(트랙) 시험 유형은 AI 역량에 따라 다음과 같이 5개의 단계로 나눠진다. AICE ASSOCIATEASSOCIATE는 준/전공자, 기획/분석가를 대상으로 하여, 실무에서 가장 많이 쓰는 Tabular 데이터에 대해 코딩(파이썬) 기반으로 데이터 분석 / 처리 / 모델링에 대한 역량을 평가한다. ASSOCIATE 출제범위 1. 탐색적 데이터..
신장 트리(Spanning Tree)신장 트리(Spanning Tree)는 하나의 그래프가 있을 때 모든 노드를 포함하면서 사이클이 존재하지 않는 부분 그래프를 의미한다. 이때 모든 노드가 포함되어 서로 연결되면서 사이클이 존재하지 않는다는 조건은 트리의 성립 조건이기도 하다. 그래서 이러한 그래프를 신장 트리라고 부른다. 크루스칼 알고리즘우리는 다양한 문제 상황에서 가능한 최소한의 비용으로 신장 트리를 찾아야 할 때가 있다. 예를 들어 N개의 도시가 존재하는 상황에서 두 도시 사이에 도로를 놓아 도시가 서로 연결될 수 있게 도로를 설치하는 경우를 생각해보자. 2개의 도시 A, B를 선택했을 떄, 도시 A에서 도시 B로 이동하는 경로가 반드시 존재하도록 도로를 설치하고자 한다. 모든 도시를 연결할 때, ..
그래프(Graph) 그래프(Graph)란? 노드(Node)와 노드 사이에 연결된 간선의 정보를 가지고 있는 자료구조를 의미한다. 알고리즘 문제를 접했을 때 '서로 다른 개체(혹은 객체)가 연결되어 있다.'는 말이 나오면 가장 먼저 그래프 알고리즘을 떠올려야 한다. 예를 들어 '여러 개의 도시가 연결되어 있다.'와 같은 내용이 등장하면 그래프 알고리즘을 의심해 봐야 한다. 트리(Tree) 자료구조트리 자료구조는 부모에서 자식으로 내려오는 계층적인 모델에 속한다. 컴퓨터공학 분야에서 트리 자료구조는 방향 그래프로 간주된다.  그래프트리방향성방향 그래프 혹은 무방향 그래프방향 그래프순환성순환 및 비순환비순환루트 노드 존재 여부루트 노드가 없음루트 노드가 존재노드간 관계성부모와 자식 관계 없음부모와 자식 관계모..
· 파이썬
1. 셀의 모든 내용 출력하기import pandas as pdpd.set_option('display.max_colwidth', None) 2. 모든 row 출력pd.set_option('display.max_rows', None) # 항상 모든 row 출력pd.set_option('display.max_rows', 10) # 항상 10개만 출력 3. 모든 column 출력pd.set_option('display.max_columns', None) # 항상 모든 column 출력pd.set_option('display.max_columns', 10) # 항상 10개만 출력
· IT 인프라
컨테이너(Container)컨테이너(Container)는 애플리케이션과 그 종속성을 독립적으로 실행할 수 있는 가벼운 가상화 환경을 제공한다. 이 가상화는 OS 수준에서 이루어지며, 이를 통해 컨테이너는 빠르고 효율적으로 작동할 수 있다. 또한 컨테이너는 개발 및 배포의 일관성을 제공하여 다양한 환경에서 애플리케이션을 쉽게 실행할 수 있게 한다.  가상머신과 컨테이너 비교 Monolithic vs Micro ServiceMonolithic Architecture는 고용량 고성능의 단일 서버로 구성된 것을 말한다. 이는 모든 기능이 단일 애플리케이션 내에서 동작하며, 일반적으로 하나의 배포 단위로 운영된다. 초기 개발이 단순하고 개발 및 테스트가 용이하다는 장점이 있으나, 유지보수가 어렵고, 확장성 문제,..
· IT 인프라
EC2 모니터링 주요 메트릭CPUUtilization : 현재 인스턴스에서 사용하고 있는 컴퓨팅 파워CPUCreditUsage : 특정 기간동안 사용된 CPU 크레딧 갯수  DiskReadOps : 해당 인스턴스에 연결된 모든 로컬 디스크에서 읽어 들인 오퍼레이션 의 수Network Out Traffic : 인스턴스의 네트워크 인터페이스를 통해 나간 바이트 량 Status CheckSystem status check: 재배포 등을 통한 개입 정도만 가능 ○ 네트워크 연결 ○ 시스템 파워 ○ 물리서버 이슈 등Instance status check: 설정 변경을 통한 개입 가능 ○ 잘못된 네트워킹 또는 시작 구성 ○ 메모리 부족 ○ 파일 시스템 손상 ○ 호환되지 않는 커널 등 EBS 모니터링 주요 메트릭 V..
슈01
'분류 전체보기' 카테고리의 글 목록