목록Python/Theory (7)
나홀로 데이터 분석가의 1인 연구실
0-1. 도입 개인적으로 시각화를 할 때 가장 많이 사용해온 matplotlib의 공통 파라미터들을 정리하고자 합니다. matplotplib은 기본적으로 도화지 위에 그림을 쌓는 개념이라고 생각하시면 됩니다. import matplotlib.pyplot as plt %matplotlib inline %matplotlib inline: 시각화 자료를 현재 코드 안에서 바로 출력하게 해주는 명령어 matplotlib에서 가장 많이 사용하는 요인은 과 같습니다. 0-2. 학습 환경 matplotlib: 3.3.4 seaborn: 0.11.1 금일 학습에는 seaborn 라이브러리에서 제공하는 penguins 데이터를 사용하고자 합니다. seaborn에서 제공하는 다른 데이터셋은 '.get_dataset_nam..
0. 학습 환경 matplotlib: 3.3.4 seaborn: 0.11.1 금일 학습에는 seaborn 라이브러리에서 제공하는 iris 데이터를 사용하고자 합니다. seaborn에서 제공하는 다른 데이터셋은 '.get_dataset_names()'를 통해 확인이 가능합니다. import seaborn as sns sns.load_dataset('iris') #다른 데이터셋을 확인하고자 할 때 sns.get_dataset_names() 1-1. 기본 산점도 우선 산점도는 불연속값(x,y)을 표시하는 데 주로 사용합니다. 기본적인 활용은 아래와 같이 x와 y값을 넣어주는 것으로 시각화가 가능합니다. #도화지 사이즈 설정 plt.figure(figsize=(12,12)) #도화지 위에 산점도를 그리기 plt..
개인적으로 데이터 전처리를 할 때 핵심이라고 생각하는 apply(lambda)에 대해 알아보겠습니다. 우선 데이터프레임(판다스)에서의 apply()와 lambda에 대해서 알아보겠습니다. 이하 내용에서 줄임말은 아래와 같이 사용할 예정입니다. df: 데이터프레임 func: 함수 0-1. Apply() 함수 Apply(func): 'func라는 함수를 모든 값에 적용하라'라는 의미입니다. 만약, 데이터프레임['열'].apply(func)를 사용하면, 해당 열에 모든 값에 func를 적용하게 됩니다. 💡여기서 함수(func)는 제가 정의해도 되고, 있는 함수를 쓰셔도 무방합니다. 의 데이터 셋에서 passengers가 1이면 '나홀로', 2이상이면 '여럿'을 출력하려면 아래와 같이 가능합니다. # 적용할 함..