목록Python (11)
나홀로 데이터 분석가의 1인 연구실
0. 학습 환경 matplotlib: 3.3.4 seaborn: 0.11.1 금일 학습에는 seaborn 라이브러리에서 제공하는 iris 데이터를 사용하고자 합니다. seaborn에서 제공하는 다른 데이터셋은 '.get_dataset_names()'를 통해 확인이 가능합니다. import seaborn as sns sns.load_dataset('iris') #다른 데이터셋을 확인하고자 할 때 sns.get_dataset_names() 1-1. 기본 산점도 우선 산점도는 불연속값(x,y)을 표시하는 데 주로 사용합니다. 기본적인 활용은 아래와 같이 x와 y값을 넣어주는 것으로 시각화가 가능합니다. #도화지 사이즈 설정 plt.figure(figsize=(12,12)) #도화지 위에 산점도를 그리기 plt..
개인적으로 데이터 전처리를 할 때 핵심이라고 생각하는 apply(lambda)에 대해 알아보겠습니다. 우선 데이터프레임(판다스)에서의 apply()와 lambda에 대해서 알아보겠습니다. 이하 내용에서 줄임말은 아래와 같이 사용할 예정입니다. df: 데이터프레임 func: 함수 0-1. Apply() 함수 Apply(func): 'func라는 함수를 모든 값에 적용하라'라는 의미입니다. 만약, 데이터프레임['열'].apply(func)를 사용하면, 해당 열에 모든 값에 func를 적용하게 됩니다. 💡여기서 함수(func)는 제가 정의해도 되고, 있는 함수를 쓰셔도 무방합니다. 의 데이터 셋에서 passengers가 1이면 '나홀로', 2이상이면 '여럿'을 출력하려면 아래와 같이 가능합니다. # 적용할 함..
반복 정도가 많은 for문이나 데이터가 클 때 apply문의 진행도를 확인하고 싶을 때가 있습니다. 이때 사용가능한 라이브러인 tqdm을 소개하고자 합니다. ! pip install tqdm 0-1. For문 진행율 확인하기 💡 사용방법: for문의 반복해야하는 부분에 tqdm()을 적용해주시면 됩니다. import time from tqdm import tqdm for m in tqdm(range(1000)): time.sleep(1) 0-2. Apply문 진행율 확인하기 💡 사용방법: tqdm.pandas()를 선언한 후에 progress_apply()를 사용해주시면 됩니다. from tqdm import tqdm import pandas as pd tqdm.pandas() df.title.progr..