나홀로 데이터 분석가의 1인 연구실
[웹 크롤링] find_all 함수로 웹 페이지 내 Element 추출하기 본문
0-1. Chrome 개발자 모드 진입
우리가 옛날에 작성한 [연말 보고서]를 찾는다고 하였을 때, 그때 저장한 파일명이 무엇인지를 찾는 과정입니다.
이를 위해서는 아래 <그림1>과 같이 개발자 도구로 진입해주시면 됩니다(Chrome 기준).
0-2. 커서 클릭으로 Element 찾기
그 후 <그림2>와 같이 Element를 찾아주는 커서를 클릭한 후 글 제목을 클릭해줍니다.
이렇게 Element를 찾아주셨다면 <그림2>의 3번과 같은 코드를 확인할 수 있습니다.
- 빨간색: 이름
- 녹색: 속성
- 파란색: 글 제목
0-3. find_all 매소드를 통해 Element 추출하기
source 안에 HTML이 있다는 가정하에 find_all 함수는 다음과 같이 작성해주시면 됩니다.
이때 class는 Python의 내장되어있는 기본 변수이기에 사용이 불가능합니다.
따라서 아래와 같이 언더바(_)를 class 뒤에 붙여 주셔야합니다.
titles = source.find_all('strong', class_ = 'title ell')
print(titles[0].text)
'Python > Theory' 카테고리의 다른 글
[시각화] plt.scatter()를 활용한 산점도 그리기 (0) | 2023.01.02 |
---|---|
[Python] 데이터 전처리를 위한 apply(lambda)문 사용하기 (0) | 2022.12.28 |
[Python] tqdm을 통해 for, apply문 진행율 확인하기 (0) | 2022.12.27 |
[Python] 라이브러리 설치 시 [WinError 5] 에러 대처하기 (0) | 2022.12.27 |
[웹 크롤링] HTML이란? (0) | 2022.12.26 |
Comments