나홀로 데이터 분석가의 1인 연구실

[웹 크롤링] find_all 함수로 웹 페이지 내 Element 추출하기 본문

Python/Theory

[웹 크롤링] find_all 함수로 웹 페이지 내 Element 추출하기

나홀로 데이터 분석가 2022. 12. 26. 16:58

0-1. Chrome 개발자 모드 진입

우리가 옛날에 작성한 [연말 보고서]를 찾는다고 하였을 때, 그때 저장한 파일명이 무엇인지를 찾는 과정입니다.

이를 위해서는 아래 <그림1>과 같이 개발자 도구로 진입해주시면 됩니다(Chrome 기준).

<그림1> Chrome 개발자 도구 진입 방법

0-2. 커서 클릭으로 Element 찾기

그 후 <그림2>와 같이 Element를 찾아주는 커서를 클릭한 후 글 제목을 클릭해줍니다.

<그림2> Element 찾는 방법

이렇게 Element를 찾아주셨다면 <그림2>의 3번과 같은 코드를 확인할 수 있습니다.

<그림5> 찾은 Element

  • 빨간색: 이름
  • 녹색: 속성
  • 파란색: 글 제목

0-3. find_all 매소드를 통해 Element 추출하기

source 안에 HTML이 있다는 가정하에 find_all 함수는 다음과 같이 작성해주시면 됩니다.

이때 class는 Python의 내장되어있는 기본 변수이기에 사용이 불가능합니다.
따라서 아래와 같이 언더바(_)를 class 뒤에 붙여 주셔야합니다.

titles = source.find_all('strong', class_ = 'title ell')
print(titles[0].text)

 

Comments