[웹 크롤링] find_all 함수로 웹 페이지 내 Element 추출하기

Notice

Recent Posts

Tags more

Archives

관리 메뉴

나홀로 데이터 분석가의 1인 연구실

Python/Theory

나홀로 데이터 분석가 2022. 12. 26. 16:58

우리가 옛날에 작성한 [연말 보고서]를 찾는다고 하였을 때, 그때 저장한 파일명이 무엇인지를 찾는 과정입니다.

이를 위해서는 아래 <그림1>과 같이 개발자 도구로 진입해주시면 됩니다(Chrome 기준).

그 후 <그림2>와 같이 Element를 찾아주는 커서를 클릭한 후 글 제목을 클릭해줍니다.

이렇게 Element를 찾아주셨다면 <그림2>의 3번과 같은 코드를 확인할 수 있습니다.

source 안에 HTML이 있다는 가정하에 find_all 함수는 다음과 같이 작성해주시면 됩니다.

이때 class는 Python의 내장되어있는 기본 변수이기에 사용이 불가능합니다.
따라서 아래와 같이 언더바(_)를 class 뒤에 붙여 주셔야합니다.

titles = source.find_all('strong', class_ = 'title ell')
print(titles[0].text)

[시각화] plt.scatter()를 활용한 산점도 그리기 (0)	2023.01.02
[Python] 데이터 전처리를 위한 apply(lambda)문 사용하기 (0)	2022.12.28
[Python] tqdm을 통해 for, apply문 진행율 확인하기 (0)	2022.12.27
[Python] 라이브러리 설치 시 [WinError 5] 에러 대처하기 (0)	2022.12.27
[웹 크롤링] HTML이란? (0)	2022.12.26

'Python/Theory' Related Articles

Comments