[웹 크롤링] HTML이란?

Notice

안녕하세요, 나홀로 데이터 분석가입니다.

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

나홀로 데이터 분석가의 1인 연구실

[웹 크롤링] HTML이란? 본문

Python/Theory

[웹 크롤링] HTML이란?

나홀로 데이터 분석가 2022. 12. 26. 14:19

0-1. HTML이란?

웹 크롤링을 하기 앞서 기본적인 개념을 이해할 필요가 있습니다.

<그림 1>에서 웹 페이지는 우리가 평소 웹 브라우저에 접속하면 보이는 화면입니다.
이러한 페이지를 구성하는 것은 <그림 1>의 우측인 HTML 구조로 되어있습니다.

웹 크롤링은 이 HTML 구조에서 정보를 뽑아오는 것입니다.

0-2. HTML의 계층구조

HTML 구조는 기본적으로 계층구조로 되어 있습니다.

계층구조는 간단히 생각하면 컴퓨터의 폴더 구조와 비슷하다고 보시면 됩니다.
ex. [바탕화면] > [대학원] 폴더 > [1학기] 폴더 > [3월] 폴더 > [레포트.txt]

웹 크롤링은 이러한 폴더 안에 있는 파일을 검색을 통해 찾아오는 것입니다.

HTML의 계층구조에 대해 감을 잡으셨다면, 이제 가상으로 크롤링을 해볼 것입니다.

만약 제가 5월에 쓴 성적이라는 파일을 가져오기 위해서는 어떻게 해야 할까요?

아래와 같이 다양한 방법이 있을 것입니다.

경로를 그대로 검색하여 찾아오는 방법: [대학원] > [1학기] > [5월] > [성적.txt]
[1학기] 안에 있는 파일을 모두 불러온 후, [성적.txt] 라는 파일만 추출하는 방법: [1학기] > [성적.txt]
[대학원] 안에 [성적.txt]를 모두 불러온 후, 5월에 해당하는 파일을 걸러내는 방법: [대학원] > [성적.txt]

제 경험상 크롤링을 비롯하여 코딩을 할 때, 딱 1가지 방법만 있는 경우는 드물다고 생각합니다.
다만, 더 효율적인 방법을 찾을 수 있느냐가 코딩을 잘한다는 기준인 것 같습니다.

저작자표시 비영리 변경금지

'Python > Theory' 카테고리의 다른 글

[시각화] plt.scatter()를 활용한 산점도 그리기 (0)	2023.01.02
[Python] 데이터 전처리를 위한 apply(lambda)문 사용하기 (0)	2022.12.28
[Python] tqdm을 통해 for, apply문 진행율 확인하기 (0)	2022.12.27
[Python] 라이브러리 설치 시 [WinError 5] 에러 대처하기 (0)	2022.12.27
[웹 크롤링] find_all 함수로 웹 페이지 내 Element 추출하기 (0)	2022.12.26

'Python/Theory' Related Articles

Comments

나홀로 데이터 분석가의 1인 연구실

[웹 크롤링] HTML이란? 본문

[웹 크롤링] HTML이란?

0-1. HTML이란?

0-2. HTML의 계층구조

'Python > Theory' 카테고리의 다른 글

티스토리툴바