목록분류 전체보기 (19)
나홀로 데이터 분석가의 1인 연구실

0-1. 학습 목표 Requests 라이브러리를 활용하여 경희대학교 블로그 웹 크롤링 해보기 Webdriver를 사용한 웹 크롤링 2022.12.27 - [Python/Practice] - [웹 크롤링] Webdriver를 통한 데이터 수집하기 [웹 크롤링] Webdriver를 통한 데이터 수집하기 0-1. 학습 목표 Webdriver 라이브러리를 활용하여 경희대학교 블로그 웹 크롤링 해보기 requests를 사용한 웹 크롤링 2022.12.26 - [Python/Practice] - [웹 크롤링] Requests를 통한 데이터 수집하기 [웹 크롤링] Re scent-of-light.tistory.com 0-2. 활용 라이브러리 Requests Pandas BS4 tqdm(선택) 1-1. 웹 크롤링 방식..

0-1. Chrome 개발자 모드 진입 우리가 옛날에 작성한 [연말 보고서]를 찾는다고 하였을 때, 그때 저장한 파일명이 무엇인지를 찾는 과정입니다. 이를 위해서는 아래 과 같이 개발자 도구로 진입해주시면 됩니다(Chrome 기준). 0-2. 커서 클릭으로 Element 찾기 그 후 와 같이 Element를 찾아주는 커서를 클릭한 후 글 제목을 클릭해줍니다. 이렇게 Element를 찾아주셨다면 의 3번과 같은 코드를 확인할 수 있습니다. 빨간색: 이름 녹색: 속성 파란색: 글 제목 0-3. find_all 매소드를 통해 Element 추출하기 source 안에 HTML이 있다는 가정하에 find_all 함수는 다음과 같이 작성해주시면 됩니다. 이때 class는 Python의 내장되어있는 기본 변수이기에 ..

0-1. HTML이란? 웹 크롤링을 하기 앞서 기본적인 개념을 이해할 필요가 있습니다. 에서 웹 페이지는 우리가 평소 웹 브라우저에 접속하면 보이는 화면입니다. 이러한 페이지를 구성하는 것은 의 우측인 HTML 구조로 되어있습니다. 웹 크롤링은 이 HTML 구조에서 정보를 뽑아오는 것입니다. 0-2. HTML의 계층구조 HTML 구조는 기본적으로 계층구조로 되어 있습니다. 계층구조는 간단히 생각하면 컴퓨터의 폴더 구조와 비슷하다고 보시면 됩니다. ex. [바탕화면] > [대학원] 폴더 > [1학기] 폴더 > [3월] 폴더 > [레포트.txt] 웹 크롤링은 이러한 폴더 안에 있는 파일을 검색을 통해 찾아오는 것입니다. HTML의 계층구조에 대해 감을 잡으셨다면, 이제 가상으로 크롤링을 해볼 것입니다. 만약..