728x90
반응형

파이썬 웹 크롤러가 종류가 많다고 한다. 나는 그 중에 Scrapy를 선택했다.

자세한 내용은 아래 사이트에 들어가보면 볼 수 있다.

 

https://docs.scrapy.org/en/latest/#

 

Scrapy 2.6 documentation — Scrapy 2.6.1 documentation

© Copyright 2008–2022, Scrapy developers. Revision 23537a0f. Last updated on May 26, 2022.

docs.scrapy.org

 

1. 먼저 scrapy 를 설치한다.

$ pip install scrapy

 

2. 스크래피 프로젝트를 생성한다.

$ scrapy startproject scrapy_project

 

3. spiders 폴더 안에 파이썬 파일을 만들어준다.

scrapy_project/scrapy_project/spiders/example.py

import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    start_urls = [
        'http://www.example.com/'
    ]

    def parse(self, response):
        url = response.url
        title = response.css('h1::text').get()
        print(f'URL is: {url}')
        print(f'Title is: {title}')

 

4. spider 폴더 경로로 이동하여 아래 명령어를 실행해보자.

$ scrapy runspider example.py

 

5. 결과를 확인한다.

 

6. 추가로 settings.py 파일에 아래 내용을 추가하면 좋다.

CONCURRENT_REQUESTS = 1    
DOWNLOAD_DELAY = 0.25  # 250ms 기다림 
HTTPCACHE_ENABLED = True  # cache 기능 사용
728x90
반응형

+ Recent posts