728x90
반응형
파이썬 웹 크롤러가 종류가 많다고 한다. 나는 그 중에 Scrapy를 선택했다.
자세한 내용은 아래 사이트에 들어가보면 볼 수 있다.
https://docs.scrapy.org/en/latest/#
1. 먼저 scrapy 를 설치한다.
$ pip install scrapy
2. 스크래피 프로젝트를 생성한다.
$ scrapy startproject scrapy_project
3. spiders 폴더 안에 파이썬 파일을 만들어준다.
scrapy_project/scrapy_project/spiders/example.py
import scrapy
class ExampleSpider(scrapy.Spider):
name = 'example'
start_urls = [
'http://www.example.com/'
]
def parse(self, response):
url = response.url
title = response.css('h1::text').get()
print(f'URL is: {url}')
print(f'Title is: {title}')
4. spider 폴더 경로로 이동하여 아래 명령어를 실행해보자.
$ scrapy runspider example.py
5. 결과를 확인한다.
6. 추가로 settings.py 파일에 아래 내용을 추가하면 좋다.
CONCURRENT_REQUESTS = 1
DOWNLOAD_DELAY = 0.25 # 250ms 기다림
HTTPCACHE_ENABLED = True # cache 기능 사용
728x90
반응형
'Back-End > Django' 카테고리의 다른 글
Django | 웹 크롤링 서버 만들기(Linux) | Selenium Crawling Server in Linux | 시작하기 (0) | 2022.07.07 |
---|---|
Django | 웹 크롤링 서버 만들기(Linux) | Selenium Crawling Server in Linux | 환경 세팅 (0) | 2022.07.07 |
Django | REST API 서버 만들기 | Router (0) | 2022.07.05 |
Django | REST API 서버 만들기 | Django REST Framework (0) | 2022.06.29 |
Django | REST API 서버 만들기 | 시작하기 (0) | 2022.06.29 |