728x90
반응형
웹 스크래핑 전용 api 서버를 만들고 싶어졌다.
자바스크립트보다는 파이썬이 웹 스크래핑에 유용하다 하여 Django 서버를 만들게 되었다.
웹 크롤링과 웹 스크래핑의 차이점은?
웹 크롤링과 웹 스크래핑은 모두 정보를 추출해온다는 데서는 공통점을 지닙니다.
하지만 '타켓 웹 페이지의 유무'와 '중복 제거(deduplication)의 실행 여부'에서 차이가 납니다.
웹 크롤링은 특정 웹 페이지를 목표로 하지 않습니다. 일단 탐색부터 하고, 정보를 가져오죠. '선탐색 후추출'입니다. 반면 웹 스크래핑을 할 때는 목표로 하는 특정 웹페이지가 있습니다.우리가 원하는 정보를 어디서 가져올지 타겟이 분명하고, 그 타겟에서 정보를 가져오죠. 그래서 '선결정 후추출'입니다.
또, 웹 크롤링에서는 중복 제거가 필수적입니다. 중복되거나 불필요한 정보를 가져와서 분류를 더 어렵게 할 필요는 없으니까요. 도서관의 책이 개별적으로 구분되는 색인이 있는 것처럼 웹 크롤링도 수집한 웹 페이지가 중복되지 않도록 서로 다른 색인을 남깁니다. 그래서 웹 크롤링을 웹 인덱싱(web indexing)이라고도 부릅니다.
반면 웹 스크래핑에서는 중복 제거가 필수는 아닙니다. 중복된 정보를 가지고 있을 필요는 없지만, 그렇다고 꼭 필수적으로 하는 일도 아니죠.
1. 파이썬을 설치한다.
https://www.python.org/downloads/
2. 파이썬 개발 환경을 위해 파이참을 설치한다.
https://www.jetbrains.com/ko-kr/pycharm/download/#section=mac
3. 파이참에 New Project 를 클릭해서 프로젝트를 만들어준다.
4. 터미널에서 django를 설치한다.
$ pip install django
5. django-admin 명령어로 django 프로젝트를 만들어준다.
$ django-admin startproject apiServer .
6. 아래 명령어로 서버를 실행해본다.
$ python manage.py runserver
8000 포트에 서버가 작동하고 있는 것을 확인할 수 있다. 아래 url을 눌러보면
이렇게 잘 뜨는 것을 확인할 수 있다.
728x90
반응형
'Back-End > Django' 카테고리의 다른 글
Django | 웹 크롤링 서버 만들기(Linux) | Selenium Crawling Server in Linux | 시작하기 (0) | 2022.07.07 |
---|---|
Django | 웹 크롤링 서버 만들기(Linux) | Selenium Crawling Server in Linux | 환경 세팅 (0) | 2022.07.07 |
Django | Scrapy ( 크롤링 프레임워크 ) (0) | 2022.07.06 |
Django | REST API 서버 만들기 | Router (0) | 2022.07.05 |
Django | REST API 서버 만들기 | Django REST Framework (0) | 2022.06.29 |