728x90
반응형

웹 스크래핑 전용 api 서버를 만들고 싶어졌다.

자바스크립트보다는 파이썬이 웹 스크래핑에 유용하다 하여 Django 서버를 만들게 되었다.

 

웹 크롤링과 웹 스크래핑의 차이점은?
웹 크롤링과 웹 스크래핑은 모두 정보를 추출해온다는 데서는 공통점을 지닙니다.
하지만 '타켓 웹 페이지의 유무'와 '중복 제거(deduplication)의 실행 여부'에서 차이가 납니다.
웹 크롤링은 특정 웹 페이지를 목표로 하지 않습니다. 일단 탐색부터 하고, 정보를 가져오죠. '선탐색 후추출'입니다. 반면 웹 스크래핑을 할 때는 목표로 하는 특정 웹페이지가 있습니다.우리가 원하는 정보를 어디서 가져올지 타겟이 분명하고, 그 타겟에서 정보를 가져오죠. 그래서 '선결정 후추출'입니다.
또, 웹 크롤링에서는 중복 제거가 필수적입니다. 중복되거나 불필요한 정보를 가져와서 분류를 더 어렵게 할 필요는 없으니까요. 도서관의 책이 개별적으로 구분되는 색인이 있는 것처럼 웹 크롤링도 수집한 웹 페이지가 중복되지 않도록 서로 다른 색인을 남깁니다. 그래서 웹 크롤링을 웹 인덱싱(web indexing)이라고도 부릅니다.
반면 웹 스크래핑에서는 중복 제거가 필수는 아닙니다. 중복된 정보를 가지고 있을 필요는 없지만, 그렇다고 꼭 필수적으로 하는 일도 아니죠.

 

1. 파이썬을 설치한다.

https://www.python.org/downloads/ 

 

Download Python

The official home of the Python Programming Language

www.python.org

 

2. 파이썬 개발 환경을 위해 파이참을 설치한다.

https://www.jetbrains.com/ko-kr/pycharm/download/#section=mac

 

다운로드 PyCharm: JetBrains가 만든 전문 개발자용 Python IDE

 

www.jetbrains.com

 

3. 파이참에 New Project 를 클릭해서 프로젝트를 만들어준다.

 

4. 터미널에서 django를 설치한다.

$ pip install django

 

5. django-admin 명령어로 django 프로젝트를 만들어준다.

$ django-admin startproject apiServer .

 

6. 아래 명령어로 서버를 실행해본다.

$ python manage.py runserver

 

8000 포트에 서버가 작동하고 있는 것을 확인할 수 있다. 아래 url을 눌러보면

 

 

이렇게 잘 뜨는 것을 확인할 수 있다.

728x90
반응형

+ Recent posts