Back-End/Django

Django | 웹 크롤링 서버 만들기(Linux) | Selenium Crawling Server in Linux | 환경 세팅

개발자티포 2022. 7. 7. 09:57
728x90
반응형

웹 크롤러의 종류는 많다고 한다. 나는 그 중 동적 클롤러인 Selenium을 택했다.

정적 크롤링은 말 그대로 정적인 페이지에서 사용 가능하며 동적 크롤링은 로그인 등 동적으로 데이터가 바뀌는 사이트에 적합하다.

 

전 포스트에서 REST API 를 만들 땐 맥북에 파이참으로 만들었지만 이번엔 AWS에 서버를 만들고 VSCode 로 원격접속해서 

다시 처음부터 만들어보기로 했다.

 

아래는 무료 서버를 진짜 빠르고 간단하게 만드는 방법 

 

AWS LightSail(1) - 인스턴스 생성하기

정말 빠르게 AWS LightSail로 인스턴스를 만들어보자. Lightsail에 관하여 https://lightsail.aws.amazon.com/ls/docs/ko_kr/all 1. aws 사이트에 회원가입, 로그인을 하고 Lightsail 서버를 찾아서 들어간다. 2...

typo.tistory.com

 

Selenium은 크롬 브라우저 기반으로 실행되기 때문에 크롬과 크롬 드라이버가 필요하다. 

1. 필요한 패키지를 설치한다.

$ sudo apt-get update
$ sudo apt-get install -y unzip xvfb libxi6 libgconf-2-4

 

자바를 8버전 이상으로 설치한다.

$ sudo apt-get install default-jdk

 

2. 크롬을 설치한다.

$ sudo curl -sS -o - https://dl-ssl.google.com/linux/linux_signing_key.pub | apt-key add
$ sudo echo "deb [arch=amd64]  http://dl.google.com/linux/chrome/deb/ stable main" >> /etc/apt/sources.list.d/google-chrome.list
$ sudo apt-get -y update
$ sudo apt-get -y install google-chrome-stable

 

 

3. 내 크롬의 버전을 확인하고 아래 사이트에 들어가서 크롬드라이버의 버전을 확인한다.

$ google-chrome --version

 

 

ChromeDriver - WebDriver for Chrome - Downloads

Current Releases If you are using Chrome version 104, please download ChromeDriver 104.0.5112.20 If you are using Chrome version 103, please download ChromeDriver 103.0.5060.53 If you are using Chrome version 102, please download ChromeDriver 102.0.5005.61

chromedriver.chromium.org

 

4. 맨 앞 숫자가 크롬 버전과 같은지 확인한 후 크롬 드라이버를 설치하고 압축을 해제한다.

$ wget https://chromedriver.storage.googleapis.com/[버전입력]/chromedriver_linux64.zip
$ unzip chromedriver_linux64.zip

 

5. 시스템 구성을 위해 크롬 드라이버를 이동 및 권한을 부여해준다.

$ sudo mv chromedriver /usr/bin/chromedriver
$ sudo chown root:root /usr/bin/chromedriver
$ sudo chmod +x /usr/bin/chromedriver

 

6. Selenium 서버를 설치 후 실행한다.

$ wget https://selenium-release.storage.googleapis.com/3.141/selenium-server-standalone-3.141.0.jar
$ xvfb-run java -Dwebdriver.chrome.driver=/usr/bin/chromedriver -jar selenium-server-standalone-3.141.0.jar

 

7. 파이썬을 설치한다. 

$ sudo apt-get install python3

 

8. 파이썬 가상환경을 위해 패키지를 설치 후 가상환경을 만들어준다.

$ apt-get install python3-venv
$ python3 -m venv example

 

9. 장고와 djangorestframework를 설치한다.

$ apt install python3-pip
$ pip3 install django
$ pip3 install djangorestframework markdown

 

 

728x90
반응형