-
[Python] Selenium 사용하기 (+PhantomJS)언어/파이썬 & 장고 2019. 1. 21. 22:51
Selenium은 웹앱을 테스트 하는데 주로 사용하는 프레임워크입니다. webdriver API를 통해 브라우저를 제어하게 할 수 있습니다. JavaScript를 이용해 비동기적으로 컨텐츠를 호출할 수 있으므로 브라우저에서 보이는 컨텐츠라면 전부 가져올 수 있다는 것을 의미합니다. 한마디로 Selenium은 실제 웹 브라우저가 동작하기 때문에 JS로 렌더링이 완료된 후의 DOM 결과물에 대한 접근이 가능합니다.
설치
파이썬
브라우저의 업데이트 마다 새로운 드라이버를 잡기 때문에 최신버전을 유지하는 것이 좋습니다.
pip3 install selenium
webdriver
아래에서는 chrome을 설치하여 사용합니다.
https://sites.google.com/a/chromium.org/chromedriver/downloads 에서 가장 최신인 드라이버 버전을 선택한 후, OS에 맞는 드라이버를 다운받습니다.
설치 받은 압축파일을 해제하면 chromedriver 파일이 나오는데 해당 파일을 향후 사용하기 쉬운 장소로 변경합니다.
PhantomJS webdriver
PhantomJS는 화면이 존재하지 않은 브라우저입니다. CLI서버 환경에서 테스트를 진행할 예정이면 PhantomJS를 사용하는 것이 좋습니다. PhantomJS에 대한 설명은 https://brownbears.tistory.com/363 에서 확인할 수 있습니다.
http://phantomjs.org/download.html 에서 현재 OS 환경에 맞는 압축파일을 받은 후 압축을 풀어줍니다. 향후 사용할 파일의 위치는 bin폴더의 phantomjs 파일 입니다.
현재 PhantomJS는 개발이 진행되고 있지 않기 때문에 현재 브라우저가 최신이라면 크롬의 headless 모드를 사용하는 것이 좋습니다.
사용하기
아래와 같이 위에서 설치한 파일 위치를 입력합니다.
from selenium import webdriver chrome_driver = webdriver.Chrome('chromedriver 파일 위치') phantom_driver = webdriver.phantomjs('phantomjs 파일 위치')
selenium은 실행하기 위한 자원들이 전부 로드될 때까지 기다려 줍니다. 만약 이 시간을 지정하고 싶다면 implicitly_wait(초) 를 작성합니다. 아래는 implicitly_wait()을 사용하고 https://naver.com을 호출하는 예제입니다.
from selenium import webdriver chrome_driver = webdriver.Chrome('/Users/user/Documents/chromedriver') # 로드를 위해 5초 대기 chrome_driver.implicitly_wait(5) chrome_driver.get('https://naver.com')
만약 정상적으로 호출이 되었다면 새로운 chrome 브라우저에 네이버가 떠 있는 것을 볼 수 있습니다.
예시
위 https://naver.com에서 로그인을 시도해 봅니다.
- 먼저 네이버의 로그인 화면 url인 https://nid.naver.com/nidlogin.login 를 입력합니다.
- 네이버 로그인의 화면에서 아이디 입력 태그의 id명은 id, 비밀번호 입력태그의 id명은 pw로 되어 있으므로 아래처럼 해당 태그에 값을 세팅합니다.
- 로그인 버튼을 클릭합니다.
from selenium import webdriver chrome_driver = webdriver.Chrome('/Users/user/Documents/chromedriver') # 로드를 위해 5초 대기 chrome_driver.implicitly_wait(5) # 네이버 로그인페이지 chrome_driver.get('https://nid.naver.com/nidlogin.login') # 아이디 비밀번호 입력 chrome_driver.find_element_by_id('id').send_keys('naver') chrome_driver.find_element_by_id('pw').send_keys('naver') # 로그인 버튼 클릭 chrome_driver.find_element_by_xpath('//*[@id="frmNIDLogin"]/fieldset/input').click()
계정정보가 올바르다면 정상적으로 로그인이 되는 것을 확인할 수 있습니다.
로그인이 필요한 페이지의 경우 로그인을 한 다음, 호출하고자 하는 페이지를 다시 불러와 사용할 수 있습니다. 아래는 로그인 후, BeautifulSoup을 함께 사용한 예시입니다.
from selenium import webdriver from bs4 import BeautifulSoup chrome_driver = webdriver.Chrome('/Users/user/Documents/chromedriver') # 로드를 위해 5초 대기 chrome_driver.implicitly_wait(5) # 네이버 로그인페이지 chrome_driver.get('https://nid.naver.com/nidlogin.login') # 아이디 비밀번호 입력 chrome_driver.find_element_by_id('id').send_keys('id') chrome_driver.find_element_by_id('pw').send_keys('password') # 로그인 버튼 클릭 chrome_driver.find_element_by_xpath('//*[@id="frmNIDLogin"]/fieldset/input').click() # 네이버 내정보 chrome_driver.get('https://nid.naver.com/user2/help/myInfo.nhn') # html 로드 html = chrome_driver.page_source bs = BeautifulSoup(html, 'html.parser') notices = bs.find_all('div', class_='form')
테스트를 진행할 때, 네이버는 적절하지 않을 수 있습니다. 그놈의 자동입력방지문자