웹(web)/크롤링(web scraping)8 crawl_sitemap() with re.findall() 요청한 url html에서 사이의 값들이 얻어진다. 이를 가지고 다시 request를 요청하는 내용이다. + download() 를 보완 code: import urllib.request from urllib.error import URLError, HTTPError, ContentTooShortError import re def download(url, user_agent='wswp', num_retries=2, charset='utf-8'): print('Downloading:',url) request = urllib.request.Request(url) request.add_header('User-agent',user_agent) try: resp = urllib.request.urlopen(req.. 2019. 7. 6. download() with num_tries request의 반환값에 따라 작동방식을 다르게 한 코드 code: import urllib.request from urllib.error import URLError, HTTPError, ContentTooShortError def download(url, num_retries=2): print('Downloading:', url) try: html = urllib.request.urlopen(url).read() except (URLError, HTTPError, ContentTooShortError) as e: print('Download error:', e.reason) html = None if num_retries > 0: if hasattr(e,'code') and 500 2019. 7. 6. naver html 페이지 다운로드(download() simple ver) 네이버 urllib 라이브러리를 사용한 다운로드 방법이다. html 파일을 바로 다운로드 받을 수 있다. 2019. 7. 6. 참고 pdf 보호되어 있는 글 입니다. 2019. 7. 6. 이전 1 2 다음