본문 바로가기

웹(web)/크롤링(web scraping)8

코로나확진자 웹사이트 최근 업데이트 시간 크롤링(worldometers.info/coronavirus) 코로나 확진자 수를 가져오는 여러 가지 방법이 있다. 뉴스를 통해 확인하는 방법, 특정 사이트에 가서 가져오는 방법 등이 있을 것이다. 이번 글은 www.worldometers.info 에서 제공하는 coronavirus 정보가 언제 업데이트되었는지 그 시간을 가져오는 코드를 작성해 보려고 한다. 방법은 간단하다. 사이트를 분석해서 어떻게 정보를 가져올지 분석한 후 파이썬을 이용해서 크롤링 코드를 작성하면 된다. 사이트 분석은 크롬의 개발자 도구를 이용하며 파이썬 개발환경은 구글의 코랩을 이용하면 빠르게 개발할 수 있다. 사이트 분석은 정적인 웹사이트인지 아니면 동적인 웹사이트인지 구분하고 그에 따라 사용하는 도구를 바꾸면 크롤링이 완료된다. 이번 예시를 통해서 그림을 그려보도록 하자. 아래 사진은 사이.. 2020. 5. 3.
로그인 시 쿠키를 안 돌려주는 경우 - 세션 이용 최초의 로그인 이후 해당 쿠키를 이용해서 다른 페이지에 요청을 보내는게 일반적이다. 하지만 로그인 후 쿠키를 반환 안해주는 사이트도 존재한다. 쿠키 없이 해당 웹페이지의 리소스에 요청을 보내면 인증되지 않아 거절된다. 이 때는 세션을 생성하여 로그인을 시키고 해당 세션 유지기간동안 요청을 보내는 식으로 사용하자. 2019. 8. 7.
regex training site https://regexone.com/ RegexOne - Learn Regular Expressions - Lesson 1: An Introduction, and the ABCs Regular expressions are extremely useful in extracting information from text such as code, log files, spreadsheets, or even documents. And while there is a lot of theory behind formal languages, the following lessons and examples will explore the more prac regexone.com Lesson 파트를 본 후 Problem 파트를 .. 2019. 7. 7.
crawl_site() with itertools code: import itertools def crawl_site(url): for page in itertools.count(1): print(page) pg_url = '{}{}'.format(url,page) html = download(pg_url) if html is None: break print(pg_url) 2019. 7. 6.