728x90
1. 파이썬 개발 환경 설정
- 구름IDE
2. 위키피디아 크롤링
3. 셀레니움으로 구글 이미지 크롤링
IDE
ㄴ IDE로 편하게 연습하기
크롤링 예제
위키피디아 링크만 크롤링
파이썬 라이브러리 beautiful soup 위키피디아(링크)에 있는 예제코드
ㄴ https://en.wikipedia.org/wiki/Main_Page 에 있는 a 태그를 크롤링하는 코드
from bs4 import BeautifulSoup
from urllib.request import urlopen
with urlopen('https://en.wikipedia.org/wiki/Main_Page') as response:
soup = BeautifulSoup(response, 'html.parser')
for anchor in soup.find_all('a'):
print(anchor.get('href', '/'))
파일 읽고 쓰기
크롤링하여 터미널에서 읽히는 텍스트를 txt파일로 쓰기
f = open("C:/doit/새파일.txt", 'w')
for i in range(1, 11):
data = "%d번째 줄입니다.\n" % i
f.write(data)
f.close()
셀레니움 이미지 크롤링
💻 Selenium 프레임워크
크롤링, 메일보내기 등 브라우저에서 작용하는 것들을 자동화할 수 있는 프레임워크
1. 파이썬 가상환경 만들기 venv
현재 경로에 selenium이라는 이름으로 가상환경을 만든다.
$ python -m venv selenium
selenium폴더 안에 scripts로 이동하여 activate(활성화)해주면
$ cd selenium\scripts
$ ./activate
터미널 앞쪽에 (selenium)키워드가 생성된다.
-> selenium이라는 가상환경에 들어옴을 알려주는 표시
2. selenium설치
scripts폴더 내에 설치
$ python -m pip install selenium
3. 브라우저 세팅
chromedriver를 다운로드 받은 후 selenium폴더 내에 가져오기 -> 같은 위치에 google.py파일 생성
3. 구글 이미지 크롤링하기
selenium 예제코드에서부터 하나씩 붙여나가는 연습
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
driver = webdriver.Firefox()
driver.get("http://www.python.org")
assert "Python" in driver.title
elem = driver.find_element_by_name("q")
elem.clear()
elem.send_keys("pycon")
elem.send_keys(Keys.RETURN)
assert "No results found." not in driver.page_source
driver.close()
구글에서 apple을 검색한 후 차례대로 이미지를 다운로드받기 📌
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time #클릭후 이미지로딩 기다리기
import urllib.request
driver = webdriver.Chrome()
driver.get("https://www.google.co.kr/imghp?hl=ko&ogbl")
elem = driver.find_element_by_name("q") #검색창 name으로 찾기
elem.send_keys("apple") #키워드 설정
elem.send_keys(Keys.RETURN) # 엔터
images = driver.find_elements_by_css_selector(".rg_i.Q4LuWd")
count = 1
for image in images:
image.click() # 클래스 찾아 클릭
time.sleep(3)
imgUrl = driver.find_element_by_css_selector(".n3VNCb").get_attribute("src")
#이미지주소 src 다운로드
urllib.request.urlretrieve(imgUrl, str(count) + ".jpg")
count = count + 1
python 명령어
$ python index.py // index파일 실행
$ pip install 패키지명 // 패키지 설치
*pip package installer for Python
파이썬(python)으로 작성된 패키지 소프트웨어를 설치 · 관리하는 패키지 관리 시스템
🌲유튜버 조코딩님 강의를 바탕으로 정리한 내용
728x90
'FE' 카테고리의 다른 글
goorm IDE (0) | 2021.11.28 |
---|---|
SCSS 컴파일과 문법, 함수 (0) | 2021.11.28 |
OOP객체지향 타입스크립트의 클래스 class (0) | 2021.11.25 |
Interfaces 인터페이스 속성, type alias 타입 별칭, class 클래스 (0) | 2021.11.22 |
컴파일 옵션 CompilerOptions (0) | 2021.11.22 |