728x90

1. 파이썬 개발 환경 설정

- 구름IDE

2. 위키피디아 크롤링

3. 셀레니움으로 구글 이미지 크롤링


 

 

 

IDE


ㄴ IDE로 편하게 연습하기

 

goorm

구름은 클라우드 기술을 이용하여 누구나 코딩을 배우고, 실력을 평가하고, 소프트웨어를 개발할 수 있는 클라우드 소프트웨어 생태계입니다.

www.goorm.io

 

 

 

 

크롤링 예제


위키피디아 링크만 크롤링


파이썬 라이브러리 beautiful soup 위키피디아(링크)에 있는 예제코드

https://en.wikipedia.org/wiki/Main_Page 에 있는 a 태그를 크롤링하는 코드

from bs4 import BeautifulSoup
from urllib.request import urlopen
with urlopen('https://en.wikipedia.org/wiki/Main_Page') as response:
    soup = BeautifulSoup(response, 'html.parser')
    for anchor in soup.find_all('a'):
        print(anchor.get('href', '/'))

 

파일 읽고 쓰기


크롤링하여 터미널에서 읽히는 텍스트를 txt파일로 쓰기

 

04-3 파일 읽고 쓰기

우리는 이 책에서 이제까지 값을

wikidocs.net

f = open("C:/doit/새파일.txt", 'w')
for i in range(1, 11):
    data = "%d번째 줄입니다.\n" % i
    f.write(data)
f.close()

 

 

 

 


셀레니움 이미지 크롤링


💻 Selenium 프레임워크

크롤링, 메일보내기 등 브라우저에서 작용하는 것들을 자동화할 수 있는 프레임워크

 

1. 파이썬 가상환경 만들기 venv

 

 

venv — 가상 환경 생성 — Python 3.10.0 문서

venv — 가상 환경 생성 소스 코드: Lib/venv/ venv 모듈은 자체 사이트 디렉터리를 갖는 경량 《가상 환경》을 만들고, 선택적으로 시스템 사이트 디렉터리에서 격리할 수 있도록 지원합니다. 각 가

docs.python.org

현재 경로에 selenium이라는 이름으로 가상환경을 만든다.

$ python -m venv selenium

selenium폴더 안에 scripts로 이동하여 activate(활성화)해주면

$ cd selenium\scripts
$ ./activate

터미널 앞쪽에 (selenium)키워드가 생성된다.

-> selenium이라는 가상환경에 들어옴을 알려주는 표시

 

 

2. selenium설치

scripts폴더 내에 설치

$ python -m pip install selenium

 

3. 브라우저 세팅

chromedriver를 다운로드 받은 후 selenium폴더 내에 가져오기 -> 같은 위치에 google.py파일 생성

 

3. 구글 이미지 크롤링하기

selenium 예제코드에서부터 하나씩 붙여나가는 연습

 

2. Getting Started — Selenium Python Bindings 2 documentation

2.2. Example Explained The selenium.webdriver module provides all the WebDriver implementations. Currently supported WebDriver implementations are Firefox, Chrome, IE and Remote. The Keys class provide keys in the keyboard like RETURN, F1, ALT etc. from se

selenium-python.readthedocs.io

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

driver = webdriver.Firefox()
driver.get("http://www.python.org")
assert "Python" in driver.title
elem = driver.find_element_by_name("q")
elem.clear()
elem.send_keys("pycon")
elem.send_keys(Keys.RETURN)
assert "No results found." not in driver.page_source
driver.close()

 

구글에서 apple을 검색한 후 차례대로 이미지를 다운로드받기 📌

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time #클릭후 이미지로딩 기다리기
import urllib.request

driver = webdriver.Chrome()
driver.get("https://www.google.co.kr/imghp?hl=ko&ogbl")
elem = driver.find_element_by_name("q") #검색창 name으로 찾기
elem.send_keys("apple") #키워드 설정
elem.send_keys(Keys.RETURN) # 엔터
images = driver.find_elements_by_css_selector(".rg_i.Q4LuWd")
count = 1
for image in images:
  image.click() # 클래스 찾아 클릭
  time.sleep(3)
  imgUrl = driver.find_element_by_css_selector(".n3VNCb").get_attribute("src")
  #이미지주소 src 다운로드
  urllib.request.urlretrieve(imgUrl, str(count) + ".jpg")
  count = count + 1

 

 

 

python 명령어


$ python index.py // index파일 실행
$ pip install 패키지명 // 패키지 설치

*pip package installer for Python

파이썬(python)으로 작성된 패키지 소프트웨어를 설치 · 관리하는 패키지 관리 시스템

 

 

 

 


🌲유튜버 조코딩님 강의를 바탕으로 정리한 내용

 

728x90
+ Recent posts