【原】分享一个playwright网络爬虫实战教程

Python进阶者 2023-02-10 发布于广东

展开全文

回复“资源”即可获赠Python学习资料

今

日

鸡

汤

感时花溅泪，恨别鸟惊心。

大家好，我是皮皮。

一、前言

前几天在Python交流白银群【空翼】问了一道Python网络爬虫的问题，如下图所示。

二、实现过程

这里【HugoLB】给了一个思路，用playwright库来处理，直接读json返回值。

这里给出了playwright的安装过程，如下图所示：

后来【HugoLB】给出了一份详细的代码，代码如下：

from playwright.sync_api import Playwright, sync_playwright
import datetime
from pprint import pprint
import traceback
import logging
from tqdm import tqdm
import json

# pip install playwright，然后终端 playwright install
"""
先用playwright写一个普通的登入网站代码，然后page.goto前面加上
page.on("request", lambda request: handle(request=request, response=None))
page.on("response", lambda response: handle(response=response, request=None))
然后可以写一个handle自定义函数，args为response和request，然后后面想怎么处理数据都可以
"""
# setup logging
logging.basicConfig(format='%(asctime)s | %(levelname)s : %(message)s', level=logging.INFO)


def handle_json(json):
    # process our json data

    print(json)


def handle(request, response):
    if response is not None:
        # response url 是网站请求数据的url
        if response.url == 'http://bmfw./bjww/interface/interfaceJson':
            handle_json(response.json())


def run(playwright: Playwright) -> None:
    browser = playwright.chromium.launch(headless=False)
    context = browser.new_context(ignore_https_errors=True)

    # Open new page
    page = context.new_page()

    page.on("request", lambda request: handle(request=request, response=None))
    page.on("response", lambda response: handle(response=response, request=None))
    # url是网页加载的URL
    url = 'http://bmfw./yqfxdjcx/risk.html'
    page.goto(url)
    # 然后之前看到有说道网站动态加载，拖动的问题。playwright可以直接用page.mouse.wheel(0, 300)解决
    page.wait_for_timeout(50000)
    # ---------------------
    context.close()
    page.close()
    browser.close()


with sync_playwright() as playwright:
    run(playwright)