【原】基于Nodejs和Playwright爬取淘宝Python书籍信息

开源优测 2023-03-28 发布于广东

展开全文

下方查看历史精选文章

重磅发布 - 自动化框架基础指南pdfv1.1
大数据测试过程、策略及挑战

测试框架原理，构建成功的基石

在自动化测试工作之前，你应该知道的10条建议

在自动化测试中，重要的不是工具

本文将演示如何使用Playwright爬取淘宝Python书籍的相关信息，包括书名、价格和销量等。我们将使用Playwright模拟登录和搜索，并提取所需信息。所有代码都使用JavaScript编写，并在Node.js环境中运行。

环境设置

在开始之前，您需要安装Node.js和Playwright。您可以从官方网站上下载并安装Node.js。安装完成后，打开终端并输入以下命令来安装Playwright：

npm i playwright

模拟登录

淘宝需要登录才能访问搜索页面。因此，我们需要使用Playwright模拟登录。以下是代码示例：

const { chromium } = require('playwright');
async function login() {  const browser = await chromium.launch();  const context = await browser.newContext();  const page = await context.newPage();  await page.goto('https://login.taobao.com/member/login.jhtml');  const loginTab = await page.waitForSelector('#J_QRCodeLogin > .login-links > .forget-pwd.J_Quick2Static');  await loginTab.click();  const usernameInput = await page.waitForSelector('#TPL_username_1');  await usernameInput.type('your_username');  const passwordInput = await page.waitForSelector('#TPL_password_1');  await passwordInput.type('your_password');  const loginButton = await page.waitForSelector('#J_SubmitStatic');  await loginButton.click();  await page.waitForNavigation();  await browser.close();}login();

上述代码使用Playwright打开淘宝登录页面，切换到账号密码登录选项卡，输入用户名和密码，然后单击登录按钮。最后，它等待页面导航完成并关闭浏览器。

请注意，您需要将 your_username 和 your_password 替换为您的淘宝用户名和密码。此外，您可能需要通过输入验证码来完成登录。

搜索书籍

完成登录后，我们可以开始搜索Python书籍。以下是代码示例：


const { chromium } = require('playwright');async function searchBooks() {  const browser = await chromium.launch();  const context = await browser.newContext();  const page = await context.newPage();  await page.goto('https://www.taobao.com/');  const searchInput = await page.waitForSelector('#q');  await searchInput.type('Python书籍');  const searchButton = await page.waitForSelector('.btn-search');  await searchButton.click();  await page.waitForNavigation();  await browser.close();}searchBooks();

上述代码使用Playwright打开淘宝首页，输入搜索关键字并单击搜索按钮。最后，它等待页面导航完成并关闭浏览器。

提取信息

完成搜索后，我们需要从搜索结果页面提取所需信息。以下是代码示例：

const { chromium } = require('playwright');
async function extractData() {  const browser = await chromium.launch();  const context = await browser.newContext();  const page = await context.newPage();  await page.goto('https://www.taobao.com/');  const searchInput = await page.waitForSelector('#q');  await searchInput.type('Python书籍');  const searchButton = await page.waitForSelector('.btn-search');  await searchButton.click();  await page.waitForNavigation();  const bookLinks = await page.$$('.J_ClickStat');  const books = [];  for (let link of bookLinks) {    const title = await link.getAttribute('title');    const href = await link.getAttribute('href');    const price = await link.$eval('.price strong', node => node.innerText);    const sales = await link.$eval('.deal-cnt', node => node.innerText);    books.push({ title, href, price, sales });  }  console.log(books);  await browser.close();}extractData();

上述代码使用Playwright打开淘宝首页，输入搜索关键字并单击搜索按钮。然后，它等待页面导航完成并获取所有书籍链接。对于每个链接，它获取书名、价格和销量，并将它们存储在books数组中。最后，它将books数组打印到控制台并关闭浏览器。

请注意，我们使用了 $$ 来获取所有链接。这是因为 page.$ 只返回第一个匹配项。在我们的示例中，我们需要获取所有链接以提取所需信息。

结论

本文演示了如何使用Playwright爬取淘宝Python书籍的相关信息。我们使用Playwright模拟登录和搜索，并提取所需信息。所有代码都使用JavaScript编写，并在Node.js环境中运行。Playwright是一个强大的自动化测试工具，也可以用于爬取数据。它易于使用，支持多种浏览器，并提供丰富的API和示例代码。如果您需要爬取网站数据，请考虑使用Playwright。