【原】听说房子降价了，用python爬虫看一下数据！

Python集中营 2023-04-26 发布于甘肃

展开全文

本文将介绍如何使用Python爬虫技术来获取最新的兰州房价信息。

一、爬虫原理

爬虫本质上是一种网络爬行技术，通过模拟网络浏览器的行为，自动抓取网页信息，并进行数据处理。具体而言，爬虫的工作流程如下：

发送请求：使用HTTP协议向目标网站发送请求，获取指定页面的HTML代码；
解析HTML代码：使用HTML解析器对HTML代码进行解析，提取出需要的数据；
存储数据：将获取到的数据存储到本地数据库或文件中，以备后续分析使用。

二、准备工作

在开始编写爬虫之前，我们需要先安装必要的Python库：

requests：用于向网站发送HTTP请求，获取HTML代码；
BeautifulSoup：用于解析HTML代码，提取需要的数据；
pandas：用于数据清洗和存储。

您可以通过以下命令来安装这些库：

pip install requests
pip install beautifulsoup4
pip install pandas

三、爬虫实现

获取网页内容

首先，我们需要找到兰州房价信息所在的网站。通过搜索引擎可以找到兰州房价网站，该网站的地址为http://www./。

接下来，我们需要使用requests库中的get()方法向该网站发送请求，获取HTML代码。代码如下：

import requests
url = 'http://www./'
response = requests.get(url)
html = response.text

解析HTML代码

得到HTML代码后，我们需要使用BeautifulSoup库对其进行解析，提取所需的数据。在解析之前，我们需要先查看网页源代码，确定需要提取的数据所在的HTML标签。

通过观察源代码，我们发现所有房价信息都在class为“fjlist”的div标签中，每条房价信息又分别在class为“fjinfo”的div标签中。

因此，我们可以使用BeautifulSoup库的find_all()方法来查找所有“fjinfo”标签，并依次提取每个标签中的内容，代码如下：

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
fjlist = soup.find_all('div', class_='fjlist')
for fj in fjlist:
    fjinfo = fj.find_all('div', class_='fjinfo')
    for info in fjinfo:
        # 提取房价信息

提取数据并存储

在提取房价信息时，我们需要分别提取房屋名称、所在区域、总价、单价、面积等数据。具体而言，我们可以使用BeautifulSoup库中的string属性来获取标签中的文本内容。

另外，为了方便后续的数据分析，我们还需要将提取到的数据存储到本地文件中。

这里我们使用pandas库中的DataFrame数据结构来存储数据，并使用to_csv()方法将其保存为CSV文件。代码如下：

import pandas as pd
# 存储房价信息的列表
data = []
for fj in fjlist:
    fjinfo = fj.find_all('div', class_='fjinfo')
    for info in fjinfo:
        # 提取房价信息
        name = info.find('h4').string
        area = info.find('p', class_='area').string.strip()
        price = info.find('p', class_='price').string.strip()
        unitprice = info.find('p', class_='unitprice').string.strip()
        # 将数据存储到data列表中
        data.append([name, area, price, unitprice])
# 将data列表转换为DataFrame对象，并保存为CSV文件
df = pd.DataFrame(data, columns=['name', 'area', 'price', 'unitprice'])
df.to_csv('兰州房价信息.csv', index=False, encoding='utf-8')

四、完整代码

最终的爬虫代码如下：

import requests
from bs4 import BeautifulSoup
import pandas as pd
url = 'http://www./'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'html.parser')
fjlist = soup.find_all('div', class_='fjlist')
data = []
for fj in fjlist:
    fjinfo = fj.find_all('div', class_='fjinfo')
    for info in fjinfo:
        name = info.find('h4').string
        area = info.find('p', class_='area').string.strip()
        price = info.find('p', class_='price').string.strip()
        unitprice = info.find('p', class_='unitprice').string.strip()
        data.append([name, area, price, unitprice])
df = pd.DataFrame(data, columns=['name', 'area', 'price', 'unitprice'])
df.to_csv('兰州房价信息.csv', index=False, encoding='utf-8')