分享

Python爬虫实战之豆瓣音乐、微打赏、阳光电影(附代码)

 万皇之皇 2018-01-10

一、豆瓣音乐

今天爬的是豆瓣音乐top250,比较简单,主要是练练手。

1、加了请求头,本来没加,调试几次突然没数据了,加了请求头开始也没好,后来又好了,可能是网络原因;2、这次是进入信息页爬的数据,上次爬电影没采用这种方法,缺少了部分数据;3、数据的预处理用了很多if函数

数据分析

1、部分数据可以见上图2、中国音乐作者还是很多的。3、随着音乐设备和网络的普及,流行音乐的发展,可以看出2000年后作品越来越多,到2010年又积极下滑(经典就是经典,无法吐槽现在的音乐)4、风格大家可以看出流行,摇滚,民谣占了一大半。5、最后弄了一首周董的《不能说的秘密》做词云,想想小时候都是回忆啊。

代码片段

  1. import requests

  2. import re

  3. from bs4 import BeautifulSoup

  4. import time

  5. import pymongo

  6. client = pymongo.MongoClient('localhost', 27017)

  7. douban = client['douban']

  8. musictop = douban['musictop']

  9. headers = {

  10.    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

  11. }

  12. urls = ['https://music.douban.com/top250?start={}'.format(str(i)) for i in range(0,250,25)]

  13. def get_url_music(url):

  14.    wb_data = requests.get(url,headers=headers)

  15.    soup = BeautifulSoup(wb_data.text,'lxml')

  16.    music_hrefs = soup.select('a.nbg')

  17.    for music_href in music_hrefs:

  18.        get_music_info(music_href['href'])

  19.        time.sleep(2)

二、微打赏

网站分析

打开网站,翻页网页不变,看看是post的请求,很好办,直接把参数怼进去,这里只要切换page就能进行翻页。

json格式,这里post返回的是json数据,解析json数据就行,小技巧:看preview,解析起来嗖嗖哒。这里需要提取活动的名称,id和参与打赏的人数。这个后面详细页用的到。

详细页,依旧是post,依旧是json数据,这里的参数pro_id为之前的爬取的id,这一页20个信息,通过前面的参与打赏人数构造出有多少页,继续怼参数。

代码片段

  1. import requests

  2. import json

  3. import math

  4. def get_sup_info(url,page):

  5.    params = {

  6.        'ajaxtype':1,

  7.        'page':page,

  8.        'category':1,

  9.        'pageSize':8

  10.    }

  11.    cookies = {

  12.        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36',

  13.        'Cookie':'acw_tc=AQAAAKLQ3U/WTAYAggq7PZ24WOlm9vQW; PHPSESSID=r0nbvk7hppjftegk4fpt9cu535; _uab_collina=150094753858198811653567; mdswv=v1.0; mdsa=MD-STICS-5976a44746eca; mdss=6-o; mdsf=md; mdsff=www_so_com;

  14.    }

  15.    html = requests.post(url, data=params, headers=cookies)

  16.    json_data = json.loads(html.text)

  17.    des = json_data['des']

  18.    for data in des:

  19.        name = data['name']

  20.        id = data['id']

  21.        pay_count = data['pay_count']

  22.        all_page = math.ceil(int(pay_count)/20)

  23.        for i in range(1,int(all_page)+1):

  24.            get_app_info(i,id,name)

三、阳光电影

爬虫分析

这里涉及跨页的爬取,需要理清爬虫的思路。首先打开网站,需爬取前11个分类的电影数据,经典影片格式不一样,爬虫时过滤掉了。

进入电影列表页后,正则爬取页数和电影的分类标签,以此构造分页url,然后爬取电影的名字和url。

最后在详细页爬取电影的下载地址,爬取结果如下:

代码片段

  1. import requests

  2. import re

  3. from lxml import etree

  4. import csv

  5. def get_resource(url,cate_name,cate_url,movie_name):

  6.    res = requests.get(url)

  7.    res.encoding = 'gb2312'

  8.    html = etree.HTML(res.text)

  9.    movie_resource = html.xpath('//tbody//tr/td/a/text()')[0]

  10.    writer.writerow((cate_name,cate_url,movie_name,url,movie_resource))

  11.    print(movie_resource)



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多