分享

爬取1907条『课程学习』数据,分析哪类学习资源最受大学生青睐

 wxsjbcf 2021-03-30

01

前言

上一篇文章以『B站』为实战案例!手把手教你掌握爬虫必备框架『Scrapy』利用了scrapy爬取B站数据。本文将在此基础上完善代码,爬起更多的内容并保存到csv。

总共爬取1907条『课程学习』数据,分析哪类学习资源最火热最受大学生群体青睐。并通过可视化的方式将结果进行展示!


02

数据获取

程序是接着以『B站』为实战案例!手把手教你掌握爬虫必备框架『Scrapy』进行完善,所以不清楚的可以先看一下这篇文章(详细讲述Scrapy入门,并以『B站』为案例进行实战编程)

1.各个scrapy文件

items文件

class BiliItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() #pass # 视频标题 title = scrapy.Field() # 链接 url = scrapy.Field() # 观看量 watchnum = scrapy.Field() # 弹幕数 dm = scrapy.Field() # 上传时间 uptime = scrapy.Field() # 作者 upname = scrapy.Field()

增加了四个字段(观看量、弹幕数、上传时间、作者)

lyc文件

class LycSpider(scrapy.Spider):    name = 'lyc'    allowed_domains = ['bilibili.com']    start_urls = ['https://search.bilibili.com/all?keyword=大学课程&page=40']
# 爬取的方法 def parse(self, response): item = BiliItem() # 匹配 for jobs_primary in response.xpath('//*[@id='all-list']/div[1]/ul/li'): item['title'] = (jobs_primary.xpath('./a/@title').extract())[0] item['url'] = (jobs_primary.xpath('./a/@href').extract())[0] item['watchnum'] = (jobs_primary.xpath('./div/div[3]/span[1]/text()').extract())[0].replace('\n', '').replace(' ', '') item['dm'] = (jobs_primary.xpath('./div/div[3]/span[2]/text()').extract())[0].replace('\n', '').replace(' ', '') item['uptime'] = (jobs_primary.xpath('./div/div[3]/span[3]/text()').extract())[0].replace('\n', '').replace(' ', '') item['upname'] = (jobs_primary.xpath('./div/div[3]/span[4]/a/text()').extract())[0]

# 不能使用return yield item
# 获取当前页的链接 url = response.request.url #page +1
new_link = url[0:-1]+str(int(url[-1])+1) # 再次发送请求获取下一页数据 yield scrapy.Request(new_link, callback=self.parse)

为新增的四个字段进行网页标签解析

pipelines文件

import csv
class BiliPipeline:
def __init__(self): #打开文件,指定方式为写,利用第3个参数把csv写数据时产生的空行消除 self.f = open('lyc大学课程.csv', 'a', newline='') # 设置文件第一行的字段名,注意要跟spider传过来的字典key名称相同 self.fieldnames = ['title', 'url','watchnum','dm','uptime','upname'] # 指定文件的写入方式为csv字典写入,参数1为指定具体文件,参数2为指定字段名 self.writer = csv.DictWriter(self.f, fieldnames=self.fieldnames) # 写入第一行字段名,因为只要写入一次,所以文件放在__init__里面 self.writer.writeheader()
def process_item(self, item, spider): # print('title:', item['title'][0]) # print('url:', item['url'][0]) # print('watchnum:', item['watchnum'][0].replace('\n','').replace(' ','')) # print('dm:', item['dm'][0].replace('\n', '').replace(' ', '')) # print('uptime:', item['uptime'][0].replace('\n', '').replace(' ', '')) # print('upname:', item['upname'][0])
print('title:', item['title']) print('url:', item['url']) print('watchnum:', item['watchnum']) print('dm:', item['dm']) print('uptime:', item['uptime']) print('upname:', item['upname'])

# 写入spider传过来的具体数值 self.writer.writerow(item) # 写入完返回 return item
def close(self, spider): self.f.close()

将爬取的内容保存到csv文件(lyc大学课程.csv)

2.启动scrapy

scrapy crawl lyc

通过上述命令可以启动scrapy项目

图片

3.爬取结果

图片

图片

一共爬取1914条数据,最后经过简单清洗最终可用数据1907条!


03

数据分析

1.大学生学习视频播放量排名

读取数据

dataset = pd.read_csv('Bili\\lyc大学课程.csv',encoding='gbk')title = dataset['title'].tolist()url = dataset['url'].tolist()watchnum = dataset['watchnum'].tolist()dm = dataset['dm'].tolist()uptime = dataset['uptime'].tolist()upname = dataset['upname'].tolist()

数据处理

#分析1:  & 分析2def getdata1_2():    watchnum_dict = {}    dm_dict = {}    for i in range(0, len(watchnum)):        if '万' in watchnum[i]:            watchnum[i] = int(float(watchnum[i].replace('万', '')) * 10000)        else:            watchnum[i] = int(watchnum[i])
if '万' in dm[i]: dm[i] = int(float(dm[i].replace('万', '')) * 10000) else: dm[i] = int(dm[i])
watchnum_dict[title[i]] = watchnum[i] dm_dict[title[i]] = dm[i]
###从小到大排序 watchnum_dict = sorted(watchnum_dict.items(), key=lambda kv: (kv[1], kv[0])) dm_dict = sorted(dm_dict.items(), key=lambda kv: (kv[1], kv[0])) #分析1:大学生学习视频播放量排名' analysis1(watchnum_dict,'大学生学习视频播放量排名')

数据可视化

def pie(name,value,picname,tips): c = ( Pie() .add( '', [list(z) for z in zip(name, value)], # 饼图的中心(圆心)坐标,数组的第一项是横坐标,第二项是纵坐标 # 默认设置成百分比,设置成百分比时第一项是相对于容器宽度,第二项是相对于容器高度 center=['35%', '50%'], ) .set_colors(['blue', 'green', 'yellow', 'red', 'pink', 'orange', 'purple']) # 设置颜色 .set_global_opts( title_opts=opts.TitleOpts(title=''+str(tips)), legend_opts=opts.LegendOpts(type_='scroll', pos_left='70%', orient='vertical'), # 调整图例位置 ) .set_series_opts(label_opts=opts.LabelOpts(formatter='{b}: {c}')) .render(str(picname)+'.html') )

图片

分析

  1. 【片片】《人间课堂》播放量最高,播放量:202万。

  2. 在B站从大学课程的内容学习吸引人远不上一些课堂内容有趣的话题。

2.大学生学习视频弹幕量排名

数据处理

watchnum_dict = {}dm_dict = {}for i in range(0, len(watchnum)):    if '万' in watchnum[i]:        watchnum[i] = int(float(watchnum[i].replace('万', '')) * 10000)    else:        watchnum[i] = int(watchnum[i])
if '万' in dm[i]: dm[i] = int(float(dm[i].replace('万', '')) * 10000) else: dm[i] = int(dm[i])
watchnum_dict[title[i]] = watchnum[i] dm_dict[title[i]] = dm[i]
###从小到大排序watchnum_dict = sorted(watchnum_dict.items(), key=lambda kv: (kv[1], kv[0]))    dm_dict = sorted(dm_dict.items(), key=lambda kv: (kv[1], kv[0]))#分析2:大学生学习视频弹幕量排名analysis1(dm_dict,'大学生学习视频弹幕量排名')

数据可视化

###饼状图def pie(name,value,picname,tips): c = ( Pie() .add( '', [list(z) for z in zip(name, value)], # 饼图的中心(圆心)坐标,数组的第一项是横坐标,第二项是纵坐标 # 默认设置成百分比,设置成百分比时第一项是相对于容器宽度,第二项是相对于容器高度 center=['35%', '50%'], ) .set_colors(['blue', 'green', 'yellow', 'red', 'pink', 'orange', 'purple']) # 设置颜色 .set_global_opts( title_opts=opts.TitleOpts(title=''+str(tips)), legend_opts=opts.LegendOpts(type_='scroll', pos_left='70%', orient='vertical'), # 调整图例位置 ) .set_series_opts(label_opts=opts.LabelOpts(formatter='{b}: {c}')) .render(str(picname)+'.html') )

图片

分析

  1. 在弹幕数排行中《数据结构与算法基础》最高,弹幕数:33000

  2. 通过弹幕量的排行来看,可以看到大家都喜欢在什么样的课堂视频上留言

  3. 与播放量对比,大学生喜欢在课堂内容学习视频上进行发言!

3.up主大学生学习视频视频数


数据处理

#分析3: up主大学生学习视频视频数def getdata3(): upname_dict = {} for key in upname: upname_dict[key] = upname_dict.get(key, 0) + 1 ###从小到大排序 upname_dict = sorted(upname_dict.items(), key=lambda kv: (kv[1], kv[0])) itemNames = [] datas = [] for i in range(len(upname_dict) - 1, len(upname_dict) - 21, -1): itemNames.append(upname_dict[i][0]) datas.append(upname_dict[i][1]) #绘图 bars(itemNames,datas)

数据可视化

###柱形图def bars(name,dict_values):
# 链式调用 c = ( Bar( init_opts=opts.InitOpts( # 初始配置项 theme=ThemeType.MACARONS, animation_opts=opts.AnimationOpts( animation_delay=1000, animation_easing='cubicOut' # 初始动画延迟和缓动效果 )) ) .add_xaxis(xaxis_data=name) # x轴 .add_yaxis(series_name='up主昵称', yaxis_data=dict_values) # y轴 .set_global_opts( title_opts=opts.TitleOpts(title='李运辰', subtitle='up视频数', # 标题配置和调整位置 title_textstyle_opts=opts.TextStyleOpts( font_family='SimHei', font_size=25, font_weight='bold', color='red', ), pos_left='90%', pos_top='10', ), xaxis_opts=opts.AxisOpts(name='up主昵称', axislabel_opts=opts.LabelOpts(rotate=45)), # 设置x名称和Label rotate解决标签名字过长使用 yaxis_opts=opts.AxisOpts(name='大学生学习视频视频数'),
) .render('up主大学生学习视频视频数.html') )

图片

分析

  1. 在大学课程视频的up主中,up主视频中与大学课堂有关的视频数排行

  2. 在大学课程视频数排行中,视频数最多的是:小白在学习呢

4.大学课程名称词云化

数据处理

text = ''.join(title)with open('stopword.txt','r', encoding='UTF-8') as f: stopword = f.readlines()for i in stopword: print(i) i = str(i).replace('\r\n','').replace('\r','').replace('\n','') text = text.replace(i, '')

数据可视化

word_list = jieba.cut(text)result = ' '.join(word_list)  # 分词用 隔开# 制作中文云词icon_name = 'fab fa-qq''''# icon_name='',#国旗# icon_name='fas fa-dragon',#翼龙icon_name='fas fa-dog',#狗# icon_name='fas fa-cat',#猫# icon_name='fas fa-dove',#鸽子# icon_name='fab fa-qq',#qq'''gen_stylecloud(text=result, icon_name=icon_name, font_path='simsun.ttc', output_name='大学课程名称词云化.png')  # 必须加中文字体,否则格式错误

图片

分析

  1. 北京大学清华大学的课程为主,课程标题含有着两个大学的居多。

  2. 这些视频标题中大多数以:基础公开课课件考研大学物理等关键词。


04 

总结

图片
图片

1.通过Scrapy框架爬取1907条『B站』大学课程学习资源数据。

2.对数据进行可视化展示以及凝练精简分析。

3.可能数据还有更多未分析或者挖掘的信息,欢迎在下方留言,提出你宝贵的建议

4.本文数据和代码在下方,欢迎自取!!!

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多