用Python制作一个B站视频下载小工具(文末附完整代码）

只怕想不到 2022-01-27

展开全文

大家好，今天我们分享一个小工具，主要用于B站视频的下载，只需要输入对应视频的网页地址就可以进行下载到本地了。

目录：

1. 原理简介
2. 网页分析
3. 视频爬取
4. 存入本地
5. GUI工具制作
6. 完整代码

1. 原理简介

原理很简单，就是获取视频资源的源地址，然后爬取视频的二进制内容，再写入到本地即可。

2. 网页分析

案例视频地址：https://www.bilibili.com/video/BV1BU4y1H7E3

打开该网页，然后F12进入开发者模式，接着点开网络—>全部，因为视频资源一般比较大，我这里根据大小进行了从大到小的排序，找到了第一条这些可能和视频源地址有关。

然后，我们复制找到的这条里的url部分不变的部分，回到元素中ctrl+F搜索，找到了可能和视频源地址有关的节点。

果然，我们复制这部分内容，用json在线解析工具发现真的有我们需要的看似视频文件所在的地址。

然后，我复制这个地址用浏览器打开发现提示403了。。

不过，没关系。。我们看接下来的操作！

3. 视频爬取

在网页分析部分，我们可以在视频的B站地址网页源代码里通过各种数据解析的方式来获取视频文件的源地址，这里我采用的是正则表达式。

import requests
import re
import json 

url = 'https://www.bilibili.com/video/BV1BU4y1H7E3'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36',
    'referer': 'https://www.bilibili.com'
    }

resp = requests.get(url, headers=headers)

palyinfo = re.findall(r'<script>window.__playinfo__=(.*?)</script>', resp.text)[0]

palyinfo_data = json.loads(palyinfo)

由于正在表达式获取的结果是字符串，而实际上它是json（字典），所以这里需要再引入json库来进行转化。

我们再分析数据，可以发现最终视频文件的信息，直接key-value操作就行了。比较有意思的是视频和音频文件是分开的，我们需要分别爬取后再合并即可。

# 视频与音频文件地址
video_url = json_data['data']['dash']['video'][0]['base_url']
audio_url = json_data['data']['dash']['audio'][0]['base_url']

有朋友可能会发现，base_url貌似有好多个。是的，因为视频清晰度有很多种嘛。这里我选取的是第一种超清 4K，大家可以根据自己需求进行选择！

当然了，我们把视频存入本地的时候还需要起个名字，这里随便找个节点解析出文件名就行了。

# 视频标题
title = re.findall(r'<h1 title='(.*?)' class='video-title'>', resp.text)[0]

4. 存入本地

既然我们已经解析获得了视频的文件地址、音频地址和文件名，那么直接就安排下载吧！

不过，我们在网页分析的时候发现直接打开视频和音频文件地址会提示403，那么因为跳过去的来源不明确导致的，只需调整请求头为如下即可：

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36',
    # 加上referer即可
    'referer': 'https://www.bilibili.com'
    }

搞定这些玩意后，我们就开始写文件写入本地的函数吧！

# 一般视频是mp4，音频是mp3
def down_file(file_url, file_type):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36',
        'referer': 'https://www.bilibili.com'
        }
    resp = requests.get(url = file_url, headers=headers)
    print(resp.status_code)
    
    print(f'文件名称：{title}')
    # 设置单次写入数据的块大小
    chunk_size = 1024
    # 获取文件大小
    file_size = int(resp.headers['content-length'])
    # 用于记录已经下载的文件大小
    done_size = 0
    # 将文件大小转化为MB
    file_size_MB = file_size / 1024 / 1024
    print(f'文件大小：{file_size_MB:0.2f} MB')
    start_time = time.time()
    with open(title + '.' + file_type, mode='wb') as f:
        for chunk in resp.iter_content(chunk_size=chunk_size):
            f.write(chunk)
            done_size += len(chunk)
            print(f'\r下载进度：{done_size/file_size*100:0.2f}%',end='')
    end_time = time.time()
    cost_time = end_time-start_time
    print(f'\n累计耗时：{cost_time:0.2f} 秒')
    print(f'下载速度：{file_size_MB/cost_time:0.2f}M/s')

运行结果：

# 视频下载
>>>down_file(video_url, 'mp4')
200
文件名称：【咒术回战】第20集五条悟帅的有些过分了
文件大小：42.10 MB
下载进度：100.00%
累计耗时：5.72 秒
下载速度：7.36M/s
# 音频下载
>>>down_file(audio_url, 'mp3')
200
文件名称：【咒术回战】第20集五条悟帅的有些过分了
文件大小：5.13 MB
下载进度：100.00%
累计耗时：0.80 秒
下载速度：6.42M/s

我们在本地可以看到下载成功的视频文件：

由于视频和音频是分开的，所以单独打开这个视频是没有声音的，我们需要进行合并操作。

合并操作需要用到moviepy库，关于这个库我们后续也会介绍它的更多应用，敬请期待~

from moviepy import *
from moviepy.editor import *

video_path = title + '.mp4'
audio_path = title + '.mp3'

# 读入视频
video = VideoFileClip(video_path)
# 提取音轨
audio = AudioFileClip(audio_path)
# 将音轨合并到视频中
video = video.set_audio(audio)
# 输出
video.write_videofile(f'{title}(含音频).mp4')

就这样搞定了：

Moviepy - Building video 【咒术回战】第20集五条悟帅的有些过分了(含音频).mp4.
MoviePy - Writing audio in 【咒术回战】第20集五条悟帅的有些过分了(含音频)TEMP_MPY_wvf_snd.mp3
MoviePy - Done.                                                       
Moviepy - Writing video 【咒术回战】第20集五条悟帅的有些过分了(含音频).mp4

Moviepy - Done !
Moviepy - video ready 【咒术回战】第20集五条悟帅的有些过分了(含音频).mp4