程序员不讲武德，为女朋友乱用多线程！

O听_海_轩O 2020-11-28

展开全文

1. 为爱出码

就在昨天，有个朋友忽然给我发了一条私信：

麦叔，想看笑话吗？

我说：看你的笑话啊！有什么好笑的？

他说：不是，我发现一个笑话网站，上面有很多笑话！

我说：然后呢？

他说：那个网站程序员好像比较笨，我想写个程序把笑话都抓下来，每天给女朋友发送1个笑话！

我说：哦，你去抓吧。我没有女朋友，不需要。

2. 笨程序员

在他的死皮赖脸的央求下，我去看了一下那个笑话网站的页面：

http://xiaohua.zol.com.cn/detail1/1.html

这个网站果然是有漏洞的：

- 首先网站没有使用https，这个现代网站的基本标配都没有。

- 然后它的URL很容易被猜测，你看1.html，那是不是有2.html呢？试了一下还真有。

这就简单了，要抓它就顺藤摸瓜，1，2，3...100000抓下去就是了。

可以说这个网站的爬虫防守几乎没做。

3. 简单爬虫

几分钟后，他乐呵呵的哭丧着脸又来找我。

对，没错！他乐呵呵的是因为很快就写好了爬虫，也抓取了一些笑话。哭伤着脸是因为抓了没几下程序就挂了。

来看看他的程序：

import requests
import bs4

url = 'http://xiaohua.zol.com.cn/detail1'
with open('joke.txt') as f:
  for joke_id in range(1, 100000):
     response = requests.get(f'{url}{joke_id}.html')
     soup = bs4.BeautifulSoup(response.text, 'lxml')
     joke_text = soup.select('div.article-text')[0].getText().strip()
     f.write(f'{joke_id}, {joke_text}\n')

他代码写的还算简洁：

使用requests.get抓取网页内容，动态拼接网页的URL，都要感谢网站程序员的没防御啊。
使用BeautifulSoup把笑话的文本解析出来。
保存到joke.txt中。好家伙，这一口气要抓10万个笑话，你有几个女朋友啊？？

表面上程序还行，但我用我的不太近视的近视眼瞄了一眼，就知道这个程序一定活不了多久，你想想看问题在哪里。

4. 得优化

上面的程序在电视剧里顶多活一集，因为如果任何一个网络请求报错了，这个程序就挂啦！网络请求报错是很正常的事情，很多原因都可能会造成网络请求失败！

这得改，必须得改！

import requests
import bs4

url = 'http://xiaohua.zol.com.cn/detail1'
with open('joke.txt') as f:
  for joke_id in range(1, 100000):
    try:
        response = requests.get(f'{url}{joke_id}.html')
        soup = bs4.BeautifulSoup(response.text, 'lxml')
        joke_text = soup.select('div.article-text')[0].getText().strip()
        f.write(f'{joke_id}, {joke_text}\n')
    except Exception as e:
        print('笑话没抓到，继续抓下一个')

通过把网络请求放到try except中，如果请求出错了，只会打印一句“笑话没抓到，继续抓下一个'，至少程序不会停掉！

这货肯定活的的稳稳的！

但是，你活得太久了也不行啊。这10万条数据，你得抓多久啊！女朋友要说：你不行！

这得改，必须得改！

5. 多线程

这还不好改，用多线程：

import requests
import bs4
import threading 

url = 'http://xiaohua.zol.com.cn/detail1'
def get_joke(joke_id, file):
    response = requests.get(f'{url}{joke_id}.html')
    soup = bs4.BeautifulSoup(response.text, 'lxml')
    joke_text = soup.select('div.article-text')[0].getText().strip()
    file.write(f'{joke_id}, {joke_text}\n')

with open('joke.txt') as f:
  for joke_id in range(1, 100000):
    try:
        threading.Thread(target=get_joke, args=(joke_id,))
    except Exception as e:
        print('笑话没抓到，继续抓下一个')

代码说明：

引入了threading模块
把抓取笑话的代码放到一个函数中
给每个笑话创建独立的线程去抓取

运行一下看看，应该没问题。可是，他的电脑爆啦！！！

因为短时间内启动了太多的线程。

这个得控制一下，这个必须控制。

6. 线程池

简单，使用线程池，控制线程的个数：

import requests
import bs4
import concurrent.futures

url = 'http://xiaohua.zol.com.cn/detail1'
def get_joke(joke_id, file):
    response = requests.get(f'{url}{joke_id}.html')
    soup = bs4.BeautifulSoup(response.text, 'lxml')
    joke_text = soup.select('div.article-text')[0].getText().strip()
    file.write(f'{joke_id}, {joke_text}\n')

with open('joke.txt') as f:
    with concurrent.futures.ThreadPoolExecutor(max_workers=100) as executor:
        for joke_id in range(1, 100000):
            try:
                executor.submit(get_joke, joke_id)
            except Exception as e:
                print('笑话没抓到，继续抓下一个')