Python爬虫：股票数据爬取

傑克h7x 2019-08-28

展开全文

一、爬取个股列表

目标页面：http://quote.eastmoney.com/stocklist.html，爬取个股名称和代码

相关信息位于li标签中的a标签中，可以通过正则表达式或beautifulsoup获取，以下皆采用正则的方式。个股的代码以0或3或6开头然后把信息写入csv中：


import requests
from fake_useragent import UserAgent
import re
import csv
def getHtml(url):
    r = requests.get(url,headers={
        'User-Agent': UserAgent().random,
    })
    r.encoding = r.apparent_encoding
    return r.text
stockUrl = 'http://quote.eastmoney.com/stocklist.html'
PATTERN_STOCK = '<li><a.*>(\w*)\((\d{6})\)</a></li>'
if __name__ == '__main__':
    html = getHtml(stockUrl)
    reslist = re.findall(PATTERN_STOCK,html)
    #数据清洗：去掉非个股,个股以6（沪市）,0（深市）,3（创业板）开头
    datalist = reslist[:]
    for res in reslist:
        if not (str(res[1]).startswith('6') or str(res[1]).startswith('3') or str(res[1]).startswith('0')):
            datalist.remove(res)
    f =open('D:/Py/stock.csv','w+',encoding='utf-8',newline='')
    writer = csv.writer(f)
    writer.writerow(('名称', '代码'))
    for data in datalist:
        writer.writerow((data[0],data[1]))
    f.close()

注意在数据清洗时拷贝了一份列表，因为如果对同一个列表进行遍历并且remove操作时，下标可能会紊乱引发错误

一共获取到3617支个股

二、下载个股历史数据

通过网易财经接口可以获取股票和指数的历史数据，下载地址如：http://quotes.money.163.com/service/chddata.html?code=0000001&end=20190218&fields=TCLOSE;HIGH;LOW;TOPEN;LCLOSE;CHG;PCHG;VOTURNOVER;VATURNOVER

code以一共有7位，后6位表示股票代码，第一位为0表示是沪市，1为深市；end表示截止日期之前的所有数据；fields选项中，分别表示当日的收盘，最高，最低，开盘价，昨日收盘价，涨跌额，涨跌幅，成交量，成交金额。

通过此链接可以下载到相关个股的csv文件

注意同时开启3000多个线程可能会有些下载失败，可以通过semaphore设置并发线程数量


import csv
import urllib.request as r
import threading
#读取之前获取的个股csv丢入到一个列表中
def getStockList():
    stockList = []
    f = open('D:/Py/stock.csv','r',encoding='utf-8')
    f.seek(0)
    reader = csv.reader(f)
    for item in reader:
        stockList.append(item)
    f.close()
    return stockList
def downloadFile(url,filepath):
    try:
        r.urlretrieve(url,filepath)
    except Exception as e:
        print(e)
    print(filepath,'is downloaded')
    pass
#设置信号量，控制线程并发数
sem = threading.Semaphore(100)
def downloadFileSem(url,filepath):
    with sem:
        downloadFile(url,filepath)
urlStart = 'http://quotes.money.163.com/service/chddata.html?code='
urlEnd = '&end=20190218&fields=TCLOSE;HIGH;LOW;TOPEN;LCLOSE;CHG;PCHG;VOTURNOVER;VATURNOVER'
if __name__ == '__main__':
    stockList = getStockList()
    stockList.pop(0)
    for s in stockList:
        scode = str(s[1])
        #0：沪市；1：深市
        url = urlStart + ('0' if scode.startswith('6') else '1') + scode + urlEnd
        filepath ='D:/Py/StocksInfo1/' + (str(s[0])+'_'+scode) + '.csv'
        threading.Thread(target=downloadFileSem,args=(url,filepath)).start()

一共是3617个csv

三、爬取基金数据

目标页面：http://quote.stockstar.com/fund/stock_3_1_X.html ，X表示页数

具体数据位于一个表格中

一共有37页，采用正则截取的方式，最后也是写入csv


from GetStockList import getHtml
import re
import csv
import threading
def getFundsInfo(baseUrl):
    html = getHtml(baseUrl)
    reslist = re.findall('<tbody[\s\S]*</tbody>',html)
    tbody = reslist[0]
    reslist = re.findall('>(\S+?)</',tbody)
    for i in range(0,len(reslist),8):
        rowList = []
        for j in range(8):
            rowList.append(reslist[i+j])
        writer.writerow(rowList)
if __name__ == '__main__':
    f = open('D:/Py/StockFunds.csv', 'w', encoding='utf-8', newline='')
    writer = csv.writer(f)
    writer.writerow(('基金代码', '基金名称', '单位净值', '累计净值', '日增长额', '日增长率', '申购', '赎回'))
    for page in range(1,38):
        baseUrl = 'http://quote.stockstar.com/fund/stock_3_1_{}.html'.format(page)
        threading.Thread(target=getFundsInfo,args=(baseUrl,)).start()