【原】代码 | 使用「新闻数据集」计算「经济政策不确定性」指数

大邓的Python 2023-12-21 发布于瑞典

展开全文

一、经济政策不确定性指标

经济政策不确定性(Economic Policy Uncertainty, EPU) 通常是用来衡量经济中政策不确定性水平的一种度量方式。本文参考

Huang, Yun, and Paul Luk. "Measuring economic policy uncertainty in China." China Economic Review 59 (2020): 101367

1.1 新闻数据库

新闻数据集 | 含人民日报/经济日报/光明日报等 7 家媒体(2023.12.18)

人民日报rmrb:        1946-05-15 ~ 2023-12-18
光明日报gmrb:        1985-01-01 ~ 2023-12-18
人民政协报rmzxb:     2008-01-02 ~ 2023-12-18
经济日报jjrb:        2008-01-27 ~ 2023-12-18
中国青年报zqb:       2005-01-01 ~ 2023-12-18
南方周末nfzm:        2008-01-02 ~ 2023-5-31

1.2 算法

Step-1. 选择了114家中国大陆的报纸，其中包括北京、上海、广州和天津等主要城市的报纸。
Step-2. 对于每家报纸，搜索包含以下三个关键词之一的文章：经济、不确定性和政策。这些关键词的中文和英文对照可以在论文的表格1中找到。
Step-3. 将每个月的文章数量按照满足第一个关键词的文章数量进行缩放。
Step-4. 将时间序列标准化，使其在2000年1月至2011年12月期间的标准差为1。 保证所有媒体计算得到的epu是可比的。
Step-5. 对十家报纸的月度序列进行简单平均，并将指标归一化，使其在2000年1月至2011年12月期间的平均值为100。

如果是利用一个媒体源进行类 EPU 指标的构建，只需用到算法中的前 3 个步骤。

免费获取EPU指数文件 rmrb_epu.csv ，涵盖1946-05-31 ~ 2023-12-18

https:///blog/2023-12-20-measure-china-economic-policy-uncertainty/rmrb_epu.csv

二、基本知识

2.1 查看数据

大邓的 新闻数据集 | 含人民日报/经济日报/光明日报等 7 家媒体(2023.12.18)中的所有媒体，均有csv格式，内含 date 和 text 两个字段， csv中的每行是一条新闻。

import pandas as pd

df = pd.read_csv('rmrb.csv.gzip', compression='gzip')
df.head()

2.2 日期转化

df['date'] = pd.to_datetime(df['date'])
print('人民日报: ', df['date'].min().date(), '~', df['date'].max().date())

Run

人民日报:  1946-05-15 ~ 2023-12-18

2.3 按日期进行分组

使用日期进行分组，常见的周期是年Y、月M、日D。以 df.groupby(pd.Grouper(key='date', freq='M')) 为例，会得到不同 year-month 及对应的dataframe 。观察 freq 设置成 Y、M、D，代码运行结果，理解代码字段名含义。

for date, Yfreq_df in df.groupby(pd.Grouper(key='date', freq='Y')):
    print(date, type(Yfreq_df))

Run

1946-12-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
1947-12-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
1948-12-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
1949-12-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
1950-12-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
1951-12-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
1952-12-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
......
2016-12-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
2017-12-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
2018-12-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
2019-12-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
2020-12-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
2021-12-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
2022-12-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
2023-12-31 00:00:00 <class 'pandas.core.frame.DataFrame'>

for date, Mfreq_df in df.groupby(pd.Grouper(key='date', freq='M')):
    print(date, type(Mfreq_df))

Run

1946-05-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
1946-06-30 00:00:00 <class 'pandas.core.frame.DataFrame'>
1946-07-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
1946-08-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
1946-09-30 00:00:00 <class 'pandas.core.frame.DataFrame'>
1946-10-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
1946-11-30 00:00:00 <class 'pandas.core.frame.DataFrame'>
......
2023-05-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
2023-06-30 00:00:00 <class 'pandas.core.frame.DataFrame'>
2023-07-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
2023-08-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
2023-09-30 00:00:00 <class 'pandas.core.frame.DataFrame'>
2023-10-31 00:00:00 <class 'pandas.core.frame.DataFrame'>
2023-11-30 00:00:00 <class 'pandas.core.frame.DataFrame'>
2023-12-31 00:00:00 <class 'pandas.core.frame.DataFrame'>

for date, Dfreq_df in df.groupby(pd.Grouper(key='date', freq='D')):
    print(date, type(Dfreq_df))

Run

1946-05-15 00:00:00 <class 'pandas.core.frame.DataFrame'>
1946-05-16 00:00:00 <class 'pandas.core.frame.DataFrame'>
1946-05-17 00:00:00 <class 'pandas.core.frame.DataFrame'>
1946-05-18 00:00:00 <class 'pandas.core.frame.DataFrame'>
1946-05-19 00:00:00 <class 'pandas.core.frame.DataFrame'>
1946-05-20 00:00:00 <class 'pandas.core.frame.DataFrame'>
1946-05-21 00:00:00 <class 'pandas.core.frame.DataFrame'>
......
2023-12-11 00:00:00 <class 'pandas.core.frame.DataFrame'>
2023-12-12 00:00:00 <class 'pandas.core.frame.DataFrame'>
2023-12-13 00:00:00 <class 'pandas.core.frame.DataFrame'>
2023-12-14 00:00:00 <class 'pandas.core.frame.DataFrame'>
2023-12-15 00:00:00 <class 'pandas.core.frame.DataFrame'>
2023-12-16 00:00:00 <class 'pandas.core.frame.DataFrame'>
2023-12-17 00:00:00 <class 'pandas.core.frame.DataFrame'>
2023-12-18 00:00:00 <class 'pandas.core.frame.DataFrame'>

2.4 文本操作

dataframe中字段如果是字符串格式，可以用 .str属性，该str属性具有以下特色功能。

#某词
word_pattern1 = '不确定'
#某类词
word_pattern2 = '不确定|不明确|波动|震荡'

#是否含某词   
df['text'].str.contains(word_pattern1)  
#是否含某类词   
df['text'].str.contains(word_pattern2)  

#某词出现的次数 
df['text'].str.count(word_pattern1)  


#某类词出现的次数 
df['text'].str.count(word_pattern2)

在 EPU 的计算中，使用的是contains。另外即可以是

uncertainty_pattern = '不确定|不明确|波动|震荡|动荡|不稳|未明|不明朗|不清晰|未清晰|难料|难以预料|难以预测|难以预计|难以估计|无法预料|无法预测|无法预计|无法估计|不可预料|不可预测|不可预计|不可估计'


#每条新闻是否出现 uncertainty_pattern ， 出现True，不出现False
df['text'].str.contains(uncertainty_pattern)

Run

0          False
1          False
2          False
3          False
4          False
           ...  
2014656    False
2014657    False
2014658    False
2014659    False
2014660    False
Name: text, Length: 2014661, dtype: bool

通过加总True的个数，得到出现 uncertainty_pattern 的新闻记录数

df['text'].str.contains(uncertainty_pattern).sum()

Run

2.4 布尔值的计算

逻辑且 操作，

economic_pattern = '经济|金融'
uncertainty_pattern = '不确定|不明确|波动|震荡|动荡|不稳|未明|不明朗|不清晰|未清晰|难料|难以预料|难以预测|难以预计|难以估计|无法预料|无法预测|无法预计|无法估计|不可预料|不可预测|不可预计|不可估计'
policy_pattern = '政策|制度|体制|战略|措施|规章|规例|条例|政治|执政|政府|政委|国务院|人大|人民代表大会|中央|国家主席|总书记|国家领导人|总理|改革|整改|整治|规管|监管|财政|税|人民银行|央行|赤字|利率'
    
economic_mask = df['text'].fillna('').str.contains(economic_pattern)
policy_mask = df['text'].fillna('').str.contains(policy_pattern)
uncertainty_mask = df['text'].fillna('').str.contains(uncertainty_pattern)


print('enconomic新闻条数: ', economic_mask.sum())
print('policy新闻条数: ', policy_mask.sum())
print('uncertainty新闻条数: ', uncertainty_mask.sum())

print()

print('enconomic&policy同时出现条数: ', (economic_mask & policy_mask).sum())
print('enconomic&policy&uncertainty同时出现条数: ', (economic_mask & policy_mask & uncertainty_mask).sum())

Run

enconomic新闻条数:  617182
policy新闻条数:  1246681
uncertainty新闻条数:  56358

enconomic&policy同时出现条数:  510791
enconomic&policy&uncertainty同时出现条数:  34332

三、EPU计算函数

有了以上基本知识，就可以使用大邓设计的 cal_epu_index 函数，该函数可针对任意一个新闻数据(csv格式) 计算 EPU 。

需要注意，因为是对一个媒体进行计算，所以没有进行标准化和归一化。

所以媒体1、媒体2计算得到的两个 epu1、epu2 进行数值大小的比较是没有意义的。如果你有多个媒体，计算得到多个 epu1 、epu2、 epu3，想计算 mean_epu , 那么记得实现论文算法里的 step4，再执行 step5 求均值。

def cal_epu_index(csvf, freq='M'):
    """
    csvf  新闻csv文件的位置， 含date和text两个字段，每行是一条新闻
    freq  epu的粒度， 年Y、月M、日D
    
    #economic、uncertainty、policy整理自
    #Huang, Yun, and Paul Luk. "Measuring economic policy uncertainty in China." China Economic Review 59 (2020): 101367
    
    返回dataFrame, 含字段date和epu
    """
    import pandas as pd
    economic_pattern = '经济|金融'
    uncertainty_pattern = '不确定|不明确|波动|震荡|动荡|不稳|未明|不明朗|不清晰|未清晰|难料|难以预料|难以预测|难以预计|难以估计|无法预料|无法预测|无法预计|无法估计|不可预料|不可预测|不可预计|不可估计'
    policy_pattern = '政策|制度|体制|战略|措施|规章|规例|条例|政治|执政|政府|政委|国务院|人大|人民代表大会|中央|国家主席|总书记|国家领导人|总理|改革|整改|整治|规管|监管|财政|税|人民银行|央行|赤字|利率'
    
    df = pd.read_csv(csvf, compression='gzip')
    df['date'] = pd.to_datetime(df['date'])
    
    datas = []
    for date, period_df in df.groupby(pd.Grouper(key='date', freq=freq)):
        data = dict()
        data['date'] = date #month是datetime型日期，一般为每个月的最后一日
        economic_mask = period_df['text'].fillna('').str.contains(economic_pattern)
        policy_mask = period_df['text'].fillna('').str.contains(policy_pattern)
        uncertainty_mask = period_df['text'].fillna('').str.contains(uncertainty_pattern)

        #在出现经济词的新闻中，统计出现政策、不确定新的比例
        data['epu'] = (economic_mask & policy_mask & uncertainty_mask).sum() / economic_mask.sum()
        datas.append(data)
    raw_epu_df = pd.DataFrame(datas)
    return raw_epu_df

#人民日报
rmrb_EPU_df = cal_epu_index(csvf='rmrb.csv.gzip', freq='M')
rmrb_EPU_df

gmrb_EPU_df = cal_epu_index(csvf='gmrb.csv.gzip', freq='M')
gmrb_EPU_df

四、可视化

4.1 df.plot

df.plot使用的前提是要将日期字段调整为index, 满足下面形态的数据可以使用.plot绘图

rmrb_EPU_df.set_index('date')

rmrb_EPU_df.set_index('date').plot(figsize=(10, 5), title='EPU Index \nsource: China Renmin Daily News')

4.2 支持中文

支持中文的代码，无脑copy

import matplotlib.pyplot as plt
import matplotlib
import scienceplots
import platform
import matplotlib_inline
matplotlib_inline.backend_inline.set_matplotlib_formats('png', 'svg')

plt.style.use(['science', 'no-latex', 'cjk-sc-font'])
system = platform.system()  # 获取操作系统类型
if system == 'Windows':
    font = {'family': 'SimHei'}
elif system == 'Darwin':
    font = {'family': 'Arial Unicode MS'}
else:
    font = {'family': 'sans-serif'}
matplotlib.rc('font', **font)  # 设置全局字体



rmrb_EPU_df.set_index('date').plot(figsize=(10, 5))
plt.title('经济政策不确定性EPU \nsource: 人民日报', size=15)
plt.xticks(size=12)
plt.xlabel('年份', size=13)
plt.ylabel('EPU值', size=13)
plt.show()

4.3 比较两个媒体的走势

两个新闻媒体覆盖的时间段不同，

人民日报rmrb:       1946-05-15 ~ 2023-12-18
光明日报gmrb:       1985-01-01 ~ 2023-12-18

截取1985-01-01之后的数据，进行比较。

rmrb_EPU_df2 = rmrb_EPU_df[rmrb_EPU_df['date']>'1985-01-01']
gmrb_EPU_df2 = gmrb_EPU_df[gmrb_EPU_df['date']>'1985-01-01']


rmrb_EPU_df2.set_index('date').plot(figsize=(10, 5))
plt.title('月度经济政策不确定性EPU \nsource: 人民日报', size=15)
plt.xticks(size=12)
plt.xlabel('年份', size=13)
plt.ylabel('EPU值', size=13)
plt.show()

gmrb_EPU_df2.set_index('date').plot(figsize=(10, 5))
plt.title('月度经济政策不确定性EPU \nsource: 光明日报', size=15)
plt.xticks(size=12)
plt.xlabel('年份', size=13)
plt.ylabel('EPU值', size=13)
plt.show()