#导入数据 import pandas as pd from pyecharts import Line,Bar file='00000000.00000002.viewinfo.20181107.0001.txt' df = pd.read_table(file,sep='|',encoding='utf-8',low_memory=False,names = ['user_id','start_time','end_time','unknow','program_name','program_name']) #取节目name 41ec2519ae034a0ab4fae032 col1= ['program_name','program_name','start_time'] result = pd.DataFrame(df,columns = col1) #start_time和转化为日期时间类型 result.start_time = pd.to_datetime(result.start_time,format="%Y%m%d%H%M%S") #start_time只取小时 result.start_time = result.start_time.dt.hour #按照节目name,过滤出记录数最多的前20条节目 name = result.program_name.value_counts().head(20).index.tolist() #过滤出小时,从小到大排序 hour = result.start_time.drop_duplicates().sort_values(ascending = True) #双循环生成20个节目,每个小时的观看记录统计 data = {} for name_in in name: #销毁原df del df #用字典dict产生新的数据集 df = pd.DataFrame.from_dict(data) #相关性矩阵,结果保存到csv文件中 df.corr().to_csv('corr.csv') 查看csv文件,可以看出 HD-虎胆追凶 与 HD-西虹市首富 HD-笑傲江湖 HD-反贪风暴 的相关性比较高
与 1106电影双十一轮播HD 崇福视频 【梨园春】越剧:红楼梦选段(马晓伟) 1106影视双十一轮播HD
的相关性比较低。
>>> df.corr()[u'HD-笑傲江湖'] HD-虎胆追凶 1107电影双十一轮播HD HD-西虹市首富 1106电影双十一轮播HD 1102体育双十一轮播新HD 崇福视频 【梨园春】越剧:红楼梦选段(马晓伟) 1107影视双十一轮播HD 自驾游导航 新昌县村级便民服务和“三务”公开信息平台 HD-笑傲江湖 八方传奇HD(1) 1102体育双十一轮播HD HD-反贪风暴 哈皮父子 第二季HD (1) 1106影视双十一轮播HD 1107少儿双十一轮播HD |