用户收视数据简单分析

北方的白桦林 2019-02-03

展开全文

#导入数据
import pandas as pd
from pyecharts import Line,Bar
file='00000000.00000002.viewinfo.20181107.0001.txt'
df = pd.read_table(file,sep='|',encoding='utf-8',low_memory=False,names = ['user_id','start_time','end_time','unknow','program_name','program_name'])

#取节目name 41ec2519ae034a0ab4fae0328559a642，产生新的三列数据集
col1= ['program_name','program_name','start_time']
result = pd.DataFrame(df,columns = col1)

#start_time和转化为日期时间类型
result.start_time = pd.to_datetime(result.start_time,format="%Y%m%d%H%M%S")
#start_time只取小时
result.start_time = result.start_time.dt.hour

#按照节目name，过滤出记录数最多的前20条节目
name = result.program_name.value_counts().head(20).index.tolist()

#过滤出小时，从小到大排序
hour = result.start_time.drop_duplicates().sort_values(ascending = True)

#双循环生成20个节目，每个小时的观看记录统计
data = {}
for name_in in name:
    #每个节目的统计值，一个list
    list = []
    #按照节目name过滤
    temp1 = result[(result.program_name==name_in)]
    for hour_in in hour:
        #按照每个小时进行统计
        count = temp1[temp1.start_time == hour_in].shape[0]
       #添加到列表list中
        list.append(count)
   #print(name_in,list)
    #添加到字典dict中
   data[name_in] = list

#销毁原df
del df

#用字典dict产生新的数据集
df = pd.DataFrame.from_dict(data)
#相关性矩阵，结果保存到csv文件中
df.corr().to_csv('corr.csv')

查看csv文件，可以看出 HD-虎胆追凶与 HD-西虹市首富 HD-笑傲江湖 HD-反贪风暴的相关性比较高

与 1106电影双十一轮播HD 崇福视频【梨园春】越剧：红楼梦选段（马晓伟） 1106影视双十一轮播HD 的相关性比较低。

#只显示"HD-笑傲江湖"与其他节目的相关系数
>>> df.corr()[u'HD-笑傲江湖']
HD-虎胆追凶                 0.924045
1107电影双十一轮播HD           0.465581
HD-西虹市首富                0.833179
1106电影双十一轮播HD          -0.598264
1102体育双十一轮播新HD          0.184717
崇福视频                    0.190556
【梨园春】越剧：红楼梦选段（马晓伟）      0.282720
1107影视双十一轮播HD           0.448555
自驾游导航                  -0.139377
新昌县村级便民服务和“三务”公开信息平台    0.465066
HD-笑傲江湖                 1.000000
八方传奇HD(1)               0.198282
1102体育双十一轮播HD           0.374844
HD-反贪风暴                 0.947605
哈皮父子第二季HD (1)          0.444558
1106影视双十一轮播HD          -0.616792
1107少儿双十一轮播HD           0.435984
HD-药仙                   0.728783
杀寇决HD(01)               0.400877
正阳门下小女人HD(1)            0.461062
Name: HD-笑傲江湖, dtype: float64

#计算'HD-笑傲江湖'与'HD-反贪风暴'的相关系数
>>> df[u'HD-笑傲江湖'].corr(df[u'HD-反贪风暴'])

0.9476048045724308