最近科室上级老师发了一张图片给我,想要激励我努力学习。我一看,光荣榜,四川大学华西临床医学院的两位今年毕业的8年制博士,估计也就26岁吧。 再仔细一看,妈呀,每个人读书期间都发了30-40篇SCI了,还有一堆奖学金和学术头衔。还好自己不再那么年轻,要是在当年,我还不得熬夜几天几夜,来研究如何发SCI,然后,然后无功而返,就放弃了。。 现在随着年龄的增长,心态也要平和很多,这种心态变化并不是一件好事,丧失了年轻时的那般激情。尽管我现在还没有一篇SCI,但我心里想哇,跟随自己的内心,按部就班的把事情做好,可能速度要慢一点。别人再怎么厉害,跟我没关系,我要做的就是每周都能看到自己在进步,这就够了。 感慨完了,那就开始总结吧。 打开STATA并导入EXCEL数据 本周的收获是关于处理从SEER数据库里下载的数据,利用STATA软件来对数据处理。前面一篇是关于EXCEL来处理数据,发现虽然上手快,但速度要慢一点;而用STATA上手稍慢点,但处理速度要快得多,而且很简洁。关于STATA安装问题,在百度下搜索,下载无脑安装就可以了。 打开STATA,页面如下: 拿我们上周从数据库里下载的数据来举例。 我们需要将以上EXCEL表导入STATA中,步骤如下: 以上图片显示EXCEL导入成功。 STATA处理数据 1 我们的目标时将EXCEL里的性别、种族、分化程度、T分期、N分期、M分期六个变量全部用数字代替,并且删除一些无效数据。 例如第一个变量,Sex,用'1'表示'Male',用'2'表示'Female',用STATA操作,以下是编写命令的过程: 第一步:输入以下命令 gen gender =9 这里的意思是在STATA里生成一个新的变量,并将所有患者默认值为9,在SEER数据库里“9”代表未知的意思。(备注:以上命令包括以下所有命令中的符号是全英文下的状态,不会软件运行会报错。) 第二步:然后再输入以下命令 replace gender =1 if strmatch(Sex, '*Male*') replace gender =2 if strmatch(Sex, '*Female*') 意思就是抓取Sex里的'Male'、'Female'字眼,并分别将他们赋值为:'1'、'2'保存到之前生成的gender的变量里面。 如图所示,连个命令可以同时输入,再enter 打开中间靠右的Data Browser,将表格拖到最右边,如下图。 这里的gender数值意义就是将Sex里的'Male'、'Female'全部用'1'、'2'表示,一步到位,避免EXCEL的筛选步骤的繁琐。 2 第二个变量,race,我们用'1'表示'White',用'2'表示'Black', 用'3'表示'Other', 同样,首先生成一个新的变量: gen race =9 然后再输入以下命令 replace race=1 if strmatch(RacerecodeWhiteBlackOther, '*White*') replace race=2 if strmatch(RacerecodeWhiteBlackOther, '*Black*') replace race=3 if strmatch(RacerecodeWhiteBlackOther, '*Other*') 如下图所示: race下面的'1'、'2'、'3'分别代表'White'、'Black'、'Other' 我们可以观察下这个race下面的数据分布情况, 输入命令:tab race 如下图。 从这里我们可以看到各个种族的例数及比例分布,其中的'9'还有129例代表的是'unknown',我们可以一个命令(drop if race ==9)就可以把这129例患者资料删除,如下图。 3 STATA还有一个最大的厉害之处就是我们处理数据之前,可以把我们要处理的变量在TXT文档里把全部命令写好,然后在粘贴复制到STATA里,一秒钟处理全部数据,比上一系列文章中的EXCEL处理快太多。 再在Data Browser里查看,如下图。 再从STATA里将处理完的数据全部导出至EXCEL里,同导入方式,导出结果如下图。 这就是利用STATA高效处理数据全过程。 记得一句话“快就是慢,慢就是快”,对于数据的处理,利用EXCEL和STATA处理数据看个人选择,经过我自己亲自实操的感受来看,我认为STATA要好太多。如果谁需要相关命令的模版,私信我。 用了5个系列将SEER数据库从入门到提取数据,再到处理数据,接下来我会继续研究关于数据分析这块,距离发一篇SCI又近了一步,哈哈。 累了,渴了,来碗毒鸡汤:你必须不停地奔跑,才能留在原地。 ———— e n d ———— |
|