分享

[数据处理] 有了这篇教程,SIPO小伙伴再也不怕倒腾数据啦

 紫风铃依然 2016-09-07


通常,外网的商业专利数据库下载的数据都是xls格式的,方便又好用,而SIPO小伙伴们遇到的头疼问题是,内网检索系统下载下来的数据大部分都是txt文档的。


因此,今天的教程主要为了解决SIPO小伙伴的问题:如何将txt格式的数据转换成xls格式的数据。不过里面涉及的方法、技巧是通用的,其他小伙伴也可以参考参考哦。


SIPO审查员使用的检索系统,数据全且准确,检索入口及工具也相当丰富,同时具有非常友好的图文浏览界面,再加上审查员无与伦比的检索能力,完成一个数据全且准的专利分析检索是没有任何问题的。但这些系统很多只能下载txt格式的数据,就像这样:



或者这样:



如何将txt数据转换成xls格式的数据,以便利用Excel的功能进行数据分析呢?像下面这样:



Step1 分析XLS数据的格式

首先,我们来看看xls格式的专利数据的具体格式。


操作:新建word文档,复制xls数据,将其选择性粘贴为无格式文本,点击“显示编辑标记”(快捷键ctl+*),可以发现,xls数据借助制表符^t实现分列,借助回车^p实现换行。



因此,txt转xls的思路是:

  • 每条专利数据的各字段之间用制表符^t间隔;

  • 每条专利数据之间用回车^p间隔



STEP 2 用Word打开TXT文件

用WORD打开得到下面的数据:




STEP 3 将需要分列和换行的地方分别替换为^t和^p

替换步骤如下:

(1)    所有回车替换为分号

(2)    ··········替换为无

(3)    AP······-·替换为制表符^t

(4)    依次替换PA、IN……等

(5)    ^#^#^#/623····DWPI;替换为回车^p(其中^#表示任意一个数字)

(6)    ^#^#/623····DWPI;替换为回车^p

(7)    ^#/623····DWPI;替换为回车^p


注意:替换的顺序有讲究,请大家自行动手体会。


小技巧:可复制上述元素进行替换


最后将WORD再次存成TXT文件



STEP4 在EXCEL中的操作

将上述txt文档用excel打开。


由于之前我们在替换过程中将AP、PA、IN等字段全部都替换成了^t,因此在excel中打开的时候,这些专利数据是没有著录项目的,就像下图:

因此,我们还需要对照原来的txt文件中著录项目的顺序,给这些数据添加著录项目的表头。


需要注意的是,有一些文献可能由于某些著录项目的缺失,会导致导入excel的数据著录项目没有对齐,这个需要大家在成功生成excel的时候再检查一下。

另一种替换方法

为了核对方便,你也可以在替换的时候将“AP······-·替换为“^t AP-”,这样最后生成的excel就是下面这样的前面自带著录项目的,方便核对。


然后再分列,加表头就OK了。
 
 
 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多