分享

python 模块之 codecs 使用

 雪柳花明 2017-07-06
# -*- coding: utf-8 -*-

from __future__ import print_function

import codecs

# codecs提供的open方法来指定打开的文件的语言编码,它会在读取的时候自动转换为内部unicode
coder=codecs.open('/home/dms/PycharmProjects/transformer/preprocessed/de.vocab.tsv', 'r', 'utf-8')
print (type(coder))#<type 'instance'>

reader=coder.read()
print (type(reader))#<type 'unicode'>

vocablist=reader.splitlines()
print (type(vocablist))

vv=[]
for line in vocablist:
#line.split() u'<PAD>' u'1000000000'
#line为读取一行的内容,然后split,分列
if int(line.split()[1]) >= 20:
vv.append(line.split()[0])



#上面的好几行代码,等同下面的一句
vocab = [line.split()[0] for line in codecs.open('/home/dms/PycharmProjects/transformer/preprocessed/de.vocab.tsv', 'r', 'utf-8').read().splitlines()
if int(line.split()[1])>=20]

if vv==vocab:
print ("相等")

 文件路径:
 


de.vocab.tsv文件内容:
 




    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多