python数据存储系列教程

rcylbx 2018-12-09

展开全文

1、使用回车换行（两个字符）作为行分隔符，最后一行数据可以没有这两个字符。

2、标题行是否需要，要双方显示约定

3、每行记录的字段数要相同，使用逗号分隔。逗号是默认使用的值，双方可以约定别的。 

4、任何字段的值都可以使用双引号括起来. 为简单期间，可以要求都使用双引号。

5、字段值中如果有换行符，双引号，逗号的，必须要使用双引号括起来。这是必须的。

6、如果值中有双引号，使用一对双引号来表示原来的一个双引号1
2
3
4
5
6
7
8
9
10
11

csv文件可以使用记事本或excel软件打开，excel软件会自动按照csv文件规则加载csv文件。

上面第5条：例如某一行如下
12,aa,”12,aa”
它表示了3列，第1列为“12”字符串，第2列为“aa”字符串，第3列为“12,aa”字符串。

另外需要说明的是写入writer.writerow()函数接收的是列表参数，无论是什么数据都会先迭代转化为列表再一次打印输出。所以当传入字符串时。例如’aaaaa’，函数内部会先叠在成[‘a’,’a’,’a’,’a’,’a’]再打印输出，所以在csv中结果就会是’a’,’a’,’a’,’a’,’a’

csv模块读写csv文件

使用python3.6环境测试，python读写csv文件

import csv



print("=============python操作csv文件=================")

#将要存储的数据
DATA = (
    (11, '12', '32——1'),
    (21, '22', '22——1, 22——2',),
    (31, '32', '32——1, 32——2,'),
)

#将数据写到csv
f = open('test.csv', mode='w',encoding='gbk',newline='')   #mode写入模式，采用b的方式处理可以省去很多问题。encoding编码。newline=''定义文档换行符
writer = csv.writer(f)  #获取输出数据流
for record in DATA:   #遍历写入每一行
#csv模块会将所有要写入的对象转化为字符串再写入。若转化后的字符串中不包含分割符（默认逗号）,则写入文件中字符串不包含""。若转化后的字符串中包含分割符（默认逗号），则写入文件中字符串包含""
    writer.writerow(record)  #按行写入文件，会自动将元素对象转化为字符串。写完一行就会添加一个newline换行符。若采用b模式写入，只能写入字节流。
f.close()



#读取csv
f = open('test.csv',mode='r',encoding='gbk')   #mode读取模式，采用b的方式处理可以省去很多问题，encoding编码方式
reader = csv.reader(f)  #获取输入数据。把每一行数据转化成了一个list，list中每个元素是一个字符串
for row in reader:  #按行读取文件。一行读取为字符串，在使用分割符（默认逗号）分割成字符串列表，对于包含逗号，并使用""标志的字符串不进行分割
     print(row)
     print(type(row))
f.close()

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32

pandas读写csv文件

除了使用csv模块，还可以使用pandas模块。

read_csv函数包含很多参数，用于控制读取csv文件。

filepath_or_buffer   表示文件系统位置、URL、文件型对象的字符串
sep=sep,  用于对行中各字段进行拆分的字符序列或正则表达式
delimiter=None,

# 列和行的索引和名称
header='infer',用作列名的行号，默认为0，如果没有header行就应该设置为None
names=None,  用于结果的列名列表，结合header=None
index_col=None, 用作行索引的列编号或列名。可以是单个名称/数字或由多个名称/数字组成的列表（层次化索引）
usecols=None,
squeeze=False, 如果数据经解析后仅含一列，则返回Series
prefix=None,
mangle_dupe_cols=True,

# 解析配置
dtype=None,
engine=None,
converters=None, 由列号/列名跟函数之间的映射关系组成的字典。例如{'foo':f}会对foo列的所有值应用函数f
true_values=None,
false_values=None,
skipinitialspace=False,
skiprows=None,  需要忽略的行数（从文件开始处算起），或需要跳过的行号列表（从0开始）
nrows=None,  需要读取的行数

# 缺失数据的处理
na_values=None, 一组用于替换NA的值
keep_default_na=True, 如果连接多列解析日期，则保持参与连接的列，默认为False
na_filter=True,  
verbose=False,  打印各种解析器输出信息
skip_blank_lines=True,

# 时间处理
parse_dates=False,  是否尝试将数据解析为日期，默认为False
infer_datetime_format=False,
keep_date_col=False,  如果连接多列解析日期，则保持参与连接的列。默认为False
date_parser=None,  用于解析日期的函数
dayfirst=False,  当解析有歧义的日期时，将其看做国际格式（例如，7/6/2012 -> June 7,2014）。默认为False

# 迭代
iterator=False,  返回一个TextParser以便逐块读取文件
chunksize=None,  文件块的大小（用于迭代）

# 引用压缩文件格式
compression='infer',
thousands=None,  千分位分隔符
decimal=b'.',
lineterminator=None,
quotechar='"',
quoting=csv.QUOTE_MINIMAL,
escapechar=None,
comment=None,  用于将注释信息从行尾拆分出去的字符（一个或多个）
encoding=None,  用于unicode的文本编码格式
dialect=None,
tupleize_cols=False,

# 错误处理
error_bad_lines=True,
warn_bad_lines=True,

skipfooter=0,  需要忽略的行数（从文件末尾算起）
skip_footer=0,  # deprecated

# 内置属性
doublequote=True,
delim_whitespace=False,
as_recarray=False,
compact_ints=False,
use_unsigned=False,
low_memory=_c_parser_defaults['low_memory'],
buffer_lines=None,
memory_map=False,
float_precision=None1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71

还是在python3.6环境下

print("==============pandas操作csv文件==================")
import pandas as pd
#pandas将数据写入csv文件
DATA = {
    'english': ['one','two','three'],
    'number': [1,2,3]
}
save = pd.DataFrame(DATA,index=['row1','row2','row3'],columns=['english','number'])
print(save)
save.to_csv('test1.csv',sep=',')



#pandas读取csv
# sep分隔符，encoding编码header=None自动列名，names自定义列名，index_col作为行索引的列（主键）,skiprows跳过行索引,na_values缺失值的替代字符串
df = pd.read_csv('test1.csv',sep=',',encoding='gbk',names=['column1','column2','column3'],index_col=['column1'],skiprows=[0],na_values=['NULL'])
print(df)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18