今天,我们开始学习pandas库。pandas库是python的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。pandas库在日常的工作和学习中,最经常使用的是像excel一样处理表格,但自动化功能比excel强太多。 pandas的两大主要数据结构 Series和DateFrame。Series 是一维数组,DateFram是二维数组,可以利用MultiIndex创建高维数组。 Series 是带标签的一维数组,可存储整数、浮点数、字符串、Python 对象等类型的数据。轴标签统称为索引,它由两部分组成。 index:索引标签 values:一组数据 创建列表可以用列表、字典或numpy库创建。 举例,用列表创建Series: import pandas as pda = ['今天','天气','很好','我要','出去','钓鱼']s = pd.Series(a) # 索引可以自定义,如果默认,则会自动从0递增。本例为默认索引。print(f'这是一个Series结构,左边一列是索引,右边一列是数据,底下是数据类型:\n{s}') 结果如下:
|
|