Pandas 是 Python 进行数据分析的基础包,基于 NumPy 构建,该工具是为了解决数据分析任务而创建的。 Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。 Pandas 提供了大量能使我们快速便捷地处理数据的函数和方法,它是使Python成为强大而高效的数据分析环境的重要因素之一。 ![]() Pandas 对象Pandas 本身的内容比较多,和 NumPy 的 关联也非常紧密。在这里我们主要讲常用的两个数据结构( DataFrame 和 Series )和相应的常用方法属性等。 在 Pandas 的数据结构中,数据对齐是内在的。标签(即索引)和数据之间的链接不会被破坏,除非显式地进行相关的操作。 import numpy as npimport pandas as pd ![]() 创建SeriesSeries数据结构是一种类似于一维数组的对象,是由一组数据(各种Numpy数据类型)以及一组与之相关的标签(即索引)组成。 多数情况下,Series数据结构是我们直接从DataFrame数据结构中截取出来的,但也可以自己创建Series。语法如下:
其中data可以是不同的内容:
index 是轴标签列表,根据不同的情况传入的内容有所不同。 由ndarray构建如果data是ndarray,则索引的长度必须与数据相同。如果没有入索引,将创建一个值为[0,...,len(data)-1]的索引。 # 字典创建组ser = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])sera 0.917929b 0.258390c 0.555353d 0.580499e -0.891361dtype: float64ser.indexIndex(['a', 'b', 'c', 'd', 'e'], dtype='object')pd.Series(np.random.randn(5))0 -0.0262951 -2.5755002 -0.1823573 -1.1033604 1.004719dtype: float64 由字典构建若data是一个dict,如果传递了索引,则索引中与标签对应的数据中的值将被列出。否则,将从dict的排序键构造索引(如果可能)。
由标量创建如果数据是标量值,则必须提供索引。将该值重复以匹配索引的长度。 pd.Series(5., index=['a', 'b', 'c', 'd', 'e'])a 5.0b 5.0c 5.0d 5.0e 5.0dtype: float64 除了上述之外,类ndarray的对象传入后也会转换为ndarray来创建Series。
Series 是 ndarray-likeSeries与ndarray非常相似,是大多数NumPy函数的有效参数。包括像切片这样的索引操作。 ser = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])sera -0.169449b 1.007466c -1.107287d -2.565809e 2.447240dtype: float64ser[0]-0.16944855423652594ser[:3]a -0.169449b 1.007466c -1.107287dtype: float64ser[ser > 0]b 1.007466e 2.447240dtype: float64ser[ser > ser.median()]b 1.007466e 2.447240dtype: float64ser[[4, 3, 1]]e 2.447240d -2.565809b 1.007466dtype: float64np.exp(ser)a 0.844130b 2.738652c 0.330454d 0.076857e 11.556404dtype: float64 Series 是 dict-likeSeries同时也像一个固定大小的dict,可以通过索引标签获取和设置值。
如果引用了未包含的标签,则会引发异常:使用get方法,未包含的索引则会返回None,或者特定值。和dict的操作类似。 print(ser.get('f'))Noneser.get('f', np.nan)nan 矢量化操作&标签对齐在进行数据分析时,通常没必要去使用循环,而是使用矢量化的操作方式。
Series和ndarray之间的一个主要区别是,Series之间的操作会自动对齐基于标签的数据。 ser[1:] + ser[:-1]a NaNb 2.014931c -2.214573d -5.131617e NaNdtype: float64 未对齐Series之间的操作结果将包含所涉及的索引的并集。如果在其中一个Seires中找不到标签,结果将被标记为NaN。 注意:通常不同索引对象之间的操作的默认结果产生索引的并集,以避免信息丢失。 因为尽管数据丢失,但拥有索引标签也可以作为计算的重要信息。当然也可以选择通过dropna功能删除丢失数据的标签。 属性名称属性。
在多数情况下,series名称会被自动分配,例如在获取1D切片的DataFrame时。这里需要注意的是,s和s2是指向不同的对象的。 s2 = s.rename('different')s20 0.5084071 0.3372922 -1.7799373 -1.8360194 0.534154Name: different, dtype: float64 通过索引属性获取索引。
索引对象也有一个name属性。 s.index.name = 'index_name'sindex_name0 0.5084071 0.3372922 -1.7799373 -1.8360194 0.534154Name: something, dtype: float64 通过值索引获取值。
![]() |
|