数据分析实战

imelee 2017-06-07

展开全文

        在使用pandas框架的DataFrame的过程中，如果需要处理一些字符串的特性，例如判断某列是否包含一些关键字，某列的字符长度是否小于3等等这种需求，如果掌握str列内置的方法，处理起来会方便很多。

        下面我们来详细了解一下，Series类的str自带的方法有哪些。

1、cat() 拼接字符串

        例子：

        >>> Series(['a', 'b', 'c']).str.cat(['A', 'B', 'C'], sep=',')

        0 a,A

        1 b,B

        2 c,C

        dtype: object

        >>> Series(['a', 'b', 'c']).str.cat(sep=',')

        'a,b,c'

        >>> Series(['a', 'b']).str.cat([['x', 'y'], ['1', '2']], sep=',')

        0    a,x,1

        1    b,y,2

        dtype: object

2、split() 切分字符串

        >>> import numpy,pandas;

        >>> s = pandas.Series(['a_b_c', 'c_d_e', numpy.nan, 'f_g_h'])

        >>> s.str.split('_')

        0    [a, b, c]

        1    [c, d, e]

        2          NaN

        3    [f, g, h]

        dtype: object

        >>> s.str.split('_', -1)

        0    [a, b, c]

        1    [c, d, e]

        2          NaN

        3    [f, g, h]

        dtype: object

        >>> s.str.split('_', 0)

        0    [a, b, c]

        1    [c, d, e]

        2          NaN

        3    [f, g, h]

        dtype: object

        >>> s.str.split('_', 1)

        0    [a, b_c]

        1    [c, d_e]

        2         NaN

        3    [f, g_h]

        dtype: object

        >>> s.str.split('_', 2)

        0    [a, b, c]

        1    [c, d, e]

        2          NaN

        3    [f, g, h]

        dtype: object

        >>> s.str.split('_', 3)

        0    [a, b, c]

        1    [c, d, e]

        2          NaN

        3    [f, g, h]

        dtype: object

3、get()	获取指定位置的字符串

        >>> s.str.get(0)

        0      a

        1      c

        2    NaN

        3      f

        dtype: object

        >>> s.str.get(1)

        0      _

        1      _

        2    NaN

        3      _

        dtype: object

        >>> s.str.get(2)

        0      b

        1      d

        2    NaN

        3      g

        dtype: object

4、join() 对每个字符都用给点的字符串拼接起来，不常用

        >>> s.str.join("!")

        0    a!_!b!_!c

        1    c!_!d!_!e

        2          NaN

        3    f!_!g!_!h

        dtype: object

        >>> s.str.join("?")

        0    a?_?b?_?c

        1    c?_?d?_?e

        2          NaN

        3    f?_?g?_?h

        dtype: object

        >>> s.str.join(".")

        0    a._.b._.c

        1    c._.d._.e

        2          NaN

        3    f._.g._.h

        dtype: object

5、contains()	是否包含表达式

        >>> s.str.contains('d')

        0    False

        1     True

        2      NaN

        3    False

        dtype: object

6、replace()	替换

        >>> s.str.replace("_", ".")

        0    a.b.c

        1    c.d.e

        2      NaN

        3    f.g.h

        dtype: object

7、repeat()	重复

        >>> s.str.repeat(3)

        0    a_b_ca_b_ca_b_c

        1    c_d_ec_d_ec_d_e

        2                NaN

        3    f_g_hf_g_hf_g_h

        dtype: object

8、pad()	左右补齐

		>>> s.str.pad(10, fillchar="?")

		0    ?????a_b_c

		1    ?????c_d_e

		2           NaN

		3    ?????f_g_h

		dtype: object

>>>

		>>> s.str.pad(10, side="right", fillchar="?")

		0    a_b_c?????

		1    c_d_e?????

		2           NaN

		3    f_g_h?????

		dtype: object

9、center() 中间补齐，看例子

		>>> s.str.center(10, fillchar="?")

		0    ??a_b_c???

		1    ??c_d_e???

		2           NaN

		3    ??f_g_h???

		dtype: object

10、ljust() 右边补齐，看例子

		>>> s.str.ljust(10, fillchar="?")

		0    a_b_c?????

		1    c_d_e?????

		2           NaN

		3    f_g_h?????

		dtype: object

11、rjust() 左边补齐，看例子

		>>> s.str.rjust(10, fillchar="?")

		0    ?????a_b_c

		1    ?????c_d_e

		2           NaN

		3    ?????f_g_h

		dtype: object

12、zfill()	左边补0

		>>> s.str.zfill(10)

		0    00000a_b_c

		1    00000c_d_e

		2           NaN

		3    00000f_g_h

		dtype: object

13、wrap()	在指定的位置加回车符号

		>>> s.str.wrap(3)

		0    a_b\n_c

		1    c_d\n_e

		2        NaN

		3    f_g\n_h

		dtype: object

14、slice() 按给点的开始结束位置切割字符串

		>>> s.str.slice(1,3)

		0     _b

		1     _d

		2    NaN

		3     _g

		dtype: object

15、slice_replace() 使用给定的字符串，替换指定的位置的字符

		>>> s.str.slice_replace(1, 3, "?")

		0    a?_c

		1    c?_e

		2     NaN

		3    f?_h

		dtype: object

		>>> s.str.slice_replace(1, 3, "??")

		0    a??_c

		1    c??_e

		2      NaN

		3    f??_h

		dtype: object

16、count()	计算给定单词出现的次数

		>>> s.str.count("a")

		0     1

		1     0

		2   NaN

		3     0

		dtype: float64

17、startswith()	判断是否以给定的字符串开头

		>>> s.str.startswith("a");

		0     True

		1    False

		2      NaN

		3    False

		dtype: object

18、endswith() 判断是否以给定的字符串结束

		>>> s.str.endswith("e");

		0    False

		1     True

		2      NaN

		3    False

		dtype: object

19、findall() 查找所有符合正则表达式的字符，以数组形式返回

		>>> s.str.findall("[a-z]");

		0    [a, b, c]

		1    [c, d, e]

		2          NaN

		3    [f, g, h]

		dtype: object

20、match()	检测是否全部匹配给点的字符串或者表达式

		>>> s

		0    a_b_c

		1    c_d_e

		2      NaN

		3    f_g_h

		dtype: object

		>>> s.str.match("[d-z]");

		0    False

		1    False

		2      NaN

		3     True

		dtype: object

21、extract()	抽取匹配的字符串出来，注意要加上括号，把你需要抽取的东西标注上

		>>> s.str.extract("([d-z])");

		0    NaN

		1      d

		2    NaN

		3      f

		dtype: object

22、len()	计算字符串的长度

		>>> s.str.len()

		0     5

		1     5

		2   NaN

		3     5

		dtype: float64 

23、strip() 去除前后的空白字符

		>>> idx = pandas.Series([' jack', 'jill ', ' jesse ', 'frank'])

		>>> idx.str.strip()

		0     jack

		1     jill

		2    jesse

		3    frank

		dtype: object

24、rstrip() 去除后面的空白字符

25、lstrip() 去除前面的空白字符

26、partition()	把字符串数组切割称为DataFrame，注意切割只是切割称为三部分，分隔符前，分隔符，分隔符后

27、rpartition()	从右切起

		>>> s.str.partition('_')

			 0    1    2

		0    a    _  b_c

		1    c    _  d_e

		2  NaN  NaN  NaN

		3    f    _  g_h

		>>> s.str.rpartition('_')

			 0    1    2

		0  a_b    _    c

		1  c_d    _    e

		2  NaN  NaN  NaN

		3  f_g    _    h

28、lower() 全部小写

29、upper() 全部大写

30、find() 从左边开始，查找给定字符串的所在位置

		>>> s.str.find('d')

		0    -1

		1     2

		2   NaN

		3    -1

		dtype: float64

31、rfind()	从右边开始，查找给定字符串的所在位置

32、index()	查找给定字符串的位置，注意，如果不存在这个字符串，那么会报错！

33、rindex()	从右边开始查找，给定字符串的位置

		>>> s.str.index('_')

		0     1

		1     1

		2   NaN

		3     1

		dtype: float64

34、capitalize()	首字符大写

		>>> s.str.capitalize()

		0    A_b_c

		1    C_d_e

		2      NaN

		3    F_g_h

		dtype: object

35、swapcase()	大小写互换

		>>> s.str.swapcase()

		0    A_B_C

		1    C_D_E

		2      NaN

		3    F_G_H

		dtype: object

36、normalize() 序列化数据，数据分析很少用到，咱们就不研究了

37、isalnum()	是否全部是数字和字母组成

		>>> s.str.isalnum()

		0    False

		1    False

		2      NaN

		3    False

		dtype: object

38、isalpha()	是否全部是字母

		>>> s.str.isalpha()

		0    False

		1    False

		2      NaN

		3    False

		dtype: object

39、isdigit()	是否全部都是数字

		>>> s.str.isdigit()

		0    False

		1    False

		2      NaN

		3    False

		dtype: object

40、isspace() 是否空格

		>>> s.str.isspace()

		0    False

		1    False

		2      NaN

		3    False

		dtype: object

41、islower()	是否全部小写

42、isupper() 是否全部大写

		>>> s.str.islower()

		0    True

		1    True

		2     NaN

		3    True

		dtype: object

		>>> s.str.isupper()

		0    False

		1    False

		2      NaN

		3    False

		dtype: object

43、istitle() 是否只有首字母为大写，其他字母为小写

		>>> s.str.istitle()

		0    False

		1    False

		2      NaN

		3    False

		dtype: object

44、isnumeric()	是否是数字

45、isdecimal()	是否全是数字

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： imelee > 《pandas》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

imelee

关注对话

TA的最新馆藏

[转] 髋伸受限托马斯测试
[转] 维生素B2缺乏是任何疾病的罪魁祸首
python函数传入数量可变参数
[转] 调节好微循环、改善生命营养
[转] 肩峰下撞击综合征
康复临床中处理肩关节活动受限思路

喜欢该文的人也喜欢更多

热门阅读换一换