Kaggle是个很棒的地方,对于数据科学家和机器学习工程师来说,这是一个知识的金矿。可以在同一地点找到由本领域专家带来的高质量,高效,可重现,很棒的代码。自推出以来,它已经举办了164场比赛。这些比赛吸引了来自世界各地的专家和专家加入该平台。结果,每场比赛以及Kaggle提供的大量开源数据集都有许多高质量的笔记本和脚本。 在数据科学之旅的开始,我将去Kaggle查找数据集以练习我的技能。每当我查看其他内核时,我都会对代码的复杂性感到不知所措,然后马上回避。 但是现在,我发现自己花费了大量时间阅读其他笔记本并提交竞赛文件。有时候,有些东西值得您度过整个周末。有时,我会发现简单但致命的有效代码技巧和最佳实践,这些技巧和最佳实践只能通过观察其他专家来学习。 在整个系列中,您会发现我在典型的数据科学工作流程中可能有用的任何内容,包括与通用库相关的代码快捷方式,Kaggle的顶级行业专家遵循的最佳实践等,这些都是我在学习过程中学到的。 1. 只绘制相关系数矩阵的下三角部分好的相关矩阵可以说明数据集中目标变量之间的相关性 import pandas as pd import seaborn as sns 但上图中,数据集中存在大量的特征,导致相似矩阵过于庞大,让人看起来不知所措。 相关矩阵大部分沿主对角线对称,因此它们包含重复数据。同样,对角线本身也没有用。让我们看看如何只绘制有用的一半: import numpy as np 由此产生的可视化图更容易解释并且没有视觉干扰干扰。
np.ones((5, 5)) array([[1., 1., 1., 1., 1.], np.ones_like(np.ones((4, 4)), dtype=bool) array([[ True, True, True, True], 将布尔方阵传递给Numpy的.triu函数,该函数将返回一个二维布尔蒙版,其中包含矩阵下三角的False值。 np.triu(np.ones_like(np.ones((4, 4)), dtype=bool)) array([[ True, True, True, True], [False, True, True, True], [False, False, True, True], [False, False, False, True]]) 然后,我们可以将其传递给Seaborn的heatmap函数,以根据此蒙版对矩阵进行可视化 ns.heatmap(matrix, mask=mask, center=0, annot=True, fmt='.2f', square=True, cmap=cmap) 2. value_counts考虑缺失值使用value_counts时,可将dropna设置为False来查看任何列中缺失值的比例。通过确定缺失值的比例,可以决定是否丢弃含有缺失值的记录。 #字段CouncilArea的数据分布情况 df.CouncilArea.value_counts(dropna=False, normalize=True).head() Boroondara City Council 0.105431 Darebin City Council 0.081791 Moreland City Council 0.060877 Glen Eira City Council 0.057549 Melbourne City Council 0.056000 Name: CouncilArea, dtype: float64 但是,如果要查看所有列中缺失值的比例,则value_counts不是最佳选择。相反,您可以执行以下操作:
missing_props = df.isna().sum() / len(df) missing_props[missing_props > 0].sort_values(ascending=False) BuildingArea 0.605761 YearBuilt 0.553863 Landsize 0.338813 Car 0.250394 Bathroom 0.235993 Bedroom2 0.235735 Longtitude 0.228821 Lattitude 0.228821 Price 0.218321 Propertycount 0.000086 Regionname 0.000086 CouncilArea 0.000086 Postcode 0.000029 Distance 0.000029 dtype: float64 3. 使用Pandas的Styler我们中的许多人从未意识到pandas的巨大潜力。pandas的一个被低估且经常被忽视的功能是其对DataFrames进行样式设置的能力。使用pandas DataFrames的.style属性,可以将条件设计和样式应用于它们。 作为第一个示例,让我们看看如何根据每个单元格的值来更改背景颜色: diamonds = pd.read_csv('data/diamonds.csv') diamonds.head() pd.crosstab(diamonds.cut, diamonds.clarity).style.background_gradient(cmap='rocket_r') 几乎没有使用Seaborn的热图功能的热图。在这里,我们使用pd.crosstab对钻石切割(cut)和净度(clarity)的每种组合进行计数。 将.style.background_gradient与调色板配合使用,您可以轻松地发现哪种组合出现得最多。仅从上面的DataFrame中,我们可以看到大多数钻石都是“ VS2”净度类型。 我们甚至可以通过在交叉表中找到每种钻石切割cut和净度clarity组合的平均价格来进一步做到这一点: pd.crosstab(diamonds.cut, diamonds.clarity, aggfunc=np.mean, values=diamonds.price).style.background_gradient(cmap='rocket_r') 通过将.format方法与格式字符串{:.2f}链接起来,我们指定了2个浮点数的精度。 agg_prices = pd.crosstab(diamonds.cut, diamonds.clarity, aggfunc=np.mean, values=diamonds.price).style.background_gradient(cmap='rocket_r') agg_prices.format('{:.2f}') 4. matplotlib默认全局设置在进行探索性数据分析时,您可能想对所有绘图应用自定义调色板,对刻度标签使用更大的字体,更改图例的位置,使用固定的图形大小等。 对绘图自定义参数的更改是一项非常无聊,重复且耗时的任务。幸运的是,您可以使用Matplotlib的rcParams为绘图设置全局配置。 rcParams只是一个普通的Python字典,其中包含Matplotlib的默认设置: from matplotlib import rcParams RcParams({'_internal.classic_mode': False, 您可以调整每个图的任意参数设置,一般的图像设置如固定图形大小,刻度标签字体大小以及其他一些参数。 通过这种设置,可以减少很多重复的代码量 # 去掉顶部和右侧的线条Remove top and right spines 5. Pandas全局设置就像Matplotlib一样,pandas具有可以使用的全局设置。当然,它们大多数与显示选项有关。
#最大显示的列数 我更喜欢显示所有的列,lets go pd.set_option('display.max_columns', None) 本文代码可到 github 中下载, https://github.com/thunderhit/DaDengAndHisPython 扫码免费领1万代理IP,高并发不限制,稳定速度快,快去薅羊毛吧! 精选文章
|
|