记录一下使用Python进行的单变量回归分析的操作流程。另外推荐一个sklearn机器学习的哔哩哔哩视频(文末阅读原文,进行观看)。 python不像R中,默认的函数可以做回归分析 「statsmodels包介绍:」 statsmodels官方文档:https://www./stable/
「sklearn包介绍:」 sklearn官方文档:https:///stable/
「来自R语言用户转python数据分析的毒打」 ❝ 「sklearn机器学习的一般流程包括:」
「进入正题」 这里,使用Python中的statsmodels和sklearn进行回归分析。 1. 数据来源:womenwomen是R中的一个数据集,我们把它保存到csv文件中: > data(women) 「数据预览:」 2. statsmodels的矩阵的形式❝ import pandas as pd 「代码思路:」
结果:结果可以看出,截距为-87.5167,回归系数为3.45,两者都达到极显著水平。R方为0.991,调和R方为0.990. 3. statsmodels的formula的形式❝ import statsmodels.formula.api as smf 结果:可以看出,formula和前者的结果完全一致。 4. sklearn的形式❝ from sklearn.linear_model import LinearRegression 「结果:」结果可以看出,回归系数和截距和之前的分析完全一致。 「一个坑:」
re = sm.OLS(y,X1).fit() # 注意,这里y在前面,X在后面 但是 re = mod.fit(X1,y) # 注意,这里X在前面,y在后面。 5. R语言作为对比> mod = lm(weight ~ height ,data=women) 结果: 可以看出,截距为-87.51667,回归系数为3.45,R方为0.991,调和R方为0.9903,和之前的结果完全一致。 6. sklearn用于GWAS和GS的实施sklearn中机器学习的应用,非常具有代表性,这里总结sklearn拟合模型三部曲:
「以回归分析为例,sklearn是这样做的:」 from sklearn.linear_model import LinearRegression # 载入回归分析 上面是回归分析,也可以很容易的变为随机森林,决策树之类的方法,举一反三的感觉不要太爽喔! 「然后呢?GWAS和GS什么鬼?」 然后我就想到,通过这种形式去将GWAS和GS的分析放进去,像GS也包括贝叶斯啊,岭回归啊(RRBLUP),参考群,候选群,交叉验证之类的概念,本质上也是机器学习的一种形式,通过这种形式调用,包括后面什么卷积神经网络等前沿性的算法考虑在内,然后封装成一个库,对外提供接口API,提供参考群数据,预测候选群,然后跑各种各样的模型,出一个最优模型的结果,前景不要太美好……哈哈哈…… ❝ 7. 怎么能少得了哔哩哔哩?「推荐书籍」,之前写了一篇西瓜书的读后感:如何学习GWAS以及安利西瓜书,没有给出书名,差评!这里贴出书名,据说网上有电子版的,但是对于买书当作防身的我,纸质书还是更有安全感。 上面这两本书,我是在哔哩哔哩上面,看到这个up主推荐的,她是个妹子,还把课讲得这么好,不推荐良心很痛的…… 「快来关注我吧,看我是如何在进军机器学习的路上:」
|
|