共 28 篇文章 |
|
模型评估:了解模型对于数据集测试的得分。了解更多机器学习分类算法:KNN算法、逻辑回归算法、朴素贝叶斯算法、决策树模型、随机森林分类模型、GBDT模型、XGBoost模型、支持向量机模型等。了解更多机器学习回归算法:决策树模型、随机森林分类模型、GBDT模型、回归树模型、支持向量机模型等。复杂模型的对应的函数千奇百怪,毫无任何规则,但... 阅8 转0 评0 公众公开 23-04-03 08:24 |
import numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets.samples_generator import make_regression # X为样本特征,y为样本输出, coef为回归系数,共1000个样本,每个样本1个特征X, y, coef =make_regression(n_samples=1000, n_features=1,noise=10, coef=True)# 画图plt.scatter(X, y, color='''''&... 阅14 转0 评0 公众公开 23-03-12 10:34 |
这里有个 GitHub 项目整理了使用 Python 实现了 11 种经典的数据抽取(数据降维)算法,包括:PCA、LDA、MDS、LLE、TSNE 等,并附有相关资料、展示效果;哈尔滨工业大学计算机技术专业的在读硕士生 Heucoder 则整理了 PCA、KPCA、LDA、MDS、ISOMAP、LLE、TSNE、AutoEncoder、FastICA、SVD、LE、LPP 共 12 种经典的降维算法,并提供了相关资料、... 阅8 转0 评0 公众公开 23-03-03 11:19 |
模型评估:了解模型对于数据集测试的得分。了解更多机器学习分类算法:KNN算法、逻辑回归算法、朴素贝叶斯算法、决策树模型、随机森林分类模型、GBDT模型、XGBoost模型、支持向量机模型等。了解更多机器学习回归算法:决策树模型、随机森林分类模型、GBDT模型、回归树模型、支持向量机模型等。复杂模型的对应的函数千奇百怪,毫无任何规则,但... 阅33 转0 评0 公众公开 23-03-03 08:24 |
在二叉树中可以通过利用叶节点的父节点和相邻节点的直方图的相减来获得该叶节点的直方图所以仅仅需要为一个叶节点建立直方图 (其 #data 小于它的相邻节点)就可以通过直方图的相减来获得相邻节点的直方图,而这花费的代价(O(#bins))很小。*不同于“整合所有本地直方图以形成全局直方图”的方式,LightGBM 使用分散规约(Reduce scatter)的方式,... 阅48 转0 评0 公众公开 23-02-27 15:21 |
而xgboost中,我们则是把损失函数的二阶泰勒展开的差值作为学习目标,相当于利用牛顿法进行优化,来逼近损失函数的最小值,也就是使得损失函数为0。在Xgboost中,选择树模型为基学习器,我们需要正则的对象,或者说需要控制复杂度的对象就是这K颗树,通常树的参数有树的深度,叶子节点的个数,叶子节点值的取值(Xgboost里称为权重weight)。然而... 阅98 转0 评0 公众公开 23-02-27 15:21 |
所以GBDT中的树都是回归树,而不是分类树,它用来做回归预测,当然回归树经过调整之后也能用来做分类。当采用平方误差损失函数时,每一棵回归树学习的是之前所有树的结论和残差,拟合得到一个当前的残差回归树,残差的意义如公式:残差 = 真实值 - 预测值 。3.2 提升树算法。作为回归问题中提升树算法的残差的近似值(与其说负梯度作为残差的近... 阅422 转0 评0 公众公开 23-02-27 15:20 |
机器学习之数据清洗一、数据清洗1.1重复值:重复值会导致数据方差变小,影响数据分布,重复值主要分为两种:1.1.1 记录重复:一个或多个特征列的几条记录完全一致。from sklearn.metrics import roc_auc_score.Parameters(参数) y_true : array-like of shape (n_samples,) or (n_samples, n_classes) 真实数据 二分类和多分类需要带有shape (n... 阅532 转1 评0 公众公开 23-02-27 15:20 |
from sklearn.ensemble import IsolationForestimport numpy as npimport scipy.stats as stx0=[-1.1, 0.3, 0.5, 100]X = np.array(x0).reshape(-1, 1)clf = IsolationForest(random_state=0).fit(X)classresult=clf.predict(X)KM_num_cal=st.mode(classresult)[0][0] #求众数newresult=[]for oneres,onedata in zip(classresult,x0): if onere... 阅61 转0 评0 公众公开 23-02-27 15:19 |
from sklearn.datasets import make_regressionfrom sklearn.ensemble import GradientBoostingRegressorfrom sklearn.model_selection import train_test_splitX, y = make_regression(random_state=0)X_train, X_test, y_train, y_test = train_test_split( X, y, random_state=0)reg = GradientBoostingRegressor(random_state=0)reg.fit(X_... 阅3 转0 评0 公众公开 23-02-27 15:18 |