CS青雀的巢

心平气和,不起执念。

排序:
默认
按更新时间
按访问量
RSS订阅

【机器学习】Stacking方法详解

集成学习方法主要分成三种:bagging,boosting 和 Stacking。这里主要介绍Stacking。 stacking严格来说并不是一种算法,而是精美而又复杂的,对模型集成的一种策略。 首先来看一张图。 1、首先我们会得到两组数据:训练集和测试集。将训练集分成5份:train...

2019-08-08 11:21:10

阅读数 61

评论数 0

【机器学习】三招提升数据不平衡模型的性能(附python代码)

对于深度学习而言,数据集非常重要,但在实际项目中,或多或少会碰见数据不平衡问题。什么是数据不平衡呢?举例来说,现在有一个任务是判断西瓜是否成熟,这是一个二分类问题——西瓜是生的还是熟的,该任务的数据集由两部分数据组成,成熟西瓜与生西瓜,假设生西瓜的样本数量远远大于成熟西瓜样本的数量,针对这样的数据...

2019-08-06 12:21:36

阅读数 32

评论数 0

【机器学习】sklearn-Adaboost调参

AdaBoostClassifier默认分类器为决策树: base_estimator:object, optional (default=None) The base estimator from which the boosted ensemble is built. Support f...

2019-08-06 12:14:44

阅读数 28

评论数 0

【机器学习】sklearn分类器调参-RandomizedSearchCV

1. 官方说明文档:sklearn.model_selection.RandomizedSearchCV 2. 指定评估指标scoring:The scoring parameter: defining model evaluation rules 3. 指标中F1分数的一些解释:sklear...

2019-08-06 11:16:38

阅读数 26

评论数 0

【机器学习】sklearn-GBDT调参-GradientBoostingClassifier

 在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点。 1.scikit-learn GBDT类库概述     在sacikit-learn中,GradientBoostingCl...

2019-08-06 11:03:38

阅读数 73

评论数 0

【机器学习】sklearn-决策树调参-DecisionTreeClassifier

sklearn中决策树算法参数共有13个,如下: classsklearn.tree.DecisionTreeClassifier(criterion=’gini’,splitter=’best’,max_depth=None,min_samples_split=2,min_samples_le...

2019-08-06 10:46:38

阅读数 16

评论数 0

【机器学习】sklearn-SVM调参

SVM 调参策略 以下内容摘自网络CSDN: SVM 怎样能得到好的结果 1. 对数据做归一化(simple scaling) 2. 应用 RBF kernel 3. 用cross-validation和grid-search 得到最优的c和g 4. 用得到的最优c和g训练训练数据 5. 测试...

2019-08-06 10:36:03

阅读数 28

评论数 0

【机器学习】sklearn-LR调参-Logistic Regression

sklearn中LogisticRegression的API如下,官方文档:http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_mode...

2019-08-05 21:22:32

阅读数 12

评论数 0

【机器学习】Sklearn-cluster聚类方法

Classes1 各种聚类方法特性汇总: sklearn.cluster.KMeans from sklearn.cluster import KMeans KMeans(n_clusters=8,init='k-means++',n_init=10,max_iter=300,tol=0...

2019-07-31 19:40:15

阅读数 30

评论数 0

【机器学习】在Python中使用XGBoost

本文原是xgboost的官方文档教程,但是鉴于其中部分内容叙述不清,部分内容也确实存在一定的问题,所以本人重写了该部分。数据请前往Github此处下载前置代码 引用类库,添加需要的函数 import numpy as np from sklearn.model_selection import...

2019-07-31 13:16:40

阅读数 20

评论数 0

【机器学习】 处理不平衡数据的技巧总结!

概念 类别数据不均衡是分类任务中一个典型的存在的问题。简而言之,即数据集中,每个类别下的样本数目相差很大。例如,在一个二分类问题中,共有100个样本(100行数据,每一行数据为一个样本的表征),其中80个样本属于class 1,其余的20个样本属于class 2,class 1:class2=8...

2019-07-31 12:35:23

阅读数 42

评论数 0

【机器学习】分类器调参:什么是Grid Search 网格搜索?

将多种模型的结果通过投票的方式进行聚合。选择的模型的结果要有好有坏,这样聚合的结果最佳。 PLAN1 Majority Class Labels (Majority/Hard Voting) 事先准备三个模型,xgb和rf模型都已经通过cross_validation找出了较好的参数 &am...

2019-07-29 20:40:22

阅读数 15

评论数 0

【机器学习】集成学习方法,从入门到使用

集成学习方法(组合分类器):https://www.jianshu.com/p/9fd41cf472b1 讲得详细。其中的代码通俗易懂,只有几行就说清了组合分类器。 sklearn集成方法:https://blog.csdn.net/u012526003/article/details/7910...

2019-04-19 07:53:12

阅读数 77

评论数 0

【机器学习】特征工程(补充)--机器学习数据集里的不均衡数据问题

开头我们举个例子。 例如:“现在我正在运行一个分类模型。在我的数据集里面一共有3类数据,这里我们称它们分别为A,B和C,但是在我的训练数据集里面A,B和C三类数据分别占了90%,5%和5%。在大多数情况下,结果都过度拟合A类数据。” 在数据不均衡的情况下,我们得到90%的准确率(比如包含90%...

2019-04-02 08:45:05

阅读数 42

评论数 0

【机器学习】特征工程步骤——以二分类问题为例

1、数据的探索分析EDA 数据的探索分析EDA,是对数据进行初步的统计分析,统计数据的分布、异常、相互关系,目标是让我们了解这些数据能告诉我们什么。可以用来指导我们进行模型的选择,比如说帮助我们初步的决定哪些特征需要被使用,哪些特征需要被剔除。 准备好样本、特征、label 查看样本集中样本总个...

2019-04-02 08:44:19

阅读数 104

评论数 0

【机器学习】Logistic回归和SVM的异同

这个问题在最近面试的时候被问了几次,让谈一下Logistic回归(以下简称LR)和SVM的异同。由于之前没有对比分析过,而且不知道从哪个角度去分析,一时语塞,只能不知为不知。   现在对这二者做一个对比分析,理清一下思路。      相同点   1、LR和SVM都是分类算法(曾经我认为这个...

2019-03-16 21:48:07

阅读数 90

评论数 0

【机器学】警告:Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA

问题: 安装TensorFlow(CPU版本),使用pip install tensorflow安装,安装一切顺利,但是在跑一个简单的程序时,遇到如下情况: 大概意思是:你的CPU支持AVX扩展,但是你安装的TensorFlow版本无法编译使用。 原因: 除了通常的算术和逻辑,现代CPU提供...

2019-02-22 20:56:56

阅读数 85

评论数 0

【计算视觉】人脸识别用哪个数据库较好

目前人脸识别领域常用的人脸数据库主要有: 1. FERET人脸数据库[2] 由FERET项目创建,包含14,051张多姿态,光照的灰度人脸图像,是人脸识别领域应用最广泛 的人脸数据库之一.其中的多数人是西方人,每个人所包含的人脸图像的变化比较单一. 2. MIT人脸数据库[4] 由麻省理工大学媒体...

2019-02-22 15:54:09

阅读数 190

评论数 0

【复杂网络】当机器学习遇上复杂网络:解析微信朋友圈 Lookalike 算法

网络 工具 算法 模型 机器学习每天在微信朋友圈,用户都会或多或少地收到一些广告推送。有的十分精准,有的却未必。机器学习是人工智能的一个重要分支,也是未来技术趋势里的重要角色。那么,微信是怎么做的呢?Lookalike是做什么的基本上所有的互联网公司都有其广告投放平台,这是给广告主投放广告的一个页...

2017-11-08 15:50:11

阅读数 1805

评论数 0

机器学习——连续型特征离散化

在特征工程中,特别是logistic regression上,需要把一些连续特征进行离散化处理。离散化除了一些计算方面等等好处,还可以引入非线性特性,也可以很方便的做cross-feature。离散特征的增加和减少都很容易,易于模型的快速迭代。此外,噪声很大的环境中,离散化可以降低特征中包含的噪声...

2017-01-03 09:38:11

阅读数 7108

评论数 0

提示
确定要删除当前文章?
取消 删除