mercer条件

请问从EM角度理解kmeans?k-means是两个步骤交替进行,可以分别看成E步和M步M步中将每类的中心更新为分给该类各点的均值,可以认为是在「各类分布均为单位方差的高斯分布」的假设下,最大化似然值;E步中将每个点分给中心距它最近的类(硬分配),可以看成是EM算法中E步(软分配)的近似为什么kmeans一定会收敛?

M步中的最大化似然值,更新参数依赖的是MSE,MSE至少存在局部最优解,必然收敛

kmeans初始点除了随机选取之外的方法?

先层次聚类,再在不同层次上选取初始点进行kmeans聚类

解释一下朴素贝叶斯中考虑到的条件独立假设讲一讲你眼中的贝叶斯公式和朴素贝叶斯分类差别

贝叶斯公式是完整的数学公式P(A/B) = P(A)P(B/A)/P(B)

朴素贝叶斯 = 贝叶斯公式 + 条件独立假设,在实际使用过程中,朴素贝叶斯完全只需要关注P(A,B)=P(A)P(B/A)即可

朴素贝叶斯中出现的常见模型有哪些多项式:多项式模型适用于离散特征情况,在文本领域应用广泛, 其基本思想是:我们将重复的词语视为其出现多次因为统计次数,所以会出现0次可能,所以实际中进行了平滑操作先验平滑:后验平滑:两者形式非常像,区别就在先验平滑分母考虑的是平滑类别y个数,后验平滑分母考虑的是平滑特征对应特征x可选的个数高斯:高斯模型适合连续特征情况,高斯公式高斯模型假设在对应类别下的每一维特征都服从高斯分布(正态分布)伯努利:伯努利模型适用于离散特征情况,它将重复的词语都视为只出现一次出现估计概率值为 0 怎么处理

拉普拉斯平滑

朴素贝叶斯的优缺点?优点: 对小规模数据表现很好,适合多分类任务,适合增量式训练缺点:对输入数据的表达形式很敏感(离散、连续,值极大极小之类的)朴素贝叶斯与 LR 区别?生成模型和判别模型条件独立要求小数据集和大数据集简单介绍SVM?从分类平面,到求两类间的最大间隔,到转化为求间隔分之一等优化问题:loss=min(1/2·||W||·||W||) subject to:y(wx+b)>=1,其中||·||为2范数然后就是优化问题的解决办法,首先是用拉格拉日乘子把约束优化转化为无约束优化,对各个变量求导令其为零,得到的式子带入拉格朗日式子从而转化为对偶问题最后再利用SMO(序列最小优化)来解决这个对偶问题什么叫最优超平面?两类样本分别分割在该超平面的两侧超平面两侧的点离超平面尽可能的远什么是支持向量?

在求解的过程中,会发现只根据部分数据就可以确定分类器,这些数据称为支持向量。换句话说,就是超平面附近决定超平面位置的那些参与计算锁定平面位置的点

SVM 和全部数据有关还是和局部数据有关?

局部

加大训练数据量一定能提高SVM准确率吗?

支持向量的添加才会提高,否则无效

如何解决多分类问题?

对训练器进行组合。其中比较典型的有一对一,和一对多

可以做回归吗,怎么做?

可以,把loss函数变为:

SVM 能解决哪些问题?线性问题对于n为数据,找到n-1维的超平面将数据分成2份。通过增加一个约束条件: 要求这个超平面到每边最近数据点的距离是最大的非线性问题SVM通过结合使用拉格朗日乘子法和KTT条件,以及核函数可以用smo算法解出非线性分类器介绍一下你知道的不同的SVM分类器?硬SVM分类器(线性可分):当训练数据可分时,通过间隔最大化,直接得到线性表分类器软SVM分类器(线性可分):当训练数据近似可分时,通过软间隔最大化,得到线性表分类器kernel SVM:当训练数据线性不可分时,通过核函数+软间隔的技巧,得到一个非线性的分类器什么叫软间隔?

软间隔允许部分样本点不满足约束条件: 1<y(wx+b)

SVM 软间隔与硬间隔表达式硬间隔: 软间隔: SVM原问题和对偶问题的关系/解释原问题和对偶问题?svm原问题是:求解svm对偶问题:求解拉格朗日乘子法:求f的最小值时,有h=0的限制条件,那么就构造∑λh+f=Loss,作为新loss引入松弛变量α的目的是构造满足拉格朗日条件的限制性条件在对原来的w求偏导之外再对新构造的乘子λ和松弛变量α求偏导数为什么要把原问题转换为对偶问题?因为原问题是带有限制性条件的凸二次规划问题不方便求解,转换为对偶问题更加高效引入了核函数为什么求解对偶问题更加高效?原问题是要考虑限制性条件的最优,而对偶问题考虑的是类似分情况讨论的解析问题因为只用求解alpha系数,而alpha系数只有支持向量才非0,其他全部为0alpha系数有多少个?

样本点的个数

KKT限制条件,KKT条件有哪些,完整描述分别对原来的w求偏导之外再对新构造的乘子λ和松弛变量α求偏导数,并且都等于0后的联立方程便是不等式约束优化优化问题的 KKT(Karush-Kuhn-Tucker) 条件KKT乘子λ>=0引入拉格朗日的优化方法后的损失函数解释原损失函数:优化后的损失函数:要求KKT乘子λ>=0核函数的作用是啥

核函数能够将特征从低维空间映射到高维空间, 这个映射可以把低维空间中不可分的两类点变成高维线性可分的

核函数的种类和应用场景线性核函数:主要用于线性可分的情形。参数少,速度快。多项式核函数:高斯核函数:主要用于线性不可分的情形。参数多,分类结果非常依赖于参数。sigmoid 核函数:拉普拉斯核函数:如何选择核函数

我用的比较多的是线性核函数和高斯核函数,线性用于特征多,线性问题的时候,高斯核函数用于特征少,非线性问题需要升维的时候

常用核函数的定义?

在机器学习中常用的核函数,一般有这么几类,也就是LibSVM中自带的这几类:

线性:K(v1,v2) = <v1,v2>多项式:K(v1,v2) = (r<v1,v2>+c)^nRadial basis function:K(v1,v2) = exp(-r||v1-v2||^2)Sigmoid:tanh(r<v1,v2>+c)核函数需要满足什么条件?

Mercer定理:核函数矩阵是对称半正定的

为什么在数据量大的情况下常常用lr代替核SVM?计算非线性分类问题下,需要利用到SMO方法求解,该方法复杂度高O(n^2)在使用核函数的时候参数假设全靠试,时间成本过高高斯核可以升到多少维?为什么

无穷维e的n次方的泰勒展开得到了一个无穷维度的映射

SVM和逻辑斯特回归对同一样本A进行训练,如果某类中增加一些数据点,那么原来的决策边界分别会怎么变化?

如果在svm容忍范围内或者在svm的margin外,则不受影响;否则决策边界会发生调整

各种机器学习的应用场景分别是什么?例如,k近邻,贝叶斯,决策树,svm,逻辑斯蒂回归线性问题:线性:逻辑回归,线性svm非线性:贝叶斯,决策树,核svm,DNN数据问题:数据量大特征多:逻辑回归决策树算法数据量少特征少:核svm缺失值多:树模型Linear SVM 和 LR 有什么异同?LR是参数模型,SVM为非参数模型。LR采用的损失函数为logisticalloss,而SVM采用的是hingeloss。在学习分类器的时候,SVM只考虑与分类最相关的少数支持向量点。LR的模型相对简单,在进行大规模线性分类时比较方便。

本文由任意链接整理发布,如若转载,请注明出处:https://www.renyilink.com/23455.html