动手计算ID3算法,id3算法

这里给出了一些最常见的算法,按使用简单程度排序 。不要使用最复杂的算法,除非其结果值得付出昂贵的开销和资源 。你应该使用哪种机器学习算法?这在很大程度上依赖于可用数据的性质和数量以及每一个特定用例中你的训练目标 。优点:容许数据的变化性,适用于识别(recognition)和预测操作场景举例:面部表情分析、气象预测6.随机森林(Randomforest):随机森林算法通过使用多个带有随机选取的数据子集的树(tree)改善了决策树的精确性 。
机器学习初学者需要了解的基本算法有哪些?

动手计算ID3算法,id3算法


你应该使用哪种机器学习算法?这在很大程度上依赖于可用数据的性质和数量以及每一个特定用例中你的训练目标 。不要使用最复杂的算法,除非其结果值得付出昂贵的开销和资源 。这里给出了一些最常见的算法,按使用简单程度排序 。1. 决策树(Decision Tree):在进行逐步应答过程中,典型的决策树分析会使用分层变量或决策节点,例如,可将一个给定用户分类成信用可靠或不可靠 。
优点:擅长对人、地点、事物的一系列不同特征、品质、特性进行评估场景举例:基于规则的信用评估、赛马结果预测2. 支持向量机(Support Vector Machine):基于超平面(hyperplane),支持向量机可以对数据群进行分类 。优点:支持向量机擅长在变量 X 与其它变量之间进行二元分类操作,无论其关系是否是线性的场景举例:新闻分类、手写识别 。
3. 回归(Regression):回归可以勾画出因变量与一个或多个因变量之间的状态关系 。在这个例子中,将垃圾邮件和非垃圾邮件进行了区分 。优点:回归可用于识别变量之间的连续关系,即便这个关系不是非常明显场景举例:路面交通流量分析、邮件过滤4. 朴素贝叶斯分类(Naive Bayes Classification):朴素贝叶斯分类器用于计算可能条件的分支概率 。
每个独立的特征都是「朴素」或条件独立的,因此它们不会影响别的对象 。例如,在一个装有共 5 个黄色和红色小球的罐子里,连续拿到两个黄色小球的概率是多少?从图中最上方分支可见,前后抓取两个黄色小球的概率为 1/10 。朴素贝叶斯分类器可以计算多个特征的联合条件概率 。优点:对于在小数据集上有显著特征的相关对象,朴素贝叶斯方法可对其进行快速分类场景举例:情感分析、消费者分类5. 隐马尔可夫模型(Hidden Markov model):显马尔可夫过程是完全确定性的——一个给定的状态经常会伴随另一个状态 。
交通信号灯就是一个例子 。相反,隐马尔可夫模型通过分析可见数据来计算隐藏状态的发生 。随后,借助隐藏状态分析,隐马尔可夫模型可以估计可能的未来观察模式 。在本例中,高或低气压的概率(这是隐藏状态)可用于预测晴天、雨天、多云天的概率 。优点:容许数据的变化性,适用于识别(recognition)和预测操作场景举例:面部表情分析、气象预测6. 随机森林(Random forest):随机森林算法通过使用多个带有随机选取的数据子集的树(tree)改善了决策树的精确性 。
本例在基因表达层面上考察了大量与乳腺癌复发相关的基因,并计算出复发风险 。优点:随机森林方法被证明对大规模数据集和存在大量且有时不相关特征的项(item)来说很有用场景举例:用户流失分析、风险评估7. 循环神经网络(Recurrent neural network):在任意神经网络中,每个神经元都通过 1 个或多个隐藏层来将很多输入转换成单个输出 。
循环神经网络(RNN)会将值进一步逐层传递,让逐层学习成为可能 。换句话说,RNN 存在某种形式的记忆,允许先前的输出去影响后面的输入 。优点:循环神经网络在存在大量有序信息时具有预测能力场景举例:图像分类与字幕添加、政治情感分析8. 长短期记忆(Long short-term memory,LSTM)与门控循环单元神经网络(gated recurrent unit nerual network):早期的 RNN 形式是会存在损耗的 。

推荐阅读