然而,经常会出现的情况是,我们并不知道一个事件「最终」的结果。例如,在某些欺诈的案例中,只有当事情发生很久以后,我们才可能知道某次交易是不是欺诈。在这种情况下,与其试图预测哪些交易是欺诈,我们不如使用机器学习来识别那些可疑的交易,并做出标记,以备后续观察。但我们对某种特定的结果缺乏先验知识、但仍希望从数据中汲取有用的洞察时,就要用到无监督式学习。
使用最广泛的监督式学习技术包括以下这些:
广义线性模型(GLM,Generalized linear models):这是线性回归的一种高级形式,支持不同的概率分布和 联系函数,能让分析师更有效地对数据进行建模。GLM用格点搜索进行加强,是经典统计学和最先进的机器学习的混血产物。
决策树:这是一种监督式学习模型,能够学习一组将总体逐步划分为若干小片段的规则。这些小片段对目标变量来说是同质的。
随机森林:一种流行的集成学习方法,可以训练许多决策树,然后将这些决策树进行平均,做出预测。这个平均的过程产生了一个更一般的解,过滤掉了数据中的随机噪声。
梯度提升机器(GBM,Gradient boosting machine):这种方法通过训练一系列决策树来产生一个预测模型,在其中,后序决策树会校正前序决策树所产生的预测误差。
深度学习:这种方法能用复杂多层网络的形式对数据中的高级模式进行建模。由于深度学习是对问题建模来说最一般的方法,因此有潜力解决机器学习中最具有挑战性的问题。
无监督式学习的关键技术包括以下这些:
聚类:一种将物体分成小类的技术。这些类别在许多度量上彼此相似。顾客细分就是聚类的一个实际例子。现在有许多不同的聚类算法,应用最广泛的是k-均值算法。
异常检测:这是一种识别意外事件或结果的过程。在安全和防欺诈领域,不可能对每一次交易都进行调查;我们需要系统对那些最可疑的交易做出标记。我们之前在监督式学习部分讨论过的深度学习,也可以用来进行异常检测。
湘ICP备2022002427号-10 湘公网安备:43070202000427号
© 2013~2024 haote.com 好特网