置信度计算公式 支持度和置信度的计算
自1993年Agrawal等人首次提出关联规则概念以来,已近三十载。尽管在现今算法层出不穷的时代,它似乎显得有些古旧,但在数据挖掘的领域中,它仍被视为入门算法之一,且在风控领域具有极其重要的应用潜力。这并非一种被广泛讨论的算法,却常能为我等探索者带来新的启示。
我在此进行了较为深入的探讨与实验。世界的变迁无常,但数据的内在联系始终如一,无论是意识察觉还是无意间的发现。
例如,你的伴侣若低头玩手指并陷入沉默,大概率她此时不快。这就是你从经验中总结出的规则。再如,广为人知的啤酒与尿布的故事,两种看似不相关的商品摆放在一起,竟能大幅增加两者的销量。这样的有趣现象背后,隐藏着怎样的关联规则呢?
一、股票涨跌预测
当历史数据显示放量+高换手率往往预示着股票的大概率上涨时,我们就可以根据这一规则,在满足条件的个股中挑选,伺机而动。
二、推荐系统
根据用户的历史数据,我们可以发现一些隐藏的规律。例如,当大量用户观看了小时代后,紧接着观看了上海堡垒,那么当有新用户看了小时代,我们就可以推荐上海堡垒,这样的推荐往往能获得成功。
三、路线预测
通过分析大量的数据,我们可以得出关于出行路线的规则。例如,早上从家出发到公司的路线,晚上从家出发到高铁站的路线等。这样当用户打开软件时,软件能根据这些规则推荐相应的路线,大大减少用户的等待时间。
四、风控策略
五、关联规则的核心概念
支持度、置信度、提升度是理解关联规则的三个关键概念。以啤酒与尿布的案例为例,我们可以清楚地解释这三个概念。例如,啤酒的支持度表示啤酒出现的次数占总订单数的比例;啤酒到尿布的置信度表示购买了啤酒的订单中购买尿布的比例;而提升度则表示啤酒的出现对尿布的出现概率的提升程度。
在挖掘过程中,我们需要注意支持度和置信度的阈值设置。阈值过高可能导致有用的规则被忽略,而阈值过低则可能产生大量的冗余和无效规则。需要在这之间找到一个平衡点。
六、频繁项集与Apriori算法
频繁项集(frequent itemset)是指支持度大于等于最小支持度阈值的项集。而Apriori算法则是用于频繁项集挖掘的重要算法之一。通过Apriori算法的思想,我们可以有效减少计算量,提高挖掘效率。
值得注意的是:
在数据挖掘过程中,我们需要综合考虑多种因素,如数据的完整性、准确性、时效性等。我们还需要不断尝试和调整算法参数,以找到最优的解决方案。
以上所述的案例和理论只是冰山一角。数据的世界广袤无垠,关联规则的应用更是千变万化。希望通过我的剖析,能给你带来新的视角和启示。在未来的日子里,让我们一起探索数据的奥秘吧!