数据挖掘是指通过算法从大量数据中搜索隐藏信息的过程。数据挖掘通常与计算机科学相关,通过统计、在线分析与处理、信息检索、机器学习、专家系统(依赖以往经验规则)和模式识别来实现上述目标。
数据挖掘需要学习什么
数据挖掘涉及广泛的内容,如机器学习、数据挖掘和人工智能,但实际上这些知识大部分是相互关联的。机器学习实践这本书是我读的启蒙书中的一本好书。应该有一些不那么难的,有理论和实践,并且能够快速地对各种知识有一个大致的了解。然而,如果你想在这个行业长期发展,你还需要学习更多的知识,例如,当涉及到回归模型时,你不仅应该知道最小二乘法,还应该考虑如何清理数据,需要清理哪些数据,如何标准化数据,是否有太多数据,是否减少和减少维度,使用哪一个回归模型,要达到什么样的精度水平,是否考虑拟合和欠拟合,是否进行交叉验证,以及多少倍交叉验证有很好的效果,如果回归模型不适用,还有什么可替代的,等等。
数据挖掘步骤
(1) 定义问题。在开始知识发现之前,首先也是最重要的要求是了解数据和业务问题。目标必须有一个明确的定义,即决定你想做什么。例如,当您想要提高电子邮件的利用率时,您可能想要“提高用户利用率”或“提高一次性用户使用的价值”。为解决这两个问题而建立的模型几乎完全不同,必须做出决定。
(2) 建立数据挖掘数据库。数据挖掘数据库的建立包括以下步骤:数据收集、数据描述、选择、数据质量评估和数据清理、合并和集成、元数据构建、加载数据挖掘数据库和维护数据挖掘数据库。
(3) 分析数据。分析的目的是找出对预测结果影响最大的数据字段,并确定是否需要定义导出字段落如果数据集包含数百个字然后浏览和分析这些数据将是一件非常耗时和累人的事情。这时,你需要选择一个界面好、功能强大的工具软件来帮助你完成这些事情。
(4) 准备数据。这是建立模型之前数据准备的最后一步。这一步可以分为四个部分:选择变量、选择记录、创建新变量和转换变量。
(5) 建立模型。建模是一个迭代过程。需要仔细检查不同的模型,以确定哪种模型对所面临的业务问题最有用。首先使用部分数据建立模型,然后使用剩余数据对得到的模型进行验证。有时还有第三个数据集,称为验证集,因为测试集可能会受到模型特征的影响。此时,需要一个独立的数据集来验证模型的准确性。训练和测试数据挖掘模型需要将数据至少分为两部分,一部分用于模型训练,另一部分用于模型测试。
(6) 评价模型。在模型建立之后,我们必须对结果进行评估,并解释模型的价值。从测试集获得的精度仅对用于构建模型的数据有意义。在实际应用中,我们需要进一步了解错误的类型和相关成本。经验证明,有效的模式不一定是正确的模式。其直接原因是模型建立中隐含的各种假设。因此,在现实世界中直接测试模型非常重要。首先在小范围内应用,获得测试数据,然后在感到满意后在大范围内推广。
(7) 实施。模型建立并验证后,主要有两种使用方法。一是为分析员提供参考;另一个是将该模型应用于不同的数据集。