数据研究高级科学家将其定义为“计算机科学家、软件工程师和统计学家的混合体“。
数据挖掘作为一个学术领域,横跨多个学科,涵盖了统计学、数学、机器学习和数据库等,此外还包括各类专业方向比如从油田电力、海洋生物、历史文本、电子通讯、法律税务等的各个专业领域。
教材:
1.《概率论与数理统计》,作者:赵彦晖。
2.《统计学》,作者:孙玉环。
3.《业务建模与数据挖掘》,作者:派尔。
4.《数据挖掘导论》,作者:陈甘美华。
5.《编程与数据挖掘商业案例》,作者:姚志勇。
6.《数据挖掘概念与技术》,作者:孟小峰。
7.《机器学习实战》,作者:曲亚东。
9.《数据库系统概论》,作者:王珊。
10.《数据结构》,作者:陈越。
1. Weka:WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化;
2. Rapid Miner:RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。
它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价;3 .Orange:Orange是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了 Python以进行脚本开发。
它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目、过渡、建模、模式评估和勘探的功能。
其由C++ 和 Python开发,它的图形库是由跨平台的Qt框架开发。
1.《数据挖掘与知识发现》,作者李雄飞,本书详尽地阐述了数据挖掘与知识发现领域中的一些基本理论和研究方法。
介绍了数据挖掘的概念、数据挖掘对象、知识发现过程、研究方法以及相关研究领域和应用范围,可供有关科技人员学习参考;
2.《数据挖掘概念与技术》,2007年由机械工业出版社出版的图书,本书全面地讲述数据挖掘领域的重要知识和技术创新,可作为数据挖掘和知识发现领域的教师、研究人员和开发人员的一本必读书;
3.《大数据分析与数据挖掘》,2016年清华大学出版社出版的图书,此书综合大数据分析与数据挖掘的理论、技术和实际案例,以丰富的产学合作实务案例,深入浅出地剖析从大数据中掏金的秘诀;
4.《数据挖掘与应用》,2009年北京大学出版社出版的图书,本书全面地介绍了数据挖掘的相关主题,包括数据理解与数据准备、关联规则挖掘、多元统计中的降维方法、聚类分析、神经网络和模型评估等内容。