封面
版权信息
内容提要
前言
第1章 绪论
1.1 数据挖掘概述
1.1.1 基本概念
1.1.2 数据挖掘的典型应用场景
1.1.3 数据挖掘的演化历程
1.2 数据挖掘的一般流程
1.3 数据挖掘环境的配置
1.3.1 常用的数据挖掘工具
1.3.2 Anaconda 3下载和安装
1.4 本章小结
习题
第2章 Python数据挖掘模块
2.1 NumPy
2.1.1 Ndarray的创建
2.1.2 Ndarray的属性
2.1.3 索引和切片
2.1.4 排序
2.1.5 NumPy的数组运算
2.1.6 NumPy的统计函数
2.2 Pandas
2.2.1 Pandas的数据结构
2.2.2 查看和获取数据
2.2.3 Pandas的算术运算
2.2.4 Pandas的汇总和描述性统计函数
2.2.5 Pandas的其他常用函数
2.2.6 Pandas读写文件
2.3 Matplotlib
2.3.1 Matplotlib基本绘图元素
2.3.2 常用的Matplotlib图形绘制
2.4 Scikit-learn
2.5 本章小结
习题
第3章 数据探索
3.1 数据对象与特征
3.1.1 特征及其类型
3.1.2 离散和连续特征
3.2 数据统计描述
3.2.1 集中趋势
3.2.2 离中趋势
3.3 数据可视化
3.3.1 散点图
3.3.2 箱线图
3.3.3 频率直方图
3.3.4 柱状图
3.3.5 饼图
3.3.6 散点图矩阵
3.4 相关性和相似性度量
3.4.1 相关性度量
3.4.2 相似性度量
3.5 本章小结
习题
第4章 数据预处理
4.1 数据集成
4.2 数据清洗
4.2.1 重复值处理
4.2.2 缺失值处理
4.2.3 异常值处理
4.3 数据变换
4.3.1 数据规范化
4.3.2 数值特征的二值化和离散化
4.3.3 标称特征的数值化处理
4.4 数据规约
4.4.1 样本规约
4.4.2 维度规约
4.4.3 数据压缩
4.5 本章小结
习题
第5章 特征选择
5.1 特征选择方法概述
5.2 过滤法
5.2.1 单变量过滤方法
5.2.2 多变量过滤方法
5.2.3 过滤法的优缺点
5.2.4 综合实例
5.3 包装法
5.3.1 递归特征消除
5.3.2 序列特征选择
5.3.3 包装法的优缺点
5.4 嵌入法
5.4.1 基于正则化线性模型的方法
5.4.2 基于树模型的方法
5.4.3 嵌入法的优缺点
5.5 本章小结
习题
第6章 基础分类模型及回归模型
6.1 基本理论
6.1.1 分类模型
6.1.2 欠拟合和过拟合
6.1.3 二分类和多分类
6.1.4 线性及非线性分类器
6.2 朴素贝叶斯分类器
6.2.1 基本原理
6.2.2 基于Python的实现
6.3 k近邻分类器
6.3.1 基本原理
6.3.2 基于Python的实现
6.4 决策树
6.4.1 基本原理
6.4.2 属性选择方法
6.4.3 例子:计算信息增益
6.4.4 剪枝
6.4.5 基于CART决策树的分类
6.4.6 进一步讨论
6.5 人工神经网络
6.5.1 人工神经网络简介
6.5.2 BP神经网络
6.5.3 基于BP神经网络的分类
6.6 支持向量机
6.6.1 支持向量机的原理
6.6.2 支持向量分类的Python实现
6.7 模型的性能评价
6.7.1 分类模型的评价指标
6.7.2 模型的评估方法
6.8 案例:信用评分模型
6.8.1 案例描述
6.8.2 探索性数据分析和预处理
6.8.3 模型训练与评估
6.9 回归
6.9.1 线性回归
6.9.2 CART决策树回归
6.9.3 BP神经网络回归
6.9.4 支持向量回归
6.10 本章小结
习题
第7章 集成技术
7.1 基本集成技术
7.1.1 装袋
7.1.2 提升
7.1.3 堆叠
7.1.4 集成技术的定性分析
7.2 随机森林
7.2.1 工作原理
7.2.2 随机森林的Python实现
7.3 提升树
7.3.1 原理
7.3.2 提升树的Python实现
7.4 案例:电信客户流失预测
7.4.1 探索数据
7.4.2 模型性能比较
7.5 类不平衡问题
7.5.1 类不平衡处理方法
7.5.2 不平衡数据处理的Python实现
7.6 本章小结
习题
第8章 聚类分析
8.1 聚类的基本原理
8.2 k-means算法
8.2.1 基本原理
8.2.2 进一步讨论
8.2.3 基于Python的实现
8.2.4 k-means算法的优缺点
8.3 聚类算法的性能评价指标
8.3.1 内部度量指标
8.3.2 外部度量指标
8.3.3 基于Python的实现
8.4 DBSCAN算法
8.4.1 基本概念
8.4.2 DBSCAN聚类算法的原理
8.4.3 进一步讨论
8.4.4 基于Python的实现
8.4.5 DBSCAN算法的优缺点
8.5 GMM聚类算法
8.5.1 基本原理
8.5.2 进一步讨论
8.5.3 基于Python的实现
8.5.4 讨论:优点和不足
8.6 本章小结
习题
第9章 关联规则分析
9.1 概述
9.1.1 基本概念
9.1.2 关联规则挖掘算法
9.2 Apriori算法生成频繁项集
9.2.1 先验原理
9.2.2 产生频繁项集
9.2.3 生成关联规则
9.2.4 基于Python的Apriori算法实现
9.2.5 进一步讨论
9.3 FP-growth算法
9.3.1 FP-tree的构建
9.3.2 挖掘主FP-tree和条件FP-tree
9.3.3 基于Python的FP-growth算法实现
9.3.4 进一步讨论
9.4 Eclat算法
9.4.1 事务数据集的表示方式
9.4.2 Eclat算法生成频繁项集
9.4.3 基于Python的Eclat算法实现
9.4.4 进一步讨论
9.5 案例:网上零售购物篮分析
9.5.1 数据集及案例背景
9.5.2 探索性分析和数据预处理
9.5.3 使用Apriori算法挖掘关联规则
9.6 本章小结
习题
第10章 时间序列挖掘
10.1 时间序列挖掘概述
10.1.1 时间序列挖掘的目的
10.1.2 时间序列挖掘的意义
10.1.3 时间序列挖掘的基本概念
10.2 时间序列预处理
10.2.1 常用序列特征统计量
10.2.2 平稳序列
10.2.3 平稳性检验
10.2.4 纯随机性检验
10.3 平稳非白噪声序列建模
10.3.1 AR模型
10.3.2 MA模型
10.3.3 ARMA模型
10.3.4 建模过程
10.3.5 模型检验方法
10.4 非平稳序列建模
10.4.1 非平稳序列概述
10.4.2 差分运算
10.4.3 ARIMA模型
10.5 基于Python的ARIMA模型实现
10.6 案例:基于ARIMA模型的销售额预测
10.7 本章小结
习题
第11章 异常检测
11.1 基于统计的异常检测方法
11.1.1 基于一元正态分布的异常检测方法
11.1.2 基于多元正态分布的异常检测方法
11.1.3 基于Python的实现
11.2 基于聚类的异常检测方法
11.2.1 基本原理
11.2.2 基于Python的实现
11.3 孤立森林方法
11.3.1 基本原理
11.3.2 基于Python的实现
11.4 本章小结
习题
第12章 智能推荐
12.1 智能推荐概述
12.1.1 智能推荐定义
12.1.2 智能推荐场景
12.1.3 常用智能推荐技术
12.2 基于用户的协同过滤技术
12.2.1 概述
12.2.2 常用的评价指标
12.2.3 基本过程描述
12.2.4 案例:使用基于用户的协同过滤方法进行电影推荐
12.3 基于物品的协同过滤技术
12.4 非负矩阵分解
12.4.1 基本原理
12.4.2 基于Python的实现
12.5 本章小结
习题
参考文献
更新时间:2023-10-09 10:32:50