统计反思 用R和Stan例解贝叶斯方法
出版时间: 2019年版
丛编项: 数据科学与工程技术丛书
内容简介
本书以Stan统计软件为基础,以R代码为例,提供了一个实际的统计推断的基础。从贝叶斯统计方法的角度出发,介绍了统计反思的相关知识,以及一些常用的进行类似权衡的工具,展示了两个完整的*常用的计数变量回归,介绍了应对常见的单一模型无法很好地拟合观测数据的排序分类模型与零膨胀和零增广模型,提出了基于贝叶斯概率和*大熵的广义线性分层模型以及处理空间和网络自相关的高斯过程模型。 本书适合统计、数学等相关专业的高年级本科生、研究生,以及数据挖掘的从业人士阅读。
目录
译者序
前言
第1章 布拉格的泥人1
1.1 统计机器人1
1.2 统计反思4
1.2.1 假设检验不是模型5
1.2.2 测量很关键8
1.2.3 证伪是一种共识10
1.3 机器人工程的3种工具10
1.3.1 贝叶斯数据分析11
1.3.2 分层模型14
1.3.3 模型比较和信息法则15
1.4 总结16
第2章 小世界和大世界18
2.1 路径花园19
2.1.1 计算可能性20
2.1.2 使用先验信息23
2.1.3 从计数到概率24
2.2 建立模型26
2.2.1 数据背景26
2.2.2 贝叶斯更新27
2.2.3 评估28
2.3 模型组成30
2.3.1 似然函数30
2.3.2 参数31
2.3.3 先验32
2.3.4 后验33
2.4 开始建模35
2.4.1 网格逼近36
2.4.2 二项逼近37
2.4.3 马尔可夫链蒙特卡罗40
2.5 总结41
2.6 练习41
第3章 模拟后验样本43
3.1 后验分布的网格逼近抽样46
3.2 样本总结47
3.2.1 取值区间对应的置信度48
3.2.2 某个置信度下的取值区间49
3.2.3 点估计52
3.3 抽样预测55
3.3.1 虚拟数据55
3.3.2 模型检查57
3.4 总结61
3.5 练习61第4章 线性模型64
4.1 为什么人们认为正态分布是常态65
4.1.1 相加得到正态分布65
4.1.2 通过相乘得到正态分布67
4.1.3 通过相乘取对数得到正态分布67
4.1.4 使用高斯分布68
4.2 用来描述模型的语言70
4.3 身高的高斯模型71
4.3.1 数据72
4.3.2 模型73
4.3.3 网格逼近后验分布76
4.3.4 从后验分布中抽取样本77
4.3.5 用map拟合模型79
4.3.6 从map拟合结果中抽样82
4.4 添加预测变量84
4.4.1 线性模型策略85
4.4.2 拟合模型88
4.4.3 解释模型拟合结果89
4.5 多项式回归101
4.6 总结105
4.7 练习105
第5章 多元线性回归108
5.1 虚假相关110
5.1.1 多元回归模型的数学表达112
5.1.2 拟合模型113
5.1.3 多元后验分布图114
5.2 隐藏的关系122
5.3 添加变量起反作用128
5.3.1 共线性129
5.3.2 母乳数据中的共线性132
5.3.3 后处理偏差136
5.4 分类变量138
5.4.1 二项分类139
5.4.2 多类别141
5.4.3 加入一般预测变量144
5.4.4 另一种方法:独一无二的截距144
5.5 一般最小二乘和lm145
5.5.1 设计公式145
5.5.2 使用lm146
5.5.3 从lm公式构建map公式147
5.6 总结148
5.7 练习148
第6章 过度拟合、正则化和信息法则150
6.1 参数的问题152
6.1.1 更多的参数总是提高拟合度153
6.1.2 参数太少也成问题156
6.2 信息理论和模型表现158
6.2.1 开除天气预报员158
6.2.2 信息和不确定性161
6.2.3 从熵到准确度163
6.2.4 从散度到偏差165
6.2.5 从偏差到袋外样本167
6.3 正则化169
6.4 信息法则171
6.4.1 DIC173
6.4.2 WAIC173
6.4.3 用DIC和WAIC估计偏差176
6.5 使用信息法则178
6.5.1 模型比较178
6.5.2 比较WAIC值180
6.5.3 模型平均185
6.6 总结187
6.7 练习188第7章 交互效应190
7.1 创建交互效应192
7.1.1 添加虚拟变量无效195
7.1.2 加入线性交互效应是有效的197
7.1.3 交互效应可视化199
7.1.4 解释交互效应估计200
7.2 线性交互的对称性203
7.2.1 布里丹的交互效应203
7.2.2 国家所属大陆的影响取决于地势204
7.3 连续交互效应205
7.3.1 数据206
7.3.2 未中心化的模型206
7.3.3 中心化且再次拟合模型209
7.3.4 绘制预测图212
7.4 交互效应的公式表达214
7.5 总结215
7.6 练习215
第8章 马尔可夫链蒙特卡罗218
8.1 英明的马尔可夫国王和他的岛屿王国219
8.2 马尔可夫链蒙特卡罗221
8.2.1 Gibbs抽样222
8.2.2 Hamiltonian
蒙特卡罗222
8.3 初识HMC:map2stan224
8.3.1 准备225
8.3.2 模型估计225
8.3.3 再次抽样226
8.3.4 可视化227
8.3.5 使用样本229
8.3.6 检查马尔可夫链230
8.4 调试马尔可夫链231
8.4.1 需要抽取多少样本232
8.4.2 需要多少条马氏链233
8.4.3 调试出错的马氏链234
8.4.4 不可估参数236
8.5 总结238
8.6 练习239
第9章 高熵和广义线性模型241
9.1 最大熵242
9.1.1 高斯分布246
9.1.2 二项分布248
9.2 广义线性模型253
9.2.1 指数家族254
9.2.2 将线性模型和分布联系起来256
9.2.3 绝对和相对差别259
9.2.4 广义线性模型和信息法则259
9.3 最大熵先验260
9.4 总结260
第10章 计数和分类261
10.1 二项回归262
10.1.1 逻辑回归:亲社会的大猩猩262
10.1.2 累加二项:同样的数据,用累加后的结果271
10.1.3 累加二项:研究生院录取272
10.1.4 用glm拟合二项回归模型278
10.2 泊松回归279
10.2.1 例子:海洋工具复杂度281
10.2.2 MCMC岛屿287
10.2.3 例子:曝光和抵消项288
10.3 其他计数回归290
10.3.1 多项分布290
10.3.2 几何分布294
10.3.3 负二项和贝塔二项分布295
10.4 总结295
10.5 练习295
第11章 怪物和混合模型297
11.1 排序分类变量297
11.1.1 案例:道德直觉298
11.1.2 通过截距描绘有序分布299
11.1.3 添加预测变量303
11.2 零膨胀结果变量307
11.3 过度离散结果310
11.3.1 贝塔二项模型311
11.3.2 负二项或者伽马泊松分布314
11.3.3 过度分散、熵和信息理论314
11.4 总结315
11.5 练习315
第12章 分层模型318
12.1 案例:蝌蚪数据分层模型320
12.2 变化效应与过度拟合/拟合不足326
12.2.1 建模327
12.2.2 对参数赋值328
12.2.3 模拟存活的蝌蚪329
12.2.4 非聚合样本估计329
12.2.5 部分聚合估计330
12.3 多重聚类332
12.3.1 针对不同黑猩猩分层333
12.3.2 两重聚类334
12.3.3 更多的聚类337
12.4 分层模型后验预测337
12.4.1 原类别后验预测338
12.4.2 新类别后验预测339
12.4.3 聚焦和分层模型342
12.5 总结345
12.6 练习345
第13章 解密协方差347
13.1 变化斜率348
13.1.1 模拟数据349
13.1.2 模拟观测351
13.1.3 变化斜率模型352
13.2 案例分析:录取率和性别357
13.2.1 变化截距357
13.2.2 性别对应的变化效应358
13.2.3 收缩效应360
13.2.4 模型比较360
13.2.5 更多斜率361
13.3 案例分析:对黑猩猩数据拟合变化斜率模型361
13.4 连续变量和高斯过程368
13.4.1 案例:岛屿社会工具使用和空间自相关368
13.4.2 其他“距离”375
13.5 总结375
13.6 练习375
第14章 缺失数据及其他378
14.1 测量误差379
14.1.1 结果变量误差381
14.1.2 结果变量和预测变量同时存在误差383
14.2 缺失数据385
14.2.1 填补新皮层数据385
14.2.2 改进填补模型389
14.2.3 非随机390
14.3 总结392
14.4 练习393
第15章 占星术与统计学394
参考文献398