欢迎访问学兔兔,学习、交流 分享 !

返回首页 |

大数据:互联网大规模数据挖掘与分布式处理

收藏
  • 大小:33690 KB
  • 语言:中文版
  • 格式: PDF版
  • 阅读软件: Adobe Reader
资源简介
大数据:互联网大规模数据挖掘与分布式处理
作者:(美) Anand Rajaraman (美) Jeffrey David Ullman 著,王 斌 译
出版时间:2012-9-1
 
【图书简介】
 
本书源自作者在斯坦福大学教授多年的“Web挖掘”课程材料,主要关注大数据环境下数据挖掘的实际算法。书中分析了海量数据集数据挖掘常用的算法,介绍了目前Web应用的许多重要话题。主要内容包括:□ 分布式文件系统以及Map-Reduce工具;□ 相似性搜索;□ 数据流处理以及针对易丢失数据等特殊情况的专用处理算法;□ 搜索引擎技术,如谷歌的PageRank;□ 频繁项集挖掘;□ 大规模高维数据集的聚类算法;□ Web应用中的关键问题:广告管理和推荐系统。本书配套网http://infolab.stanford.edu/~ullman/mmds.html上提供英文版初稿以及一些课件和项目作业。
 
【作者简介】
 
AnandRajaraman 数据库和Web技术领域权威,创业投资基金Cambrian联合创始人,斯坦福大学计算机科学系助理教授。Rajaraman职业生涯非常成功:1996年创办Junglee公司,两年后该公司被亚马逊以2.5亿美元收购,Rajaraman被聘为亚马逊技术总监,推动亚马逊从一个零售商转型为零售平台;2000年与人合创Cambrian,孵化出几个后来被谷歌收购的公司;2005年创办Kosmix公司并任CEO,该公司2011年被沃尔玛集团收购。Rajaraman生于印度,在斯坦福大学获得计算机科学硕士和博士学位。求学期间与人合著的一篇论文荣列近20年来被引用次数最多的论文之一。博客地址http://anand.typepad.com/datawocky/。Jeffrey DavidUllman 美国国家工程院院士,计算机科学家,斯坦福大学教授。Ullman早年在贝尔实验室工作,之后任教于普林斯顿大学,十年后加入斯坦福大学直至退休,一生的科研、著书和育人成果卓著。他是ACM会员,曾获SIGMOD贡献奖、Knuth奖等多项科研大奖;他是“龙书”《编译原理》、数据库领域权威指南《数据库系统实现》的合著者;麾下多名学生成为了数据库领域的专家,其中最有名的当属谷歌创始人SergeyBrin;本书第一作者也是他的得意弟子。Ullman目前任Gradiance公司CEO。译者简介:王斌 博士,中国科学院计算技术研究所博士生导师。中国科学院信息工程研究所客座研究员。主要研究方向为信息检索、自然语言处理和数据挖掘。《信息检索导论》译者。主持国家973、863、国家自然科学基金、国际合作基金、国家支撑计划等课题20余项,发表学术论文120余篇。现为ACM会员、中国中文信息学会理事、中文信息学会信息检索专委会委员、《中文信息学报》编委、中国计算机学会高级会员及计算机学会中文信息处理专委会委员。自2006年起在中国科学院研究生院(现改名“中国科学院大学”)讲授《现代信息检索》研究生课程,选课人数累计近千人。2010年开始指导研究生,迄今培养博士、硕士研究生30余名。
 
【本书目录】
 
第1章  数据挖掘基本概念  1
1.1  数据挖掘的定义  1
1.1.1  统计建模  1
1.1.2  机器学习  1
1.1.3  建模的计算方法  2
1.1.4  数据汇总  2
1.1.5  特征抽取  3
1.2  数据挖掘的统计限制  4
1.2.1  整体情报预警  4
1.2.2  邦弗朗尼原理  4
1.2.3  邦弗朗尼原理的一个例子  5
1.2.4  习题  6
1.3  相关知识  6
1.3.1  词语在文档中的重要性  6
1.3.2  哈希函数  7
1.3.3  索引  8
1.3.4  二级存储器  10
1.3.5  自然对数的底e  10
1.3.6  幂定律  11
1.3.7  习题  12
1.4  本书概要  13
1.5  小结  14
1.6  参考文献  14
第2章  大规模文件系统及Map-Reduce  16
2.1  分布式文件系统  16
2.1.1  计算节点的物理结构  17
2.1.2  大规模文件系统的结构  18
2.2  Map-Reduce  18
2.2.1  Map任务  19
2.2.2  分组和聚合  20
2.2.3  Reduce任务  20
2.2.4  组合器  21
下载地址