大数据：互联网大规模数据挖掘与分布式处理

大小：33690 KB
语言：中文版
格式： PDF版
阅读软件： Adobe Reader

资源简介

大数据：互联网大规模数据挖掘与分布式处理
作者：（美） Anand Rajaraman （美） Jeffrey David Ullman 著，王斌译
出版时间：2012-9-1

【图书简介】

本书源自作者在斯坦福大学教授多年的“Web挖掘”课程材料，主要关注大数据环境下数据挖掘的实际算法。书中分析了海量数据集数据挖掘常用的算法，介绍了目前Web应用的许多重要话题。主要内容包括：□ 分布式文件系统以及Map-Reduce工具；□ 相似性搜索；□ 数据流处理以及针对易丢失数据等特殊情况的专用处理算法；□ 搜索引擎技术，如谷歌的PageRank；□ 频繁项集挖掘；□ 大规模高维数据集的聚类算法；□ Web应用中的关键问题：广告管理和推荐系统。本书配套网http：//infolab.stanford.edu/~ullman/mmds.html上提供英文版初稿以及一些课件和项目作业。

【作者简介】

AnandRajaraman　数据库和Web技术领域权威，创业投资基金Cambrian联合创始人，斯坦福大学计算机科学系助理教授。Rajaraman职业生涯非常成功：1996年创办Junglee公司，两年后该公司被亚马逊以2.5亿美元收购，Rajaraman被聘为亚马逊技术总监，推动亚马逊从一个零售商转型为零售平台；2000年与人合创Cambrian，孵化出几个后来被谷歌收购的公司；2005年创办Kosmix公司并任CEO，该公司2011年被沃尔玛集团收购。Rajaraman生于印度，在斯坦福大学获得计算机科学硕士和博士学位。求学期间与人合著的一篇论文荣列近20年来被引用次数最多的论文之一。博客地址http：//anand.typepad.com/datawocky/。Jeffrey DavidUllman　美国国家工程院院士，计算机科学家，斯坦福大学教授。Ullman早年在贝尔实验室工作，之后任教于普林斯顿大学，十年后加入斯坦福大学直至退休，一生的科研、著书和育人成果卓著。他是ACM会员，曾获SIGMOD贡献奖、Knuth奖等多项科研大奖；他是“龙书”《编译原理》、数据库领域权威指南《数据库系统实现》的合著者；麾下多名学生成为了数据库领域的专家，其中最有名的当属谷歌创始人SergeyBrin；本书第一作者也是他的得意弟子。Ullman目前任Gradiance公司CEO。译者简介：王斌　博士，中国科学院计算技术研究所博士生导师。中国科学院信息工程研究所客座研究员。主要研究方向为信息检索、自然语言处理和数据挖掘。《信息检索导论》译者。主持国家973、863、国家自然科学基金、国际合作基金、国家支撑计划等课题20余项，发表学术论文120余篇。现为ACM会员、中国中文信息学会理事、中文信息学会信息检索专委会委员、《中文信息学报》编委、中国计算机学会高级会员及计算机学会中文信息处理专委会委员。自2006年起在中国科学院研究生院（现改名“中国科学院大学”）讲授《现代信息检索》研究生课程，选课人数累计近千人。2010年开始指导研究生，迄今培养博士、硕士研究生30余名。

【本书目录】

第1章　数据挖掘基本概念　　1
1.1　数据挖掘的定义　　1
1.1.1　统计建模　　1
1.1.2　机器学习　　1
1.1.3　建模的计算方法　　2
1.1.4　数据汇总　　2
1.1.5　特征抽取　　3
1.2　数据挖掘的统计限制　　4
1.2.1　整体情报预警　　4
1.2.2　邦弗朗尼原理　　4
1.2.3　邦弗朗尼原理的一个例子　　5
1.2.4　习题　　6
1.3　相关知识　　6
1.3.1　词语在文档中的重要性　　6
1.3.2　哈希函数　　7
1.3.3　索引　　8
1.3.4　二级存储器　　10
1.3.5　自然对数的底e　　10
1.3.6　幂定律　　11
1.3.7　习题　　12
1.4　本书概要　　13
1.5　小结　　14
1.6　参考文献　　14
第2章　大规模文件系统及Map-Reduce　　16
2.1　分布式文件系统　　16
2.1.1　计算节点的物理结构　　17
2.1.2　大规模文件系统的结构　　18
2.2　 Map-Reduce　　18
2.2.1　 Map任务　　19
2.2.2　分组和聚合　　20
2.2.3　 Reduce任务　　20
2.2.4　组合器　　21

下载地址

点击进入下载地址列表

立即下载

首页

标准规范

论文

工业技术

资料

图纸模型

PPT模板

专题

资源合集

大数据：互联网大规模数据挖掘与分布式处理

推荐信息