失效链接处理 |
hadoop词频统计课设报告书 PDF 下载 下载地址:
提取码:zfgv
相关截图: 主要内容:
本课程设计要求学生学习 Hadoop 的基本概念如 MapReduce、HDFS 等,搭建 Hadoop
平台进行相应的设计,掌握在 LINUX 下常用命令,并掌握 Hadoop 的基本操作;通过
MapReduce 编程,以哈姆雷特为研究对象,进行词频统计,统计单个或者多个文本文件中
每个词汇出现的次数;了解 Hadoop 分布式文件系统(HDFS)是 hadoop 上部署的存储架
构,熟练应用 Hadoop 对 HDFS 文件进行创建和读写等操作。通过本课程设计,建立起对
Hadoop 云计算的初步了解,最后通过 Hadoop 平台实现结果的显示。
Hadoop 起源于 Apache Nutch 项目,始于 2002 年,是 Apache Lucene 的子项目之一。
2004 年,Google 在“操作系统设计与实现”(Operating System Design and Implementation,
OSDI)会议上公开发表了题为 MapReduce:Simplified Data Processing on Large Clusters
(Mapreduce:简化大规模集群上的数据处理)的论文之后,受到启发的 Doug Cutting 等
人开始尝试实现 MapReduce 计算框架,并将它与 NDFS(Nutch Distributed File System)结
合,用以支持 Nutch 引擎的主要算法。由于 NDFS 和 MapReduce 在 Nutch 引擎中有着良好
的应用,所以它们于 2006 年 2 月被分离出来,成为一套完整而独立的软件,并被命名为
Hadoop。到了 2008 年年初,hadoop 已成为 Apache 的顶级项目,包含众多子项目,被应
用到包括 Yahoo 在内的很多互联网公司。
Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System(HDFS),它存
储 Hadoop 集群中所有存储节点上的文件。HDFS 的上一层是 MapReduce 引擎,该引擎由
JobTrackers 和 TaskTrackers 组成。通过对 Hadoop 分布式计算平台最核心的分布式文件系
统 HDFS、MapReduce 处理过程,以及数据仓库工具 Hive 和分布式数据库 Hbase 的介绍,
基本涵盖了 Hadoop 分布式平台的所有技术核心。
|