博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
好程序员大数据点睛:Hadoop基础篇
阅读量:5101 次
发布时间:2019-06-13

本文共 805 字,大约阅读时间需要 2 分钟。

  好程序员大数据点睛:Hadoop基础篇,Hadoop包含两个部分:

  1.Hadoop Distributed File System (Hadoop分布式文件系统)

  HDFS具有高容错性,并且可以被部署在低价的硬件设备之上。HDFS很适合那些有大数据集的应用,并且提供了对数据读写的高吞吐率。HDFS是一个master/slave的结构,就通常的部署来说,在master上只运行一个Namenode,而在每一个slave上运行一个Datanode。

  HDFS支持传统的层次文件组织结构,同现有的一些文件系统在操作上很类似,比如你可以创建和删除一个文件,把一个文件从一个目录移到另一个目录,重命名等等操作。Namenode管理着整个分布式文件系统,对文件系统的操作(如建立、删除文件和文件夹)都是通过Namenode来控制。

  2、MapReduce的实现

  MapReduce是Google 的一项重要技术,它是一个编程模型,用以进行大数据量的计算。对于大数据量的计算,通常采用的处理手法就是并行计算。至少现阶段而言,对许多开发人员来说,并行计算还是一个比较遥远的东西。MapReduce就是一种简化并行计算的编程模型,它让那些没有多少并行计算经验的开发人员也可以开发并行应用。

  MapReduce的名字源于这个模型中的两项核心操作:Map和 Reduce。简单的说来,Map是把一组数据一对一的映射为另外的一组数据,其映射的规则由一个函数来指定,比如对[1, 2, 3, 4]进行乘2的映射就变成了[2, 4, 6, 8]。Reduce是对一组数据进行归约,这个归约的规则由一个函数指定,比如对[1, 2, 3, 4]进行求和的归约得到结果是10,而对它进行求积的归约结果是24。

转载于:https://www.cnblogs.com/gcghcxy/p/10906066.html

你可能感兴趣的文章
CLR 关于强命名程序集 .
查看>>
[BZOJ 3489] A simple rmq problem 【可持久化树套树】
查看>>
idea 导入eclipse play1.2.7项目
查看>>
Jersey客户端API调用REST风格的Web服务
查看>>
Windows10更新提示语言不同不能保留程序和设置
查看>>
PHP动态生成select标签
查看>>
Laravel 日志权限问题
查看>>
Laravel Carbon获取 某个时间后N个月的时间
查看>>
Laravel 指定日志生成目录
查看>>
layui 表格点击图片放大
查看>>
there is no permission with id `12`
查看>>
Laravel使用EasyWechat 进行微信支付
查看>>
我的大二学年总结
查看>>
WEB SERVER调优
查看>>
Linux中的线程与进程以及调度
查看>>
Jetty性能调优
查看>>
Java设计模式
查看>>
Spring动态的切换数据源
查看>>
性能调优工具
查看>>
https的报文传输机制
查看>>