这一讲主要深入使用HDFS命令行工具操作Hadoop分布式集群,主要是通过实验的配置hdfs-site.xml文件的心跳来测试replication具体的工作和流程。
通过HDFS的心跳来测试replication具体的工作机制和流程的PDF版本请猛击这里。
王家林的“云计算分布式大数据Hadoop实战高手之路”之完整发布目录
云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发布云计算实战性资料,欢迎大家加入!
在王家林 第六讲Hadoop图文训练课程:使用HDFS命令行工具操作Hadoop分布式集群初体验中,我们配置了hadoop.main这台主机的hdfs-site.xml这个配置文件的“dfs.replication”的值为2:
当我们上传文件时候文件会保存2份副本:
下面我们通过实验的方式探究replication属性配置的作用。
首先关闭集群:
然后修改hadoop.main这台机器上的hdfs-site.xml配置文件:
在这个配置文件中加入新的配置信息:
保存退出。
新加入的配置信息:
的具体含义是当DataNode和NameNode的心跳失去连接的时间超过15秒之后,Hadoop系统就会认为这个DataNode已经死亡,此时Hadoop会把这个DataNode标记为不能工作的状态,以后如果客户端去 访问数据的时候,Hadoop就不会尝试到这个DataNode去获取数据。
下面看一下其工作的具体方式:
首先启动HDFS:
进入HDFS的Web监控台的Node页面:
我们发现hadoop.main和hadoop.slave这两个DataNode均在正常的工作中。
我们观察到“Last Contact”选项的数据,该数据是表明DataNode和NameNode最近联系的心跳成功的时间,我们再次刷新页面看一下这个数据:
我们发现这个具体的数据时比较低的。
此时我们通过命令行工作查看datanode进程:
我们发现hadoop.main上运行的DataNode节点的进程是16228,我们把这个DataNode杀掉:
我们再次刷新HDFS的Node的控制台:
继续刷新:
继续刷新:
可以发现第一个DataNode的心跳时间不断的在增加,同时在第三次刷新的时候心跳间隔时间为25,这个数据超过我们配置文件中的15,再刷新一次:
此时发现只有一个正在服务的DataNode,因为我们的Hadoop.main中的DataNode心跳间隔时间超过了15秒,Hadoop此时把把该节点标记为无效节点。
我们返回文件系统页面看一下我们上传的文件存储信息:
此外发现文件的可访问信息只是存放在了hadoop.slave这个节点中了,当然,此时我们还是可以正常的访问文件,虽然只有一份可用副本,这就是replication节点的作用,我们在配置该节点的时候把值设置为2,表明同一个文件在HDFS中有两个副本,当一个运行DataNode的进程因为某些原因不能工作的时候,我们依旧可以使用剩余的一份副本工作,这不会影响客户端对数据的访问。
相关推荐
王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第七讲Hadoop图文训练课程:通过HDFS的心跳来测试replication具体的工作机制和流程. 此教程来自于王家林免费发布的3本Hadoop教程:云计算分布式...
2.大数据的4个特点是什么? 3.虚拟机与主机构成闭环局域网的链接叫什么? 4.在用户目录下的test目录下,创建一个文件hello.txt,文件内容是包含usr的运行进程列表,然后将目录的所有文件发送到主机名为test的服务器...
第一种:通过Linux图形界面进行修改(强烈推荐) 进入Linux图形界面 -> 右键点击右上方的两个小电脑 -> 点击Edit connections -> 选中当前网络System eth0 -> 点击edit按钮 -> 选择IPv4 -> method选择为manual -> ...
1.a1 192.168.9.1 (master) a2 192.168.9.2 (slave1) a3 192.168.9.3 (slave2) 修改/etc/hosts 2.3台机器 创建hadoop 用户 ...[hadoop@a1 hadoop-0.20.2-cdh3u5]$ bin/hadoop dfsadmin -report
DS_MapReduce Hadoop MapReduce 实现与 HDFS 一起有 2 个主服务器 NameNode 和 Jobtracker。它们可以在不同的机器上运行。 Datanodes 和 TaskTracker 必须在同一台机器上运行。 GeneralClient 应该用于与 HDFS 通信...
--replication-factor 1 \ --partitions 1 \ --topic traffic 5. 启动consumer > [hadoop@mini1 kafka_2.12-0.11.0.2]$ bin/kafka-console-consumer.sh \ --zookeeper mini1:2181 \ --topic traffic \ --from-...
2.4. HBase运行模式:单机和分布式 2.5. ZooKeeper 2.6. 配置文件 2.7. 配置示例 2.8. 重要配置 2.9. Bloom Filter 3. 升级 3.1. 从HBase 0.20.x or 0.89.x 升级到 HBase 0.90.x 3.2. 从 0.90.x 到 0.92.x 4. The ...
-------hadoop配置--------- core-site.xml <name>fs.defaultFS <value>hdfs://slave-01:9000 <name>hadoop.tmp.dir <value>/root/hadoopv3/tmp hdfs-site.xml <name>dfs.replication <value>3 ...
Hadoop、Spark、机器学习、Java、Python、单元测试、清洁代码、Py 项目管理等主题, 关注我,,,, 获取 HDFS 文件大小 $ hdfs dfs -du -s -h hdfs://hadoop-cluster/user/hive/warehouse/hive_schema.db/table 655...
项目的所有I / P和O / P文件 源代码 设置环境 下载环境 JDK 1.8 HADOOP ZOOKEEPER 卡夫卡 HBASE 设置环境 哈多普 core-site.xml < name>fs.defaultFS < value>hdfs://hadoop001:8020 hdfs-...
海藻 SeaweedFS是一个独立的Apache许可的开源项目,由于这些出色的的支持,其正在进行的开发... 另外,要增加容量,只需通过在本地,在另一台计算机上或在其他计算机上运行weed volume -dir="/some/data/dir2" -mser