昨天晚上EMR 节点挂掉3台,今天中午又LOST了6台, 本来就二三十台的小集群,LOST了三分之一的机器
处理方法:
1 EMR namenode 和datanode节点 之间没有做免登陆的配置
ssh的时候必须带私钥
如:
ssh -i ~/XXX.pem username@ip
登陆到datanode 节点重启datanode节点即可
2 启动datanode节点
./sbin/hadoop-daemon.sh stop datanode
./sbin/hadoop-daemon.sh start datanode
./sbin/yarn-daemon.sh start nodemanager
3 LOST突然丢失这么多,在集群压力还是很小的情况下,还是比较意外的。
看样子还得加相关的监控,不能太相信云服务的可靠性。
阅读(1382) | 评论(0) | 转发(0) |