线上实时计算任务失败

driver打印error日志

解析日志并告警

分析日志

如果是logHub日志解析出现格式异常,偶

发性问题可直接重启,后续再优化

如果Partition数小于slave数,则

增加任务Partition提高并发数量。初始化并重启

其它原因

虚拟内存

适当增加虚拟内存比:

yarn.nodemanager.vmem-pmem-ratio

如果Partition数小于slave数,则

增加任务Partition提高并发数量。初始化并重启。

物理内存不足

初始化并重启任务

如果集群整体内存资源充足,配置

yarn.nodemanager.resource.memory-mb

yarn.scheduler.minimum-allocation-mb

增加container内存配置并重启

问题解决

N

流程结束

通知并协助运维扩容内存资源

是否解决

N

是否解决

N

内存不足

如果集群整体CPU资源充足,配置

yarn.scheduler.maximum-allocation-vcores

通知并协助运维扩容CPU资源

CPU不足导致slave心跳超时未响应

其它未知原因需进行针对性的分析优化,

再对任务进行手工重启

是否解决

N

是否解决

N

虚拟内存不足

初始化并重启

数据问题

N

代码更新数据规则,过滤异常数据

流程结束

初始化并重启

Y

Y

如果CPU占用率持续100%,同时重启后

无法解决,Top命令排查是否被挖

矿程序入侵,并通知协助运维清理。

ECS集群线上实时计算任务失败处理流程

预警流程

预警流程

2019-10-16 08:58:47 0 62
这里是评论

相关推荐