【求解惑】org.apache.shuffle.FetchFailedException:Failed to connect to xxx:41972

报错的原因是因为某一天集群切换ups电源时,出现了断电。重启集群后写parquet文件就会出现不成功。
  1. 空文件和少量文件写parquet没毛病,都能写成功
  2. 大量数据80%写不成功,20%能写成功
  3. hdfs 还有1/3的空间,机器的本地磁盘也有30-40%的空闲。集群是配置是64核256G48T
  4. 报错的几台datanode 单独看没有问题
  5. 出错的代码都是上线运行了几个月,而且不是单个代码报错,涉及写文件的都报错,随便一个select 写都报错

在这里插入图片描述
在这里插入图片描述
以上两张图片出来运行时间不一样,资源、位置、源数据、代码都一模一样
救救孩子吧,孩子看吐了也没找出问题

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>