spark在yarn上运行作业报错

spark在yarn上运行作业报错：
java.lang.RuntimeException: Error in configuring object
at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:112)
at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:78)
at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:136)
at org.apache.spark.rdd.HadoopRDD.getInputFormat(HadoopRDD.scala:188)
at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:201)
at org.apache.spark.rdd.RDD $KaTeX parse error: Can't use function '$' in math mode at position 8: anonfun$̲partitions$2.ap\dots$ anonfun$partitions $2.apply(RDD.scala:250) at scala.Option.getOrElse(Option.scala:121) at org.apache.spark.rdd.RDD.partitions(RDD.scala:250) at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:252) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:250) at scala.Option.getOrElse(Option.scala:121) at org.apache.spark.rdd.RDD.partitions(RDD.scala:250) at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:252) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:250) at scala.Option.getOrElse(Option.scala:121) at org.apache.spark.rdd.RDD.partitions(RDD.scala:250) at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:252) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:250) at scala.Option.getOrElse(Option.scala:121) at org.apache.spark.rdd.RDD.partitions(RDD.scala:250) at org.apache.spark.ShuffleDependency.<init>(Dependency.scala:91) at org.apache.spark.rdd.ShuffledRDD.getDependencies(ShuffledRDD.scala:91) at org.apache.spark.rdd.RDD$ $anonfun$ dependencies $2.apply(RDD.scala:239) at org.apache.spark.rdd.RDD$ $anonfun$ dependencies $2.apply(RDD.scala:237) at scala.Option.getOrElse(Option.scala:121) at org.apache.spark.rdd.RDD.dependencies(RDD.scala:237) at org.apache.spark.scheduler.DAGScheduler.getShuffleDependencies(DAGScheduler.scala:424) at org.apache.spark.scheduler.DAGScheduler.getOrCreateParentStages(DAGScheduler.scala:373) at org.apache.spark.scheduler.DAGScheduler.createResultStage(DAGScheduler.scala:360) at org.apache.spark.scheduler.DAGScheduler.handleJobSubmitted(DAGScheduler.scala:838) at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:1613) at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1605) at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1594) at org.apache.spark.util.EventLoop$ $anon $1.run(EventLoop.scala:48) Caused by: java.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:109) ... 37 more Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo.LzoCodec not found. at org.apache.hadoop.io.compress.CompressionCodecFactory.getCodecClasses(CompressionCodecFactory.java:139) at org.apache.hadoop.io.compress.CompressionCodecFactory.<init>(CompressionCodecFactory.java:180) at org.apache.hadoop.mapred.TextInputFormat.configure(TextInputFormat.java:45) ... 42 more Caused by: java.lang.ClassNotFoundException: Class com.hadoop.compression.lzo.LzoCodec not found at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:2101) at org.apache.hadoop.io.compress.CompressionCodecFactory.getCodecClasses(CompressionCodecFactory.java:132) ... 44 more 20/03/08 18:10:11 INFO scheduler.DAGScheduler: Job 0 failed: saveAsTextFile at WordCount.scala:35, took 0.042565 s Exception in thread "main" java.lang.RuntimeException: Error in configuring object at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:112) at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:78) at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:136) at org.apache.spark.rdd.HadoopRDD.getInputFormat(HadoopRDD.scala:188) at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:201) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:252) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:250) at scala.Option.getOrElse(Option.scala:121) at org.apache.spark.rdd.RDD.partitions(RDD.scala:250) at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:252) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:250) at scala.Option.getOrElse(Option.scala:121) at org.apache.spark.rdd.RDD.partitions(RDD.scala:250) at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:252) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:250) at scala.Option.getOrElse(Option.scala:121) at org.apache.spark.rdd.RDD.partitions(RDD.scala:250) at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:252) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:250) at scala.Option.getOrElse(Option.scala:121) at org.apache.spark.rdd.RDD.partitions(RDD.scala:250) at org.apache.spark.ShuffleDependency.<init>(Dependency.scala:91) at org.apache.spark.rdd.ShuffledRDD.getDependencies(ShuffledRDD.scala:91) at org.apache.spark.rdd.RDD$ $anonfun$ dependencies $2.apply(RDD.scala:239) at org.apache.spark.rdd.RDD$ $anonfun$ dependencies $2.apply(RDD.scala:237) at scala.Option.getOrElse(Option.scala:121) at org.apache.spark.rdd.RDD.dependencies(RDD.scala:237) at org.apache.spark.scheduler.DAGScheduler.getShuffleDependencies(DAGScheduler.scala:424) at org.apache.spark.scheduler.DAGScheduler.getOrCreateParentStages(DAGScheduler.scala:373) at org.apache.spark.scheduler.DAGScheduler.createResultStage(DAGScheduler.scala:360) at org.apache.spark.scheduler.DAGScheduler.handleJobSubmitted(DAGScheduler.scala:838) at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:1613) at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1605) at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1594) at org.apache.spark.util.EventLoop$ $anon $1.run(EventLoop.scala:48) at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:628) at org.apache.spark.SparkContext.runJob(SparkContext.scala:1925) at org.apache.spark.SparkContext.runJob(SparkContext.scala:1938) at org.apache.spark.SparkContext.runJob(SparkContext.scala:1958) at org.apache.spark.rdd.PairRDDFunctions$ $anonfun$ saveAsHadoopDataset $1.apply$ mcV $sp(PairRDDFunctions.scala:1226) at org.apache.spark.rdd.PairRDDFunctions$ $anonfun$ saveAsHadoopDataset $1.apply(PairRDDFunctions.scala:1168) at org.apache.spark.rdd.PairRDDFunctions$ $anonfun$ saveAsHadoopDataset $1.apply(PairRDDFunctions.scala:1168) at org.apache.spark.rdd.RDDOperationScope$ .withScope(RDDOperationScope.scala:151)
at org.apache.spark.rdd.RDDOperationScope $.withScope(RDDOperationScope.scala:112) at org.apache.spark.rdd.RDD.withScope(RDD.scala:362) at org.apache.spark.rdd.PairRDDFunctions.saveAsHadoopDataset(PairRDDFunctions.scala:1168) at org.apache.spark.rdd.PairRDDFunctions$ $anonfun$ saveAsHadoopFile $4.apply$ mcV $sp(PairRDDFunctions.scala:1071) at org.apache.spark.rdd.PairRDDFunctions$ $anonfun$ saveAsHadoopFile $4.apply(PairRDDFunctions.scala:1037) at org.apache.spark.rdd.PairRDDFunctions$ $anonfun$ saveAsHadoopFile $4.apply(PairRDDFunctions.scala:1037) at org.apache.spark.rdd.RDDOperationScope$ .withScope(RDDOperationScope.scala:151)
at org.apache.spark.rdd.RDDOperationScope $.withScope(RDDOperationScope.scala:112) at org.apache.spark.rdd.RDD.withScope(RDD.scala:362) at org.apache.spark.rdd.PairRDDFunctions.saveAsHadoopFile(PairRDDFunctions.scala:1037) at org.apache.spark.rdd.PairRDDFunctions$ $anonfun$ saveAsHadoopFile $1.apply$ mcV $sp(PairRDDFunctions.scala:963) at org.apache.spark.rdd.PairRDDFunctions$ $anonfun$ saveAsHadoopFile $1.apply(PairRDDFunctions.scala:963) at org.apache.spark.rdd.PairRDDFunctions$ $anonfun$ saveAsHadoopFile $1.apply(PairRDDFunctions.scala:963) at org.apache.spark.rdd.RDDOperationScope$ .withScope(RDDOperationScope.scala:151)
at org.apache.spark.rdd.RDDOperationScope $.withScope(RDDOperationScope.scala:112) at org.apache.spark.rdd.RDD.withScope(RDD.scala:362) at org.apache.spark.rdd.PairRDDFunctions.saveAsHadoopFile(PairRDDFunctions.scala:962) at org.apache.spark.rdd.RDD$ $anonfun$ saveAsTextFile $1.apply$ mcV $sp(RDD.scala:1489) at org.apache.spark.rdd.RDD$ $anonfun$ saveAsTextFile $1.apply(RDD.scala:1468) at org.apache.spark.rdd.RDD$ $anonfun$ saveAsTextFile $1.apply(RDD.scala:1468) at org.apache.spark.rdd.RDDOperationScope$ .withScope(RDDOperationScope.scala:151)
at org.apache.spark.rdd.RDDOperationScope $.withScope(RDDOperationScope.scala:112) at org.apache.spark.rdd.RDD.withScope(RDD.scala:362) at org.apache.spark.rdd.RDD.saveAsTextFile(RDD.scala:1468) at com.atguigu.spark.WordCount$ .main(WordCount.scala:35)
at com.atguigu.spark.WordCount.main(WordCount.scala)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at org.apache.spark.deploy.SparkSubmit $.org$ apache $spark$ deploy $SparkSubmit$ $runMain(SparkSubmit.scala:743) at org.apache.spark.deploy.SparkSubmit$ .doRunMain $1(SparkSubmit.scala:187) at org.apache.spark.deploy.SparkSubmit$ .submit(SparkSubmit.scala:212)
at org.apache.spark.deploy.SparkSubmit $.main(SparkSubmit.scala:126) at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala) Caused by: java.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:109) at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:78) at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:136) at org.apache.spark.rdd.HadoopRDD.getInputFormat(HadoopRDD.scala:188) at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:201) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:252) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:250) at scala.Option.getOrElse(Option.scala:121) at org.apache.spark.rdd.RDD.partitions(RDD.scala:250) at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:252) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:250) at scala.Option.getOrElse(Option.scala:121) at org.apache.spark.rdd.RDD.partitions(RDD.scala:250) at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:252) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:250) at scala.Option.getOrElse(Option.scala:121) at org.apache.spark.rdd.RDD.partitions(RDD.scala:250) at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:252) at org.apache.spark.rdd.RDD$ $anonfun$ partitions $2.apply(RDD.scala:250) at scala.Option.getOrElse(Option.scala:121) at org.apache.spark.rdd.RDD.partitions(RDD.scala:250) at org.apache.spark.ShuffleDependency.<init>(Dependency.scala:91) at org.apache.spark.rdd.ShuffledRDD.getDependencies(ShuffledRDD.scala:91) at org.apache.spark.rdd.RDD$ $anonfun$ dependencies $2.apply(RDD.scala:239) at org.apache.spark.rdd.RDD$ $anonfun$ dependencies $2.apply(RDD.scala:237) at scala.Option.getOrElse(Option.scala:121) at org.apache.spark.rdd.RDD.dependencies(RDD.scala:237) at org.apache.spark.scheduler.DAGScheduler.getShuffleDependencies(DAGScheduler.scala:424) at org.apache.spark.scheduler.DAGScheduler.getOrCreateParentStages(DAGScheduler.scala:373) at org.apache.spark.scheduler.DAGScheduler.createResultStage(DAGScheduler.scala:360) at org.apache.spark.scheduler.DAGScheduler.handleJobSubmitted(DAGScheduler.scala:838) at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:1613) at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1605) at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1594) at org.apache.spark.util.EventLoop$ $anon$1.run(EventLoop.scala:48)
Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo.LzoCodec not found.
at org.apache.hadoop.io.compress.CompressionCodecFactory.getCodecClasses(CompressionCodecFactory.java:139)
at org.apache.hadoop.io.compress.CompressionCodecFactory.(CompressionCodecFactory.java:180)
at org.apache.hadoop.mapred.TextInputFormat.configure(TextInputFormat.java:45)
… 42 more
Caused by: java.lang.ClassNotFoundException: Class com.hadoop.compression.lzo.LzoCodec not found
at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:2101)
at org.apache.hadoop.io.compress.CompressionCodecFactory.getCodecClasses(CompressionCodecFactory.java:132)
… 44 more
错误信息

原因：
在Hadoop中配置了支持LZO压缩格式，并且存储在HDFS中的文件也为LZO格式存储，而使用yarn资源调度框架来调度spark引擎进行计算时，spark并不支持读取LZO压缩格式的文件，导致报错

解决方法：
[ 在spark中配置支持LZO格式 ]
找到spark的conf文件夹，编辑spark-defaults.conf，添加下面两行：
spark.driver.extraClassPath /opt/module/hadoop-2.7.2/share/hadoop/common/hadoop-lzo-0.4.20.jar

spark.executor.extraClassPath /opt/module/hadoop-2.7.2/share/hadoop/common/hadoop-lzo-0.4.20.jar

即指定配置Hadoop支持LZO压缩时编译的LZOjar的存储位置（即${HADOOP_HOME}/share/hadoop/common/…）

再次运行成功

来源：CSDN

作者：xuwenzhao

链接：https://blog.csdn.net/xuwenzhao/article/details/104721660

标签

yarn