Exception in thread "main" org.apache.spark.SparkException: Task not serializable异常
2014-11-24 10:31
633 查看
问题:Exception in thread "main" org.apache.spark.SparkException: Task not serializable异常
问题原因:
所生成的任务对象需要序列化,以便的不同的节点进行传输,保证数据的正确性。
/////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
Java 串行化技术可以使你将一个对象的状态写入一个Byte 流里,并且可以从其它地方把该Byte 流里的数据读出来,重新构造一个相同的对象。这种机制允许你将对象通过网络进行传播,并可以随时把对象持久化到数据库、文件等系统里。Java的串行化机制是RMI、EJB等技术的技术基础。用途:利用对象的串行化实现保存应用程序的当前工作状态,下次再启动的时候将自动地恢复到上次执行的状态。
序列化就是一种用来处理对象流的机制,所谓对象流也就是将对象的内容进行流化。可以对流化后的对象进行读写操作,也可将流化后的对象传输于网络之间。序列化是为了解决在对对象流进行读写操作时所引发的问题。
序列化的实现:将需要被序列化的类实现Serializable接口,然后使用一个输出流(如:FileOutputStream)来构造一个ObjectOutputStream(对象流)对象,接着,使用ObjectOutputStream对象的writeObject(Object
obj)方法就可以将参数为obj的对象写出(即保存其状态),要恢复的话则用输入流。
以上内容来自于:http://blog.csdn.net/yakihappy/article/details/3979373
/////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
解决方案:
Scala的object和class需要实现接口 Serializable
/**
* constructor the object
*/
objectLewa_device_report extendsSerializable {}
/**
* @author Administrator
* filepath : String
* originalfileRDD : org.apache.spark.rdd.RDD[StringBuffer]
* sqlcontext :org.apache.spark.sql.SQLContext
*/
class Lewa_device_report( var filepath:String, val sparkcontext:org.apache.spark.SparkContext,val sqlcontext:org.apache.spark.sql.SQLContext)extends Serializable{}
查看一下API文档
关于SparkContext
关于SQLconntext
问题出在了SparkContext上,该类没有序列化
解决:转换思路,传递的参数不要包含SparkContext 参数
2015年1月11日13:51:49
昨天在上海Intel的spark meetup上 paypal公司的戴云晶分享的spark讲解中 关于这个问题的解决方案,使用@Transient 和 implicit去解决,
@ Transient var nativeLogger = Logger.getRootLogger()
implicit def logger = nativeLogger
但是, 我使用后依然出现问题:
问题原因:
所生成的任务对象需要序列化,以便的不同的节点进行传输,保证数据的正确性。
/////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
Java 串行化技术可以使你将一个对象的状态写入一个Byte 流里,并且可以从其它地方把该Byte 流里的数据读出来,重新构造一个相同的对象。这种机制允许你将对象通过网络进行传播,并可以随时把对象持久化到数据库、文件等系统里。Java的串行化机制是RMI、EJB等技术的技术基础。用途:利用对象的串行化实现保存应用程序的当前工作状态,下次再启动的时候将自动地恢复到上次执行的状态。
序列化就是一种用来处理对象流的机制,所谓对象流也就是将对象的内容进行流化。可以对流化后的对象进行读写操作,也可将流化后的对象传输于网络之间。序列化是为了解决在对对象流进行读写操作时所引发的问题。
序列化的实现:将需要被序列化的类实现Serializable接口,然后使用一个输出流(如:FileOutputStream)来构造一个ObjectOutputStream(对象流)对象,接着,使用ObjectOutputStream对象的writeObject(Object
obj)方法就可以将参数为obj的对象写出(即保存其状态),要恢复的话则用输入流。
以上内容来自于:http://blog.csdn.net/yakihappy/article/details/3979373
/////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
解决方案:
Scala的object和class需要实现接口 Serializable
/**
* constructor the object
*/
objectLewa_device_report extendsSerializable {}
/**
* @author Administrator
* filepath : String
* originalfileRDD : org.apache.spark.rdd.RDD[StringBuffer]
* sqlcontext :org.apache.spark.sql.SQLContext
*/
class Lewa_device_report( var filepath:String, val sparkcontext:org.apache.spark.SparkContext,val sqlcontext:org.apache.spark.sql.SQLContext)extends Serializable{}
查看一下API文档
关于SparkContext
关于SQLconntext
问题出在了SparkContext上,该类没有序列化
解决:转换思路,传递的参数不要包含SparkContext 参数
2015年1月11日13:51:49
昨天在上海Intel的spark meetup上 paypal公司的戴云晶分享的spark讲解中 关于这个问题的解决方案,使用@Transient 和 implicit去解决,
@ Transient var nativeLogger = Logger.getRootLogger()
implicit def logger = nativeLogger
但是, 我使用后依然出现问题:
相关文章推荐
- 提交spark的代码的时候出现Exception in thread "main" org.apache.SparkException:Yarn application has already end
- Exception in thread "main" org.apache.spark.SparkException: Application application_1498149692663_01
- Exception in thread "main" org.apache.spark.SparkException: Task not serializable--two
- mllib:Exception in thread "main" org.apache.spark.SparkException: Input validation failed.
- Exception in thread "main" java.lang.NoSuchMethodError: org.apache.poi.poifs.filesystem.POIFSFileSys
- Exception in thread "main" java.lang.UnsupportedClassVersionError: org/apache/ma ven/cli/Maven
- Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission denied: use
- Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/xmlbeans/XmlObject
- Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Wi
- Exception in thread "main" java.lang.UnsupportedClassVersionError: org/apache/maven/cli/MavenCli : U
- Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/juli/l
- Exception in thread "main" java.lang.NoSuchMethodError: org.apache.lucene.codecs.DocValuesFormat: me
- Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/collections/map/LRUMap
- Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/xml/serializer/TreeWalker
- Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/logging/LogFactory
- Exceptionin thread "main" java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(II[BI[BIILjav
- exception in thread main org.apache.spark.sparkexception:A master URL must be set in your
- Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/logging/LogFactory
- Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/lang/exception/Nestabl
- Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/logging/LogFactory