adsense728x90


태그 : spark 요약보기전체보기목록닫기

1 2 3

spark ALS memory 문제 해결 조사

spark 실행이 error로 멈추곤 하는데,시작하는 error를 잘 보면, OutOfMemoryError로 시작하거나, TimeoutException으로 시작했다.처음에는 tuning을 해봤다.connection heartbeat, timeout 시간을 엄청 늘려주고, memory를 잘 맞춰서 늘려줬다.      --conf...

spark random data 만들기

https://spark.apache.org/docs/1.6.1/api/scala/index.html#org.apache.spark.mllib.random.RandomRDDs$defnormalVectorRDD(sc: SparkContext, numRows: Long, numCols: Int, numP...

spark yarn에서 memory 부족해서 실행이 안 될 때

yarn memory, spark memory 설정 조정.http://spark.apache.org/docs/latest/running-on-yarn.htmlhttps://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/Spark num-executorsyarn memor...

spark로 mongodb에 data 넣기

spark-mongodb 를 쓰니까 serialization까지 잘 됐다.<dependency> <groupId>com.stratio.datasource</groupId> <artifactId>spark-mongodb_2.10</artifactId> <version>0.11.0</ve...

spark submit 실패

spark submit 문제 해결 중.typescript configuration은 --files로 넣어야 하는 것 같았다.Subject: Re: No configuration setting found for key'akka.event-handlers' https://mail-archives.apache.org/mod_mbox/mahout-us...

spark hdfs file 접근해서 조작하기

apache spark - check if file existsval conf = sc.hadoopConfigurationval fs = org.apache.hadoop.fs.FileSystem.get(conf)val exists = fs.exists(new org.apache.hadoop.fs.Path("/path/on/hdfs/to/SUCCESS.t...

spark RDD에 serializable만 넣을 수 있다는 error 안 나오게

org.apache.spark.SparkException: Task not serializablehttps://databricks.gitbooks.io/databricks-spark-knowledge-base/content/troubleshooting/javaionotserializableexception.htmlSerializable the class...

spark 추천 engine 만들기 seminar videos

https://spark-summit.org/2014/talk/music-recommendations-at-scale-with-sparkcollaborative filteringALS 설명이 좀 있네. 직접 구현했네. 옛날이라 그런가.hadoop, spark위에서 algorithms 구현 방식에 대해 설명이 많다.https://spark-summit.o...

spark에서 pca로 줄여서 kmeans로 clustering

Principal component analysis (PCA)K-meanshttp://www.glassbeam.com/scalable-machine-learning-apache-spark-mlbase/pc를 clustering하는 것은 좀 이상하다.계산 다음에 matrix를 export하기Save Spark org.apache.spark.mllib.li...

findpark로 ipython 4 pyspark 설정하기

cloudera로 spark 설치해보고 써 보기예전에는 cloudera에서 설명해주는대로 ipython, pyspark 설정을 할 수 있었는데,ipython 4.0+ 이 되면서 달라졌다.IPython notebook won't read the configuration fileConfigure Ipython/Jupyter notebook with Pysp...
1 2 3