adsense728x90


hdfs data를 spark rdd로 읽기

cloudera로 spark 설치해보고 써 보기


ipython notebook

textFile()로 읽으면, spark rdd가 된다.
saveAs...() 하면, rdd가 파일로 serialize돼서 저장이 된다.

data는 기본적으로 new line으로 나눠서 row가 되나 보다.
json, csv 등 뭔가 format이더라도 각 row 별로 그 format으로 되어 있어야 하겠다.

hdfs에 avro로 각 열이 저장돼 있을 땐, python으로 읽는 것은 실패했다.
python avro library로는 파일 전체를 avro로 읽을 수만 있는 것 같다.
spark에서는 java avro converter를 지정해서 열어야 하는데, 왠지 실패하더라.

덧글

댓글 입력 영역