提升 maven 编译 scala 的速度

Posted on 2018-11-01 by ZRJ

我们 spark 的计算任务是用 scala 来写的，maven 编译，但是随着 scala 源文件的数量越来越多，（现在一个 project 已经 800+ 源文件了），编译速度成为了一个很大瓶颈，编译一次都要 10+ 分钟，大大影响了开发效率首先想到的是，排除掉一些与自己计算任务无关的代码，看看能不能加速，从这里看到 https://stackoverflo……

阅读全文

spark word count 和 streaming 的例子

Posted on 2018-06-26 by ZRJ

package me.zrj.test.test20170731 import org.apache.spark.SparkContext import org.apache.spark.SparkConf import java.util.Properties import org.apache.log4j.PropertyConfigurator import org.apache.spark.streaming.StreamingContext import org.apache.spark.streaming.Seconds object SparkWo……

阅读全文

kafka + spark streaming(1)

Posted on 2018-03-30 by ZRJ

之前写过一个 kafka + spark streaming 的测试用例，但是当时没有记录下来，这部分的东西还是很重要的，需要找时间回头补上看到这里有一个教程， http://colobu.com/2015/01/05/k… 写的挺不错 ——————- 2018-11-12 21:26:25 追加终于来补上这个坑，一晃都快一年过去了，真的……

阅读全文

spark 写 gp/tpg 效率优化 —— 写入 237w 行数据耗时从 77 分钟到 34 秒

Posted on 2017-07-27 by ZRJ

摘自内部分享，有删减。具体到我们这次的场景中，我们用的是 gp，gp 全称是 greenplum，是一个 mpp 版本的 postgresql，可以参考这个简介 http://www.infoq.com/cn/news/2… ，协议上兼容 postgresql，我们可以用普通能连 postgresql 的方式去连 gp，并且把 gp 看成一个黑盒的集群版本的 postgresql 来使用然后这……

阅读全文

spark 中的日志

Posted on 2017-03-02 by ZRJ

在打包一个 spark streaming 工程到 yarn 上跑的时候，发现自己的 log4j.properties 没有被读取 SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation. SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] log4j: Trying to find [log4j.xml] using context class……

阅读全文

zeppelin 搭建 spark sql context

Posted on 2016-12-12 by ZRJ

zeppelin 上跑 spark sql 有两种方式，一种是 spark 启动一个 thrift server，然后对外提供一个 jdbc 服务，zeppelin 通过 jdbc 的方式，连上 spark thrift server，提交 sql，等待返回，这种方式听上去很美好，毕竟实现了前后端解耦，但是实际使用中发现，spark thrift server 这个东西不够成熟，如果长时间持有一个 sp……

阅读全文

spark on hive 模式导致读写 hdfs 失败

Posted on 2016-11-27 by ZRJ

spark sql 操作 hive 表，底下的支撑其实还是 hdfs，之前的集群，hdfs 没有做 HA，倒也相安无事，不过最新 spark sql 的计算任务迁移到了一个新的集群，刚迁移过去的时候，计算任务是能够正常跑的，但是，后来这个集群上的 hdfs 做了 HA，问题就来了 Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.had……

阅读全文

spark 读取 jdbc 的时候 where 过滤的问题

Posted on 2016-06-19 by ZRJ

一般来说，我们使用这样的方式让 spark 去读取 jdbc DataFrame dataFrame = sqlContext.read().jdbc(jdbcUrl, tableName, DBConfigUtil.generateProperties()); 随之而来一个问题是，这样是读取整张表的，如果我们要读取某一部分的数据呢？自然的想法是 sqlContext 的 read 接口应该有参数可以控制，可惜没有，走读……

阅读全文

spark 操作 hbase

Posted on 2016-04-21 by ZRJ

之前说到这个，spark 操作 mysql ========================= 买一送一，hbase 的： Spark读取Hbase中的数据 ====================== 关于操作 hbase，还有这两个文章，Spark 下操作 HBase（1.0.0 新 API），https://gist.github.com/wuchon… 都是不错的，另外说一下，”org.apache.hbase” % “hba……

阅读全文

spark sql

Posted on 2016-04-20 by ZRJ

http://spark.apache.org/docs/l… 看这里好像可以把一个 csv 文件当做表来处理，那就好多了 =================== 2016-4-20 22:43:18 如果你 assembly 出来的 jar 连不上 jdbc，参考这里，http://stackoverflow.com/quest… I was able to get it to work locally with these commands: sbt package and spar……

阅读全文

ZRJ

学习笔记

Tag Archives: Spark

提升 maven 编译 scala 的速度

spark word count 和 streaming 的例子

kafka + spark streaming(1)

spark 写 gp/tpg 效率优化 —— 写入 237w 行数据耗时从 77 分钟到 34 秒

spark 中的日志

zeppelin 搭建 spark sql context

spark on hive 模式导致读写 hdfs 失败

spark 读取 jdbc 的时候 where 过滤的问题

spark 操作 hbase

spark sql