随着 spark 使用深入,越来越感觉用 java 是不行的了,社区里大家都用 scala 讨论,用 java 就像一个语言不通的人一样,换呗,先搭环境,再学语法,都不是什么难点,就是花时间,环境最是烦人,耗时耗力还不讨好,语法倒好,以我十八般武艺样样不精通的经验来说,就是个类似 js 的函数式,不难
先看环境问题,scala ecli…… 阅读全文
Category Archives: Tech
spark 操作 mysql
主要有两个思路,一个是旧的,spark 1.3 之前,自己动手丰衣足食,后来有了 spark sql,使用它的 dataframe,也是可以的
=================================
旧的有:
Spark与Mysql(JdbcRDD)整合开发
Spark将计算结果写入到Mysql中
这种 jdbc rdd 的,貌似是 scala 专属,Spark SQL: JdbcRDD
==========================…… 阅读全文
spark 算子理解和存储方式
对 combineByKey 的理解,参看,http://luojinping.com/2016/01/…
combineByKey应用举例
求均值
val rdd = sc.textFile(“气象数据”)
val rdd2 = rdd.map(x=>x.split(” “)).map(x => (x(0).substring(“从年月日中提取年月”),x(1).toInt))
val createCombiner = (k: String, v:…… 阅读全文
spark 移动均值
想要在 spark 上算移动均值,可以参考这个
http://stackoverflow.com/quest…
You can use the sliding function from MLLIB which probably does the same thing as Daniel’s answer. You will have to sort the data by time before using the sliding function.
import org.apache.spark.mllib.rdd.RDDFun…… 阅读全文
spark Task not serializable
http://stackoverflow.com/quest…
In case of using Java API you should avoid anonymous class when passing to the mapping function closure. Instead of doing map( new Function) you need a class that extends your function and pass that to the map(..) See: https://yanago.wordpress.com/2…
ht…… 阅读全文
数据仓库,数据集市,ODS,主数据
数据仓库和数据集市的区别与联系, http://blog.csdn.net/vertour/a…
数据仓库和数据集市的区别与联系, http://blog.csdn.net/map_lixiu…
ODS、数据集市、数据仓库的异同点是, https://www.zhihu.com/question…
ODS:操作型数据仓库,最早的数据仓库模型。特点是数据模型采取了贴源设计,业务系统数据库…… 阅读全文
ETL 工具选型
http://www.fx114.net/qa-230-91…, 三大主流ETL工具选型
ETL(extract, transform and load)产品乍看起来似乎并不起眼,单就此项技术本身而言,几乎也没什么特别深奥之处,但是在实际项目中,却常常在这个环节耗费太多的人力,而在后续的维护工作中,更是往往让人伤透脑筋。之所以出现这种状况,恰恰与项目初期没…… 阅读全文
元数据管理学习笔记
关于元数据的文章,看到下面的这些算是不错的
http://www.ibm.com/developerwo…,大数据治理系列,第三部分: 实施元数据管理
其中:
根据元数据管理的成熟度,大体可以分成 6 个级别,具体如图 1 所示:
L0: 初始状态
元数据分散于日常的业务和职能管理中,由某个人或某一组人员在局部产生或获取,并在局部使用,其…… 阅读全文
Hadoop HBase 碎碎念
一些小笔记会持续追加到这里
2016-3-25 22:09:24
重启或添加节点:
$bin/hadoop-daemon.sh start datanode
————————–
2016-3-25 22:09:31
Had the same problem with 2.6.0, and shamouda’s answer solved it (I was not using dfs.hosts at all so that …… 阅读全文
hbase 创建表时提示存在删除时时又提示不存在
看到这里,http://arnon.me/2013/01/killin…
One of our team leaders approached me in the hall today and asked if I could land a hand in troubleshooting something. He and our QA lead were configuring one of our test Hadoop clusters after an upgrade and they had a problem with one table they we…… 阅读全文