那些我们以为的城市

去过的地方慢慢在积攒。由于我有一个在百度地图上标注地点的习惯,当有一天我把地图的比例尺缩小的时候,才发现已经去过不少城市了。当然,有两个局限,一个是没有国外的,这个是因为穷。另外一个是大部分都是局限在城市,而没有到乡镇去。 不过,随之而来的,是想到了这样一个问题:那些我们所以为的城市的,和真实的城……

阅读全文

Posted in Life | Leave a comment

hadoop yarn hdfs 概念的理解

有几个说的不错的文章,看这里,https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/,来自 ibm,从理论到例子,讲解了 yarn 的产生和变化 http://www.lai18.com/content/1103036.html,对计算框架的历史演变有一个概述 http://www.cnblogs.com/LeftNotEasy/archive/2012/02/18/why-yarn.html,辅助理……

阅读全文

Posted in Tech | Tagged , | Leave a comment

hive 安装记录

基本上按照这两个来,Hadoop集群之Hive安装配置,这个文章比较新,格式也比较规范 Hive安装及使用攻略,这个时效性没有那么好,但是说明的比较详细 Hive详细教程,这里给出了一些原理图 http://www.cnblogs.com/inuyasha1027/archive/2013/02/14/2911182.html,这个是一步一步来 ====================== 启动的时候报一个……

阅读全文

Posted in Tech | Tagged | Leave a comment

spark 操作 hbase

之前说到这个,spark 操作 mysql ========================= 买一送一,hbase 的: Spark读取Hbase中的数据 ====================== 关于操作 hbase,还有这两个文章,Spark 下操作 HBase(1.0.0 新 API),https://gist.github.com/wuchong/95630f80966d07d7453b 都是不错的,另外说一下,”org.apache.hbase̶……

阅读全文

Posted in Tech | Tagged , | Leave a comment

spark sql

http://spark.apache.org/docs/latest/sql-programming-guide.html 看这里好像可以把一个 csv 文件当做表来处理,那就好多了 =================== 2016-4-20 22:43:18 如果你 assembly 出来的 jar 连不上 jdbc,参考这里,http://stackoverflow.com/questions/30221677/spark-sql-postgresql-jdbc-classpath-issues I wa……

阅读全文

Posted in Tech | Tagged | Leave a comment

scala 上手

随着 spark 使用深入,越来越感觉用 java 是不行的了,社区里大家都用 scala 讨论,用 java 就像一个语言不通的人一样,换呗,先搭环境,再学语法,都不是什么难点,就是花时间,环境最是烦人,耗时耗力还不讨好,语法倒好,以我十八般武艺样样不精通的经验来说,就是个类似 js 的函数式,不难 先看环境问题,scala ecli……

阅读全文

Posted in Tech | Tagged , | Leave a comment

spark 操作 mysql

主要有两个思路,一个是旧的,spark 1.3 之前,自己动手丰衣足食,后来有了 spark sql,使用它的 dataframe,也是可以的 ================================= 旧的有: Spark与Mysql(JdbcRDD)整合开发 Spark将计算结果写入到Mysql中 这种 jdbc rdd 的,貌似是 scala 专属,Spark SQL: JdbcRDD ==========================……

阅读全文

Posted in Tech | Tagged | 1 Comment

spark 算子理解和存储方式

对 combineByKey 的理解,参看,http://luojinping.com/2016/01/22/%E5%88%9D%E5%AD%A6Spark/ combineByKey应用举例 求均值 val rdd = sc.textFile(“气象数据”) val rdd2 = rdd.map(x=>x.split(” “)).map(x => (x(0).substring(“从年月日中提取年月”),x(1).toInt)) val createCombi……

阅读全文

Posted in Tech | Tagged | Leave a comment

spark 移动均值

想要在 spark 上算移动均值,可以参考这个 http://stackoverflow.com/questions/23402303/apache-spark-moving-average You can use the sliding function from MLLIB which probably does the same thing as Daniel’s answer. You will have to sort the data by time before using the sliding function. import……

阅读全文

Posted in Tech | Tagged | Leave a comment

spark Task not serializable

http://stackoverflow.com/questions/23050067/spark-task-not-serializable-how-to-work-with-complex-map-closures-that-call-o In case of using Java API you should avoid anonymous class when passing to the mapping function closure. Instead of doing map( new Function) you need a class that extends your……

阅读全文

Posted in Tech | Tagged | Leave a comment