目前的数据处理流程

算是分享一个套路 首先 csv 文件落下来,然后到 hive 贴源,做一些拉链,增量 就到模型层,做一些 spark sql 跑一跑,就到指标层,这个步骤可以自己写一些脚本,算出来的指标层双写一份到 mysql 然后就是对接应用 整个过程算是简洁明了,优点是实施成本低,缺点的话不支持流式

阅读全文

Posted in Life | Leave a comment

hive

hive 是一个什么垃圾玩意儿,真能作死啊 ————- 2016-8-21 09:44:53 补充说几个点吧 【1】hive 本身的依赖关系比较复杂,依赖问题可以搞死人,跟 spark 结合的时候还挑版本,文档也不好 【2】想要让 hvie on spark 的话,需要自行编译 spakr assembly,网上有些文章说 pre build 版本是带了 Phiv……

阅读全文

Posted in Tech | Leave a comment

javascript 取得当前 yyyymmdd

这里有一个答案,http://stackoverflow.com/questions/3066586/get-string-in-yyyymmdd-format-from-js-date-object Altered piece of code I often use: Date.prototype.yyyymmdd = function() { var mm = this.getMonth() + 1; // getMonth() is zero-based var dd = this.getDate(); return [this.getFullYear……

阅读全文

Posted in Tech | Tagged | Leave a comment

spark 读取 jdbc 的时候 where 过滤的问题

一般来说,我们使用这样的方式让 spark 去读取 jdbc DataFrame dataFrame = sqlContext.read().jdbc(jdbcUrl, tableName, DBConfigUtil.generateProperties()); 随之而来一个问题是,这样是读取整张表的,如果我们要读取某一部分的数据呢? 自然的想法是 sqlContext 的 read 接口应该有参数可以控制,可惜没有,走读……

阅读全文

Posted in Tech | Tagged | Leave a comment

搬家与离家

一 在北京的项目还不知道要呆多久,深圳的房租已经空着两个月,白白交钱不说,这阴雨天气,还发着霉,这样下去肯定受不了,趁着这次回深圳的端午,就把宝安的房间收拾掉了,东西搬回家,刚好房租的合同也到期。 本来想着东西没有多少的,爸妈闲着没事干,也说跟我一起过去收拾,结果去到才发现,枕头被子桌子椅子台式机音……

阅读全文

Posted in Life | Leave a comment

那些我们以为的城市

去过的地方慢慢在积攒。由于我有一个在百度地图上标注地点的习惯,当有一天我把地图的比例尺缩小的时候,才发现已经去过不少城市了。当然,有两个局限,一个是没有国外的,这个是因为穷。另外一个是大部分都是局限在城市,而没有到乡镇去。 不过,随之而来的,是想到了这样一个问题:那些我们所以为的城市的,和真实的城……

阅读全文

Posted in Life | Leave a comment

hadoop yarn hdfs 概念的理解

有几个说的不错的文章,看这里,https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/,来自 ibm,从理论到例子,讲解了 yarn 的产生和变化 http://www.lai18.com/content/1103036.html,对计算框架的历史演变有一个概述 http://www.cnblogs.com/LeftNotEasy/archive/2012/02/18/why-yarn.html,辅助理……

阅读全文

Posted in Tech | Tagged , | Leave a comment

hive 安装记录

基本上按照这两个来,Hadoop集群之Hive安装配置,这个文章比较新,格式也比较规范 Hive安装及使用攻略,这个时效性没有那么好,但是说明的比较详细 Hive详细教程,这里给出了一些原理图 http://www.cnblogs.com/inuyasha1027/archive/2013/02/14/2911182.html,这个是一步一步来 ====================== 启动的时候报一个……

阅读全文

Posted in Tech | Tagged | Leave a comment

spark 操作 hbase

之前说到这个,spark 操作 mysql ========================= 买一送一,hbase 的: Spark读取Hbase中的数据 ====================== 关于操作 hbase,还有这两个文章,Spark 下操作 HBase(1.0.0 新 API),https://gist.github.com/wuchong/95630f80966d07d7453b 都是不错的,另外说一下,”org.apache.hbase̶……

阅读全文

Posted in Tech | Tagged , | Leave a comment

spark sql

http://spark.apache.org/docs/latest/sql-programming-guide.html 看这里好像可以把一个 csv 文件当做表来处理,那就好多了 =================== 2016-4-20 22:43:18 如果你 assembly 出来的 jar 连不上 jdbc,参考这里,http://stackoverflow.com/questions/30221677/spark-sql-postgresql-jdbc-classpath-issues I wa……

阅读全文

Posted in Tech | Tagged | Leave a comment