离线安装 Python 包 pika

对于 Python 的扩展包,可以使用 pip 的方式进行在线安装,如果需要离线,那么需要先下载安装包(以及其依赖),然后手工安装,例如从 https://pypi.python.org/pypi/p… 这里,pika-0.10.0.tar.gz (md5) Source 2015-09-02 80KB,然后解压缩,执行 python setup.py install 即可,关于 setup.py,可以参考 http:/……

阅读全文

RabbitMQ 消息队列的 Nginx 反向代理

对于 http 协议,大家都知道可以使用 nginx 进行反向代理,那么,对于 RabbitMQ 等有状态的长连接呢?配是能配,但是主要会关心长连接超时的问题。 先来看看配置是怎么配的 $ cat nginx.conf #user nobody; worker_processes 1; #error_log /var/logs/error.log; #error_log /var/logs/error.log notice; ……

阅读全文

zeppelin 搭建 spark sql context

zeppelin 上跑 spark sql 有两种方式,一种是 spark 启动一个 thrift server,然后对外提供一个 jdbc 服务,zeppelin 通过 jdbc 的方式,连上 spark thrift server,提交 sql,等待返回,这种方式听上去很美好,毕竟实现了前后端解耦,但是实际使用中发现,spark thrift server 这个东西不够成熟,如果长时间持有一个 sp……

阅读全文

MySQL 响应缓慢

今天在 navicat 中发现 mysql 很卡,本着重启试试的原则,先重启试试,于是先 service mysql stop,但是发现停服务也停半天,看日志发现一个问题 2016-12-10 10:53:30 2411 [Note] InnoDB: Waiting for purge thread to be suspended 2016-12-10 10:54:30 2411 [Note] InnoDB: Waiting for purge thread to be suspen……

阅读全文

spark on hive 模式导致读写 hdfs 失败

spark sql 操作 hive 表,底下的支撑其实还是 hdfs,之前的集群,hdfs 没有做 HA,倒也相安无事,不过最新 spark sql 的计算任务迁移到了一个新的集群,刚迁移过去的时候,计算任务是能够正常跑的,但是,后来这个集群上的 hdfs 做了 HA,问题就来了 Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.had……

阅读全文

随感

在学校,在大公司,有着大纲和体制的保护,大部分事情,我们都能预先知道,会是怎么样,以及能够知道怎么去做,进而预先评估自己是否倾向和适合这么去做,然后做出决定 然而,离开这种循规蹈矩的组织,一旦到了一些小的组织和直面社会的时候,才会发现,很多事情,一来无法预估,二来事到临头,很多时候也没有什么思路能……

阅读全文

目前的数据处理流程

算是分享一个套路 首先 csv 文件落下来,然后到 hive 贴源,做一些拉链,增量 就到模型层,做一些 spark sql 跑一跑,就到指标层,这个步骤可以自己写一些脚本,算出来的指标层双写一份到 mysql 然后就是对接应用 整个过程算是简洁明了,优点是实施成本低,缺点的话不支持流式

阅读全文

hive

hive 是一个什么垃圾玩意儿,真能作死啊 ————- 2016-8-21 09:44:53 补充说几个点吧 【1】hive 本身的依赖关系比较复杂,依赖问题可以搞死人,跟 spark 结合的时候还挑版本,文档也不好 【2】想要让 hvie on spark 的话,需要自行编译 spakr assembly,网上有些文章说 pre build 版本是带了 Phiv……

阅读全文

spark 读取 jdbc 的时候 where 过滤的问题

一般来说,我们使用这样的方式让 spark 去读取 jdbc DataFrame dataFrame = sqlContext.read().jdbc(jdbcUrl, tableName, DBConfigUtil.generateProperties()); 随之而来一个问题是,这样是读取整张表的,如果我们要读取某一部分的数据呢? 自然的想法是 sqlContext 的 read 接口应该有参数可以控制,可惜没有,走读……

阅读全文