kafka 发送消息卡顿 60s

今天遇到这么一个问题, http://stackoverflow.com/quest… 跟这位哥们的问题一模一样,Kafka 在 producer 调用 send 发送数据的时候卡住一分钟,精确的一分钟,然后函数返回,没有抛出异常 我比原题中的案例还肯定这一点的原因是我在 send 的前后分别打了日志 在这里, http://blog.chinaunix.net/xmlr… 看到……

阅读全文

chrome 无法安装

前两天为了剪辑一个视频,下载了各种乱七八糟的剪辑软件,被带上的了各种全家桶,把 chrome 的首页劫持了,拿 360 硬碰硬,结果搞得 chrome 本身崩溃了,所有插件全部失效,没办法,打算卸载了重装。但是卸载完了之后,发现死活装不上。 chrome 的安装程序本身很装逼,啥界面都么有,就是一双击,完了一会就给你把 chrom……

阅读全文

hive 分区的使用

使用分层指标的好处自然是体系化,预计算等等,但是软肋也很明显,跑一次数据太耗时了,而如果 SQL 逻辑设计的不够严密,随便瞎搞,那么痛苦就是一个无底深渊了 hive 的分区有自动分区和手工分区两种,从功能上看,自然是自动分区强大,但是,一来他的自动分区没有默认启用,想要启动还有一堆的参数要配,感觉也并不够成……

阅读全文

离线安装 Python 包 pika

对于 Python 的扩展包,可以使用 pip 的方式进行在线安装,如果需要离线,那么需要先下载安装包(以及其依赖),然后手工安装,例如从 https://pypi.python.org/pypi/p… 这里,pika-0.10.0.tar.gz (md5) Source 2015-09-02 80KB,然后解压缩,执行 python setup.py install 即可,关于 setup.py,可以参考 http:/……

阅读全文

RabbitMQ 消息队列的 Nginx 反向代理

对于 http 协议,大家都知道可以使用 nginx 进行反向代理,那么,对于 RabbitMQ 等有状态的长连接呢?配是能配,但是主要会关心长连接超时的问题。 先来看看配置是怎么配的 $ cat nginx.conf #user nobody; worker_processes 1; #error_log /var/logs/error.log; #error_log /var/logs/error.log notice; ……

阅读全文

zeppelin 搭建 spark sql context

zeppelin 上跑 spark sql 有两种方式,一种是 spark 启动一个 thrift server,然后对外提供一个 jdbc 服务,zeppelin 通过 jdbc 的方式,连上 spark thrift server,提交 sql,等待返回,这种方式听上去很美好,毕竟实现了前后端解耦,但是实际使用中发现,spark thrift server 这个东西不够成熟,如果长时间持有一个 sp……

阅读全文

MySQL 响应缓慢

今天在 navicat 中发现 mysql 很卡,本着重启试试的原则,先重启试试,于是先 service mysql stop,但是发现停服务也停半天,看日志发现一个问题 2016-12-10 10:53:30 2411 [Note] InnoDB: Waiting for purge thread to be suspended 2016-12-10 10:54:30 2411 [Note] InnoDB: Waiting for purge thread to be suspen……

阅读全文

spark on hive 模式导致读写 hdfs 失败

spark sql 操作 hive 表,底下的支撑其实还是 hdfs,之前的集群,hdfs 没有做 HA,倒也相安无事,不过最新 spark sql 的计算任务迁移到了一个新的集群,刚迁移过去的时候,计算任务是能够正常跑的,但是,后来这个集群上的 hdfs 做了 HA,问题就来了 Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.had……

阅读全文

随感

在学校,在大公司,有着大纲和体制的保护,大部分事情,我们都能预先知道,会是怎么样,以及能够知道怎么去做,进而预先评估自己是否倾向和适合这么去做,然后做出决定 然而,离开这种循规蹈矩的组织,一旦到了一些小的组织和直面社会的时候,才会发现,很多事情,一来无法预估,二来事到临头,很多时候也没有什么思路能……

阅读全文

目前的数据处理流程

算是分享一个套路 首先 csv 文件落下来,然后到 hive 贴源,做一些拉链,增量 就到模型层,做一些 spark sql 跑一跑,就到指标层,这个步骤可以自己写一些脚本,算出来的指标层双写一份到 mysql 然后就是对接应用 整个过程算是简洁明了,优点是实施成本低,缺点的话不支持流式

阅读全文