Python 导入包神奇 bug

我擦。。。。这个 blog 写一小段居然机器死机了,还没到第一个存档点就挂了。。 重新写,上回遇到一个神奇的 spark 报错,这回是一个神奇 python flask 报错,场景是为一个已有的 http server 新增一些函数,但是跑起来之后有一定概率会报错 NameError: global name ‘get_fill_topcity_adindex_rst’ is not ……

阅读全文

一个神奇的 spark 报错

写 spark 跑的时候遇到一个神奇的错误,报错如下 18/11/20 16:44:44 ERROR TransportRequestHandler: Error while invoking RpcHandler#receive() for one-way message. org.apache.spark.SparkException: Could not find CoarseGrainedScheduler. at org.apache.spark.rpc.netty.Dispatcher.postMessage(Dispatche……

阅读全文

多维聚合函数

使用 SQL 的时候,可以用多维聚合函数,有 grouping set, cube, roll up,具体区别可以参考这里 https://webcache.googleusercon… 这个原文挂了,要看 google cahche,摘录如下 Hive分析窗口函数之GROUPING SETS,CUBE和ROLLUP 2016年04月04日 18:06:46 Free World 阅读数:2629 个人分类: Hive 所属专栏: Hive……

阅读全文

postgresql 文本索引 spgist 与 btree 区别

postgresql 对文本的索引有 spgist 和 btree 两种,同样一张表,行数 140w 行左右,建立 btree 索引,执行一次 like starts with,冷启动大约 1.4s,反复多跑一次,稳定在 1.1s 改成 spgist 索引呢,瞬间降到 0.03s,到底是什么黑科技,能这么明显的提速 搜了一下,看到这里 http://www.postgres.cn/docs/9…. 大概……

阅读全文

提升 maven 编译 scala 的速度

我们 spark 的计算任务是用 scala 来写的,maven 编译,但是随着 scala 源文件的数量越来越多,(现在一个 project 已经 800+ 源文件了),编译速度成为了一个很大瓶颈,编译一次都要 10+ 分钟,大大影响了开发效率 首先想到的是,排除掉一些与自己计算任务无关的代码,看看能不能加速,从这里看到 https://stackoverflo……

阅读全文

HEIC 文件格式

发现苹果用上了一个新的图片,叫 heic,压缩效果十分惊人,原以为在像素越来越高的今天,照片的存储肯定也是吃掉存储的大头,而且如果真的是这样,也怪不了谁,毕竟像素高了嘛,但是看到 heic 在高画质下的极小存储空间占用,还是很惊叹的 搜了一下,看到这里 https://www.zhihu.com/question… 作者:宫宸 链接:……

阅读全文

postgresql 死锁检查与处理

今天在 postgresql 上执行一个 DDL 的时候卡死,其实就是一个 alter table add column 的语句 那么,首先可以用这个 SQL 来看有哪些执行中的查询 select query, * from pg_stat_activity where query != '' order by query_start asc; 但是从这里有两个问题,一是只能看到自己名下的,别人的 SQL 看不到具体 query,……

阅读全文

几个 hadoop 生态下 SQL 引擎的区别

hive、spark SQL 这个太熟就不多说了,kylin 是基于预先算好存 hbase 来实现秒回的,属于抢跑型选手,这个也不展开对比 重点会看看这几个: Impala Drill Presto Druid HAWQ Phoniex 网络上看这些东西的时候基本都没个靠谱和详细的解释,还是得靠自己来拼 https://www.zhihu.com/question… 这个上面的一些答案算……

阅读全文

greenplum 集群启动失败

有一个 gp 集群,部分 seg 挂了,带伤跑了一阵子,执行过几次 gprecovery,又中断了 recovery 进程,最后发现 gprecovery 无法继续,总是会触发节点 down,然后继续作死,把之前备份的一份 datadir 的内容替换上去,再次重启 gp 集群,发现这下好了,彻底起不来,报错 20180705:21:19:47:021616 gpstart:10:gprds-[INF……

阅读全文