Python 导入包神奇 bug

我擦。。。。这个 blog 写一小段居然机器死机了,还没到第一个存档点就挂了。。 重新写,上回遇到一个神奇的 spark 报错,这回是一个神奇 python flask 报错,场景是为一个已有的 http server 新增一些函数,但是跑起来之后有一定概率会报错 NameError: global name ‘get_fill_topcity_adindex_rst’ is not ……

阅读全文

一个神奇的 spark 报错

写 spark 跑的时候遇到一个神奇的错误,报错如下 18/11/20 16:44:44 ERROR TransportRequestHandler: Error while invoking RpcHandler#receive() for one-way message. org.apache.spark.SparkException: Could not find CoarseGrainedScheduler. at org.apache.spark.rpc.netty.Dispatcher.postMessage(Dispatche……

阅读全文

多维聚合函数

使用 SQL 的时候,可以用多维聚合函数,有 grouping set, cube, roll up,具体区别可以参考这里 https://webcache.googleusercon… 这个原文挂了,要看 google cahche,摘录如下 Hive分析窗口函数之GROUPING SETS,CUBE和ROLLUP 2016年04月04日 18:06:46 Free World 阅读数:2629 个人分类: Hive 所属专栏: Hive……

阅读全文

postgresql 文本索引 spgist 与 btree 区别

postgresql 对文本的索引有 spgist 和 btree 两种,同样一张表,行数 140w 行左右,建立 btree 索引,执行一次 like starts with,冷启动大约 1.4s,反复多跑一次,稳定在 1.1s 改成 spgist 索引呢,瞬间降到 0.03s,到底是什么黑科技,能这么明显的提速 搜了一下,看到这里 http://www.postgres.cn/docs/9…. 大概……

阅读全文

提升 maven 编译 scala 的速度

我们 spark 的计算任务是用 scala 来写的,maven 编译,但是随着 scala 源文件的数量越来越多,(现在一个 project 已经 800+ 源文件了),编译速度成为了一个很大瓶颈,编译一次都要 10+ 分钟,大大影响了开发效率 首先想到的是,排除掉一些与自己计算任务无关的代码,看看能不能加速,从这里看到 https://stackoverflo……

阅读全文