Python 导入包神奇 bug

Posted on 2018-11-21 by ZRJ

我擦。。。。这个 blog 写一小段居然机器死机了，还没到第一个存档点就挂了。。重新写，上回遇到一个神奇的 spark 报错，这回是一个神奇 python flask 报错，场景是为一个已有的 http server 新增一些函数，但是跑起来之后有一定概率会报错 NameError: global name ‘get_fill_topcity_adindex_rst’ is not ……

阅读全文

一个神奇的 spark 报错

Posted on 2018-11-20 by ZRJ

写 spark 跑的时候遇到一个神奇的错误，报错如下 18/11/20 16:44:44 ERROR TransportRequestHandler: Error while invoking RpcHandler#receive() for one-way message. org.apache.spark.SparkException: Could not find CoarseGrainedScheduler. at org.apache.spark.rpc.netty.Dispatcher.postMessage(Dispatch……

阅读全文

多维聚合函数

Posted on 2018-11-08 by ZRJ

使用 SQL 的时候，可以用多维聚合函数，有 grouping set, cube, roll up，具体区别可以参考这里 https://webcache.googleusercon… 这个原文挂了，要看 google cahche，摘录如下 Hive分析窗口函数之GROUPING SETS，CUBE和ROLLUP 2016年04月04日 18:06:46 Free World 阅读数：2629 个人分类： Hive 所属专栏： Hive……

阅读全文

postgresql 文本索引 spgist 与 btree 区别

Posted on 2018-11-06 by ZRJ

postgresql 对文本的索引有 spgist 和 btree 两种，同样一张表，行数 140w 行左右，建立 btree 索引，执行一次 like starts with，冷启动大约 1.4s，反复多跑一次，稳定在 1.1s 改成 spgist 索引呢，瞬间降到 0.03s，到底是什么黑科技，能这么明显的提速搜了一下，看到这里 http://www.postgres.cn/docs/9…. 大……

阅读全文

提升 maven 编译 scala 的速度

Posted on 2018-11-01 by ZRJ

我们 spark 的计算任务是用 scala 来写的，maven 编译，但是随着 scala 源文件的数量越来越多，（现在一个 project 已经 800+ 源文件了），编译速度成为了一个很大瓶颈，编译一次都要 10+ 分钟，大大影响了开发效率首先想到的是，排除掉一些与自己计算任务无关的代码，看看能不能加速，从这里看到 https://stackoverflo……

阅读全文

ZRJ

学习笔记

Monthly Archives: November 2018

Python 导入包神奇 bug

一个神奇的 spark 报错

多维聚合函数

postgresql 文本索引 spgist 与 btree 区别

提升 maven 编译 scala 的速度