几个 hadoop 生态下 SQL 引擎的区别

hive、spark SQL 这个太熟就不多说了,kylin 是基于预先算好存 hbase 来实现秒回的,属于抢跑型选手,这个也不展开对比 重点会看看这几个: Impala Drill Presto Druid HAWQ Phoniex 网络上看这些东西的时候基本都没个靠谱和详细的解释,还是得靠自己来拼 https://www.zhihu.com/question… 这个上面的一些答案算……

阅读全文

greenplum 集群启动失败

有一个 gp 集群,部分 seg 挂了,带伤跑了一阵子,执行过几次 gprecovery,又中断了 recovery 进程,最后发现 gprecovery 无法继续,总是会触发节点 down,然后继续作死,把之前备份的一份 datadir 的内容替换上去,再次重启 gp 集群,发现这下好了,彻底起不来,报错 20180705:21:19:47:021616 gpstart:10:gprds-[INF……

阅读全文

maven 编译强制使用本地库

今天在编译一个 maven 工程的时候发现一个问题,一个被依赖的包是自己的,在本地,但是 maven 总是试图去拉远程的 repo,例如这样 [ERROR] Failed to execute goal on project wxad.p2.stat: Could not resolve dependencies for project ....: Failed to collect dependencies at ...: Failed to read artifact descr……

阅读全文

分割文件行数

可以将一个大文件分割成小文件,每个指定行数 package com.example; import java.io.BufferedReader; import java.io.FileReader; import java.io.FileWriter; import java.io.IOException; public class SplitFile20180522 { public static void main(String[] args) throws IOException { ……

阅读全文

c++11 thread

关于 c++11 的线程库,我们有如下几个问题: 可否不传参数 可否传递多个参数 可否传递 const 参数 可否传递引用参数 可否传递 const 引用参数 std::thread 结构可否放入容器 std::thread 可否在类内部使用 针对以上问题,我们先来看一个标准的 c++11 线程库要怎么使用: #include <stdio.h> #include <thr……

阅读全文

kafka + spark streaming(1)

之前写过一个 kafka + spark streaming 的测试用例,但是当时没有记录下来,这部分的东西还是很重要的,需要找时间回头补上 看到这里有一个教程, http://colobu.com/2015/01/05/k… 写的挺不错 ——————- 2018-11-12 21:26:25 追加 终于来补上这个坑,一晃都快一年过去了,真的……

阅读全文

Java 线程池试用

参考 http://www.importnew.com/19011… 照猫画虎试用了 java 的线程池 package me.zrj.test.test20170607; import java.util.Date; import java.util.concurrent.ArrayBlockingQueue; import java.util.concurrent.ThreadPoolExecutor; import java.util.concurrent.TimeUnit; class MyTask implements……

阅读全文

数据预处理与数据服务之间的平衡

1. 数据链条越长,对数据一致性的维护成本越高。 这个成本高体现在: a) 链条长意味的数据的搬运和重复存储,这个搬运的动作,本身可能失败,存储本身可能有问题 b) 哪怕搬运动作和存储可靠,链条上下游之间的细微逻辑差异,也可能导致数据一致性的问题,例如一个指标在上下游的分别加工中就出现了差异,而且这个是很难避……

阅读全文