有一个 gp 集群,部分 seg 挂了,带伤跑了一阵子,执行过几次 gprecovery,又中断了 recovery 进程,最后发现 gprecovery 无法继续,总是会触发节点 down,然后继续作死,把之前备份的一份 datadir 的内容替换上去,再次重启 gp 集群,发现这下好了,彻底起不来,报错
20180705:21:19:47:021616 gpstart:10:gprds-[INF…… 阅读全文
spark word count 和 streaming 的例子
package me.zrj.test.test20170731
import org.apache.spark.SparkContext
import org.apache.spark.SparkConf
import java.util.Properties
import org.apache.log4j.PropertyConfigurator
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.Seconds
object SparkWo…… 阅读全文
maven 编译强制使用本地库
今天在编译一个 maven 工程的时候发现一个问题,一个被依赖的包是自己的,在本地,但是 maven 总是试图去拉远程的 repo,例如这样
[ERROR] Failed to execute goal on project wxad.p2.stat: Could not resolve dependencies for project ....: Failed to collect dependencies at ...: Failed to read artifact descr…… 阅读全文
分割文件行数
可以将一个大文件分割成小文件,每个指定行数
package com.example;
import java.io.BufferedReader;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
public class SplitFile20180522 {
public static void main(String[] args) throws IOException {
…… 阅读全文
postgresql 统计表大小
分享一个统计 postgresql 表大小的 sql
with table_size_in_bytes as (
select table_schema
, table_name
, pg_size_pretty(pg_total_relation_size(table_schema||'.'||table_name)::bigint)
as size_in_humanreadable
, pg_total_relation_size(table_schema||'.'||table_name) as s…… 阅读全文
c++11 thread
关于 c++11 的线程库,我们有如下几个问题:
可否不传参数
可否传递多个参数
可否传递 const 参数
可否传递引用参数
可否传递 const 引用参数
std::thread 结构可否放入容器
std::thread 可否在类内部使用
针对以上问题,我们先来看一个标准的 c++11 线程库要怎么使用:
#include <stdio.h>
#include <thr…… 阅读全文
kafka + spark streaming(1)
之前写过一个 kafka + spark streaming 的测试用例,但是当时没有记录下来,这部分的东西还是很重要的,需要找时间回头补上
看到这里有一个教程, http://colobu.com/2015/01/05/k… 写的挺不错
——————-
2018-11-12 21:26:25 追加
终于来补上这个坑,一晃都快一年过去了,真的…… 阅读全文
Java 线程池试用
参考 http://www.importnew.com/19011… 照猫画虎试用了 java 的线程池
package me.zrj.test.test20170607;
import java.util.Date;
import java.util.concurrent.ArrayBlockingQueue;
import java.util.concurrent.ThreadPoolExecutor;
import java.util.concurrent.TimeUnit;
class MyTask implements…… 阅读全文
《On Intelligence》读前感
前些日子在看一个深度学习的文章的时候,看到一个介绍的书,叫 on intelligent ,说的是智慧生物的智能的本质,提到一个点,是预测
跟自己的想法不谋而合,其实我一直琢磨这个事情琢磨了很多年,也慢慢形成了一些自己的观点,可惜还没有最终形成结论,就看到有人写成书了,还是在 2004 年,真是跨越时空的共鸣啊
可惜自己…… 阅读全文
数据预处理与数据服务之间的平衡
1. 数据链条越长,对数据一致性的维护成本越高。
这个成本高体现在:
a) 链条长意味的数据的搬运和重复存储,这个搬运的动作,本身可能失败,存储本身可能有问题
b) 哪怕搬运动作和存储可靠,链条上下游之间的细微逻辑差异,也可能导致数据一致性的问题,例如一个指标在上下游的分别加工中就出现了差异,而且这个是很难避…… 阅读全文