package me.zrj.test.test20170731
import org.apache.spark.SparkContext
import org.apache.spark.SparkConf
import java.util.Properties
import org.apache.log4j.PropertyConfigurator
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.Seconds
object SparkWo…… 阅读全文
Category Archives: Tech
maven 编译强制使用本地库
今天在编译一个 maven 工程的时候发现一个问题,一个被依赖的包是自己的,在本地,但是 maven 总是试图去拉远程的 repo,例如这样
[ERROR] Failed to execute goal on project wxad.p2.stat: Could not resolve dependencies for project ....: Failed to collect dependencies at ...: Failed to read artifact descr…… 阅读全文
分割文件行数
可以将一个大文件分割成小文件,每个指定行数
package com.example;
import java.io.BufferedReader;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
public class SplitFile20180522 {
public static void main(String[] args) throws IOException {
…… 阅读全文
postgresql 统计表大小
分享一个统计 postgresql 表大小的 sql
with table_size_in_bytes as (
select table_schema
, table_name
, pg_size_pretty(pg_total_relation_size(table_schema||'.'||table_name)::bigint)
as size_in_humanreadable
, pg_total_relation_size(table_schema||'.'||table_name) as s…… 阅读全文
c++11 thread
关于 c++11 的线程库,我们有如下几个问题:
可否不传参数
可否传递多个参数
可否传递 const 参数
可否传递引用参数
可否传递 const 引用参数
std::thread 结构可否放入容器
std::thread 可否在类内部使用
针对以上问题,我们先来看一个标准的 c++11 线程库要怎么使用:
#include <stdio.h>
#include <thr…… 阅读全文
kafka + spark streaming(1)
之前写过一个 kafka + spark streaming 的测试用例,但是当时没有记录下来,这部分的东西还是很重要的,需要找时间回头补上
看到这里有一个教程, http://colobu.com/2015/01/05/k… 写的挺不错
——————-
2018-11-12 21:26:25 追加
终于来补上这个坑,一晃都快一年过去了,真的…… 阅读全文
Java 线程池试用
参考 http://www.importnew.com/19011… 照猫画虎试用了 java 的线程池
package me.zrj.test.test20170607;
import java.util.Date;
import java.util.concurrent.ArrayBlockingQueue;
import java.util.concurrent.ThreadPoolExecutor;
import java.util.concurrent.TimeUnit;
class MyTask implements…… 阅读全文
数据预处理与数据服务之间的平衡
1. 数据链条越长,对数据一致性的维护成本越高。
这个成本高体现在:
a) 链条长意味的数据的搬运和重复存储,这个搬运的动作,本身可能失败,存储本身可能有问题
b) 哪怕搬运动作和存储可靠,链条上下游之间的细微逻辑差异,也可能导致数据一致性的问题,例如一个指标在上下游的分别加工中就出现了差异,而且这个是很难避…… 阅读全文
postgresql 一些坑
看到这里, https://www.zhihu.com/question… 在总结 pg 的一些好处
但是,个人实际用下来,pg 的两个大坑,一个是 auto vacuum 不生效,慢,而且没用,vacuum full 更慢,而且效果不明显,mvcc 我可以理解,但是不应该空间膨胀来作为代价吧
另外一个,就是慢查询日志,这个貌似还要通过插件来实现,还没细究
====…… 阅读全文
背包问题
http://www.lintcode.com/zh-cn/…
给出一个都是正整数的数组 nums,其中没有重复的数。从中找出所有的和为 target 的组合个数。
注意事项
一个数可以在组合中出现多次。
数的顺序不同则会被认为是不同的组合。
样例
给出 nums = [1, 2, 4], target = 4
可能的所有组合有:
[1, 1, 1, 1]
[1, 1, 2]
[1, 2, 1]
[2,…… 阅读全文