hive 是一个什么垃圾玩意儿,真能作死啊
————-
2016-8-21 09:44:53 补充说几个点吧
【1】hive 本身的依赖关系比较复杂,依赖问题可以搞死人,跟 spark 结合的时候还挑版本,文档也不好
【2】想要让 hvie on spark 的话,需要自行编译 spakr assembly,网上有些文章说 pre build 版本是带了 Phive 的,有些说没有带,起码目前看来 1.5 和 1.6 都是带了的
【3】想要验证一个 pre build assembly 有没有 Phive,把他拖进 eclipse 里面,看看能不能定义出来 HiveContext 就能知道了
【4】需要自行编译的东西让我有抗拒感,不想搞,而且,另外一方面,对于 hive on spark 的方式,哪怕跑成了,result rows 怎么跟后续的步骤衔接起来,也是个问题,包括 hive result 本身的一个 export 都是没有特别现成的方案
【5】既然 pre build spark assembly 带了 Phive,那就直接在 spakr code 里面 new 一个 HiveContext 出来,跑 HQL 就行了,简单方便
【6】顺手还能把 spark sql shell 也配起来,安装配置过程也是相对简单方便的,这样的话,就可以交互式的调试 sql 了
【7】所以说不要迷信大公司,hive 不一样是 facebook 搞出来的,还出来那么多年了,不一样在易用性上做得不好(虽然在内置函数和 sql 执行优化方面据说很好,但是待考)