hive 分区的使用

使用分层指标的好处自然是体系化,预计算等等,但是软肋也很明显,跑一次数据太耗时了,而如果 SQL 逻辑设计的不够严密,随便瞎搞,那么痛苦就是一个无底深渊了

hive 的分区有自动分区和手工分区两种,从功能上看,自然是自动分区强大,但是,一来他的自动分区没有默认启用,想要启动还有一堆的参数要配,感觉也并不够成熟,另外一个就是手工分区其实效率上也有优势,而是便利性也没有那么的差

在已有的 hive 表上加分区的一个方案是把其中某一列拎出来,作为分区字段,但是这样其实会引入挺多的改动,脑洞大开的另外一个思路就是找一个字段’,注意那个一撇,就是一个字段名字类似,字段值也一样的,但是这个字段专门用于分区,然后就可以把原有的逻辑无缝的迁移过来了

引入手工分区之后的一个很大的好处就是能够在数据重跑的时候清理脏数据的步骤轻巧很多,但是根治的方式,还是得要有专业的数据模型,以及严密的加工逻辑,这些都是一点点抠出来的

Leave a Reply

Your email address will not be published. Required fields are marked *