标签-Hive

Hive 2018-12-04 20:01:43 6 0 0

同一条sql，在不同时段执行时生成的mapper数量可能差异差大。为弄明白个中的原因，跟了下源码，大致计算逻辑如下： mapper数量是和OrcInputFormat中产生的split相关，OrcInputFormat在计算split时会分为两个大的步骤： 1. 计算物理split数量 2. 计算逻辑split数量(对物理split进行分组) ### orc文件的物理结构图 ![](/api

查看

跑tez任务报：Previous writer likely failed to write hdfs://xx, Failing because I am unlikely to write too

Hive 问题排查 2018-10-19 15:57:53 0 0 0

报这个错有点坑， hive并没把真实的异常错误信息输出，返回一个笼统的错`Previous writer likely failed to write hdfs://xx, Failing because I am unlikely to write too`。源码如下： ``` public LocalResource localizeResource( Path src, Pat

查看

让beeline显示进度信息

Hive 2018-08-31 19:05:04 0 0 0

由于在2.3.2版本上`hive.async.log.enabled=true`,用于提高hive服务的性能，但造成了beeline上执行sql看不到进度，给开发造成了不变。要想让beeline上能看到执行进度，可将`hive.async.log.enabled=false`,注意，是要在hiveserver2启动前设置该参数参考自:[Apache Hive Beeline : Prog

查看

Hive参数说明

Hive 2018-08-31 19:03:00 1 0 0

## 通用(hive-site.xml) ### JOIN * `hive.auto.convert.join.noconditionaltask = true` 控制是否打开map-join * `hive.auto.convert.join.noconditionaltask.size=10000000` 多大的表可支持map-join，默认为10M.建议是hive.tez.contain

查看

UDAF:oneof(任意获得待聚合集中的一个)

Hive Hive UDF 2018-08-31 18:51:22 0 0 0

``` package cn.cqc3073.hive.udaf; import org.apache.hadoop.hive.ql.exec.Description; import org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException; import org.apache.hadoop.hive.ql.metadata.HiveExc

查看

UDF:weekdiff(计算指定的两个指定的日期之前相差几个自然周)

Hive Hive UDF 2018-08-31 18:47:28 0 0 0

/**
 * 计算指定的两个指定的日期之前相差几个自然周
 * create function udf.weekdiff as 'cn.cqc3073.hive.udf.WeekDiff' using jar 'hdfs:///user/hive/udf/hive-jar-with-dependencies.jar';
 *
 * by cqc
 */
@Description(

查看

Hive执行异常Premature EOF from inputStream问题及解决方案

问题排查 Hive HDFS 2018-08-31 18:43:43 0 0 0

by 陈奇川 ## 背景在跑events2去重时`insert overwrite table events2_clean partition (ds, appid) select xwho, xwhat, min(xwhen), xwhere, xcontext['deviceid'], udf.oneof(xcontext), ds, appid from events2 where ds

查看

UDF:weekno(计算指定日期属于第几周)

Hive Hive UDF 2018-07-05 15:56:19 0 0 0

package cn.cqc3073.hive.udf;

import com.nubia.hive.NewDateUtil;
import org.apache.hadoop.hive.ql.exec.Description;
import org.apache.hadoop.hive.ql.exec.UDF;

import java.time.LocalDate;
import jav

查看

Hive技巧:通过增加冗余分区来简化sql复杂度，提高并行度

Hive Hive技巧 2018-03-27 17:36:00 3 0 0

当需要合并多路的数据到同一张表中时，如果用到了`union all`语句,那么会提高sql的执行复杂度。可以通过增加冗余分区来简化sql复杂度，提高并行度

查看

hive能查出数据而presto查不出数据的原因

Presto 问题排查 Hive 2018-03-23 15:39:07 3 0 0

跑union all 语句时会多出一层目录，是tez在当前环境下的一个坑，导致其他的计算框架取不到数据

查看

阿川CH

标签 - Hive