Hive
2018-12-04 20:01:43
6
0
0
同一条sql,在不同时段执行时生成的mapper数量可能差异差大。为弄明白个中的原因,跟了下源码,大致计算逻辑如下:
mapper数量是和OrcInputFormat中产生的split相关,OrcInputFormat在计算split时会分为两个大的步骤:
1. 计算物理split数量
2. 计算逻辑split数量(对物理split进行分组)
### orc文件的物理结构图
![](/api
报这个错有点坑, hive并没把真实的异常错误信息输出,返回一个笼统的错`Previous writer likely failed to write hdfs://xx, Failing because I am unlikely to write too`。源码如下:
```
public LocalResource localizeResource(
Path src, Pat
```
package me.cqc;
import javax.crypto.BadPaddingException;
import javax.crypto.Cipher;
import javax.crypto.IllegalBlockSizeException;
import javax.crypto.NoSuchPaddingException;
import java.io.IOE
GET /_cluster/health 查询集群健康状态
添加一个节点
直接启动另外一个节点应用,只要确保在另一个节点中的cluster name相同,且discovery.zen.ping.unicast.hosts这个配置指向每台的节点的IP
在集群环境中,对文档进行index、create、delete流程
在集群环境中,获得retri
下载安装包,解压。设置JAVA_HOME环境,ES必须要JDK7以上的版本才能支持,并建议JDK7在55版本之后,JDK8在20版本之后。
经过以上步骤即可运行ES, 执行$ES_HOME/bin/elasticsearch
$ES_HOME/bin/elasticsearch -d 后台执行
$ES_HOME/bin/elasticsearch -d -p PID 将ES的pid写入P
metadata 文档元数据
_index 保存文档的索引名。index只是一个逻辑概念,其实际是由主分片和副本分片组成
_type 文档所归属的类型。在index这个级别上,数据分类可能还太分散,此时需要_type进行细分。比如商品目录,需要将商品细分为电子、电脑、厨房等
_id 文档编号,可指定或ES生成
索引一个文档
每个文档都有个type属性,每个type都有其自己的映射(mapping)或模式定义(schema definition)。映射定义了每个字段的类型及该字段将如何解析
GET /gb/_mapping/tweet 查看mapping
主要的一些字段类型
- 文本:string
- 整型:byte、short、integer、long
- 浮点型:flo