Hive中的一种假NULL

首页 > 代码库 > Hive中的一种假NULL

2024-07-31 21:51:51 220人阅读

Hive中有种假NULL，它看起来和NULL一摸一样，但是实际却不是NULL。

例如如下这个查询：

hive> desc ljn004;

a string

Time taken: 0.237 seconds

hive> select a from ljn004;

NULL

Time taken: 46.232 seconds

看上去好像ljn004的a字段保存了一个 NULL，

但是换一个查询会发现它和NULL并不一样：

hive> select a from ljn004 where a is null;

Time taken: 62.56 seconds

来看一下实际存储的是什么：

hive> select * from ljn004;

Time taken: 1.232 seconds

hive> select a from ljn004 where a = ‘\\N‘;

NULL

Time taken: 72.933 seconds

ljn004的a字段实际存储的是一个‘\N‘，a = ‘\\N‘是因为Hive中‘\‘是转义字符，需要对‘\‘进行一次转义，所以变成‘\\N‘。

这种假NULL产生的原因实际上源于对表的错误操作。在Hive中，空值NULL在底层默认是用‘\N‘来存储的，看一个例子：

hive> create table ljn005 (col1 string);

Time taken: 1.258 seconds

1 Rows loaded to ljn005

Time taken: 63.727 seconds

hive> insert overwrite table ljn005 select NULL from dual;

然后看一下底层的数据存储：

$ hadoop fs -cat /group/hive/ljn005/attempt_201205041518_256192_m_000000_0

可以看到底层数据将NULL存储成了‘\N‘ 。

这样的设计存在一个问题是如果实际想存储‘\N‘，那么实际查询出来的也是NULL而不是‘\N‘ 。

Hive给出一种并非完美的解决方法就是可以自定义底层用什么字符来表示NULL。

例如我想用字符‘a‘来表示NULL：

hive> alter table ljn005 SET SERDEPROPERTIES(‘serialization.null.format‘ = ‘a‘);

Time taken: 0.175 seconds

hive> insert overwrite table ljn005 select NULL from dual;

1 Rows loaded to ljn005

Time taken: 62.66 seconds

再看一下底层的存储：

$ hadoop fs -cat /group/hive/ljn005/attempt_201205041518_256764_m_000000_0

这时候底层的存储就变成了‘a‘ ，今后插入到这张表中的‘a‘查询出来就变成了NULL而不是‘a‘ 。

其实上面说的这个假NULL出现的原因就是在默认情况下（即用‘\N‘表示NULL），插入了NULL值，然后又用SET SERDEPROPERTIES语句修改了存储NULL的字符串。这时候表的属性修改了，但是底层存储的文件并没有修改。而‘\N‘显示为NULL在Hive中又是一个特例，于是就出现了这个假NULL，在开发过程中一定要注意！

Hive中的一种假NULL

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Hive中的一种假NULL

Hive中的一种假NULL

看完仍有疑问？有类似问题直接问程序猿