首页 > 代码库 > HDF学习笔记

HDF学习笔记

1、HDF简介
     HDF是用于存储和分发科学数据的一种自我描述、多对象文件格式。HDF是由美国国家超级计算应用中心(NCSA)创建的,以满足不同群体的科学家在不同工程项目领域之需要。HDF可以表示出科学数据存储和分布的许多必要条件。HDF被设计为:

     自述性:对于一个HDF文件里的每一个数据对象,有关于该数据的综合信息(元数据)。在没有任何外部信息的情况下,HDF允许应用程序解释HDF文件的结构和内容。

     通用性:许多数据类型都可以被嵌入在一个HDF文件里。例如,通过使用合适的HDF数据结构,符号、数字和图形数据可以同时存储在一个HDF文件里。

     灵活性:HDF允许用户把相关的数据对象组合在一起,放到一个分层结构中,向数据对象添加描述和标签。它还允许用户把科学数据放到多个HDF文件里。

     扩展性:HDF极易容纳将来新增加的数据模式,容易与其他标准格式兼容。

     跨平台性:HDF是一个与平台无关的文件格式。HDF文件无需任何转换就可以在不同平台上使用。


2、HDF的6种基本数据类型

    

HDF提供6种基本数据类型:光栅图像(Raster Image),调色板(Palette),科学数据集(Scientific Data Set),注解(Annotation),虚拟数据(Vdata)和虚拟组(Vgroup)。

     Raster Image数据模型被设计成能为光栅图像数据的存储和描述提供一个灵活的方法,包括8比特和24比特光栅图像。

     Palette作为颜色查找表提供图像的色谱。它是一个表格,其表中每列的数字表示特定颜色的数字。

     Scientific Data Set模型是用来存储和描述科学数据的多维数组。

     Vdata模式是用来存储和描述数据表格的结构。

     HDF的Annotations是文本字符串,用来描述HDF文件,或HDF文件包含的HDF数据对象。

     Vgroup结构模型被设计为与相关数据对象有关。一个Vgroup可以包含另一个Vgroup以及数据对象。任何HDF对象都可以包含在一个Vgroup中。

3、HDF操作接口

HDF的操作接口可以分为3层,最底层为low-level interface,该层主要被软件开发者使用,因为它提供了文件I/O,错误处理等功能。
第二层包含了单文件和多文件处理接口。单文件处理接口一次只能处理一个文件,而多文件处理接口可以同时操作多个文件。
第三层主要用于NCSA和一些商业软件的应用。

4、HDF文件结构


HDF的文件结构如上图。其中,File Header用来标识一个HDF文件。一个data descriptor block包括了一系列的data descriptor。data object由data descriptor和data element构成,而HDF文件是由一系列的data object构成的。


5、 Data Object
Data Object的结构如上图。data object由data descriptor和data element构成。data descriptor包含了data element的类型、位置、大小等信息。data element则包含了真实的数据。正是HDF的这种构成结构,使HDF文件具有自描述的特性。

HDF学习笔记