[转载]Dalvik指令集

首页 > 代码库 > [转载]Dalvik指令集

2024-07-11 00:25:56 223人阅读

这篇文章是转载的，为了便于查找一些指令，贴在这里。

转自：http://blog.csdn.net/canfengxiliu/article/details/20144119

---------------------

声明：文章是看<<Android软件安全与逆向分析>> 的所写笔记。

Dalvik指令格式

一段Dalvik汇编代码由一系列Dalvik指令组成，指令语法由指令的位描述与指令格式标识来决定。位描述约定如下：

● 每16位的字采用空格分隔开来。

● 每个字母表示4位，每个字母按顺序从高字节开始，排列到低字节。每4位之间可能使用竖线 “|” 来表示不同的内容。

● 顺序采用 A ~ Z 的单个大写字幕作为一个4位的操作码，op表示一个8位的操作码。

● “Φ” 来表示这字段所有位为0值。

以指令格式 “A|G|op BBBB F|E|D|C” 为例

指令中间有两个空格，每个分开的部分大小为16位，所以这条指令由三个16位的字组成。

第一个16位是 “A|G|op”，高8位由A与G组成，低字节由操作码op组成。

第二个16位由 BBBB 组成，它表示一个16位的偏移值。

第三个16位分别由F、E、D、C 共4个4字节组成，在这里他们表示寄存器参数。

单独使用位表示还无法确定一条指令，必须通过指令格式标识来指定格式的格式编码。它的约定如下：

● 指令格式标识大多由三个字符组成，前两个是数字，最后一个是字母。

● 第一个数字是表示指令有多少个16位的字组成。

● 第二个数字是表示指令最多使用寄存器的个数。特殊标记 “r” 标识使用一定范围内的寄存器。

● 第三个字母为类型码，表示指令用到的额外数据的类型。取值见如下表。

助记符	位大小	说　明
b	8	8位有符号立即数
c	16,32	常量池索引
f	16	接口常量（仅对静态链接格式有效）
h	16	有符号立即数（32位或64位数的高值位，低值位为0）
i	32	立即数，有符号整数或32位浮点数
l	64	立即数，有符号整数或64位双精度浮点数
m	16	方法常量（仅对静态链接格式有效）
n	4	4位的立即数
s	16	短整型立即数
t	8, 16, 32	跳转，分支
x	0	无额外数据

以指令格式标识22x 为例：

第一个数字2表示有2个16位字组成，第二个数字2表示指令使用到2个寄存器，第三个字母x表示没有使用到额外的数据。

Dalvik指令对语法做了一些说明，它约定如下：

● 每条指令从操作码开始，后面紧跟参数，参数个数不定，每个参数之间采用逗号分开。

● 每条指令的参数从指令第一部分开始，op位于低8位，高8位可以是一个8位的参数，也可以是两个4位的参数，还可以为空，如果指令超过16位，则后面部分一次作为参数

● 如果参数采用 “vX” 的方式表示，表示它是一个寄存器，如v0、v1等。这里采用v而不用r是为了避免与基于该虚拟机架构本身的寄存器名字产生冲突，如ARM架构寄存器命名采用r开头。

● 如果参数采用 “#+X” 的方式表示，表明它是一个常量数字。

● 如果参数采用 “+X” 的方式表示，表明它是一个相对指令的地址偏移。

● 如果参数采用 “kind@X” 的方式表示，表明它是一个常量池的索引值。其中kind表示常量池类型，它可以是 “string” 字符串常量池索引）、“type”（类型常量池索引）、“field”（字段常量池索引）或者 “meth”（方法常量池索引）。

在Andorid4.0源码Dalvik/docs 目录下提供了一份文档 instruction-formats.html，里面详细列举了Dalvik指令的所有格式。

Dalvik 字节码的类型、方法与字段表示方法

1.类型

语法	含义
V	void, 只用于返回值类型
Z	boolean
B	byte
S	short
C	char
I	int
J	long
F	float
D	double
L	Java类类型
[	数组类型

L类型可以表示Java类型中的任何类。这些类在Java代码以package.name.ObjectName方式因一哦那个，到了Dalvik汇编代码中，它们以Lpackage/name/ObjectName;形式表示，注意最后有个分号。

[类型可以表示所有基本类型的数组。[后面紧跟基本类型描述符。如 [I 表示 int [] , [[I 表示 int [][], 以此类推。注意多维数组的维数最大为255个。

2.方法

方法格式举例如下：

Lpackage/name/ObjectName;->MethodName（III）Z

Lpackage/name/ObjectName 为函数属于哪个类的方法。

MethodName为具体的方法名。

(iii)Z 是方法的签名部分，其中III 为方法的参数（在此表示有三个int类型的参数）， Z表示方法的返回类型（boolean类型）

3.字段

字段的格式如下：

Lpackage/name/ObjectName;->FieldNmae:Lpackage/name/ObjectName;

字段由类型（Lpackage/name/ObjectName;）、字段名（FieldName）与字段类型（Lpackage/name/ObjectName;）组成。

其中字段名与字段类型中间用冒号 “:” 隔开

BakSmali 生成的字段代码以。field指令开头，根据字段类型的不同，在字段指令的开头可能会用井号 “#” 加以注释，如

“# instance fields” 表示这是一个实例字段

“# static fields” 表示这是个静态字段

Dalvik指令的语法与助词符有如下特点：

1 .参数采用从目标到源的方式。
2. 根据字节码的大小与类型不同，一些字节码添加了名称后缀以消除歧义
● 32位常规类型的字节码未添加任何后缀

● 64常规类型的字节码添加 -wide 后缀
● 特殊类型的字节码根据具体类型添加后缀。它们可以是 -boolean、-byte、-char、-short、 -int、-long、-float、-double、-object、-string、-void之一。

3. 根据字节码的布局与选项不同，一些字节码添加了字节码后缀以消除歧义。这些后缀通过在字节码主名称后缀添加斜杠“/”来分割开。
4. 在指令集的描述中，宽度值中每个字幕表示宽度为4位。

例如这条指令： “move-wide/from16 vAA, vBBBB”

move 为基础字节码。标识这是基本操作。

wide 为名称后缀。标识指令操作的数据宽度（64位）。

from16 为字节码后缀。标识源为一个16位的寄存器引用变量。

vAA 为目的寄存器。它始终在源的前面，取值范围为v0~v255。

vBBBB 为源寄存器。取值范围为v0~v65535

Dalvik 指令集中大多数指令用到了寄存器作为目的操作数或源操作数，其中 A/B/C/D/E/F/G/H 代表一个4位的数值，可用来表示v0~v15的寄存器。 AA/BB/.../HH代表一个8位的数值。 AAAA/BBBB/.../HHHH 代表一个16位的数值

空操作指令

空操作指令的助记符为nop。它的值为00，通知被用来作对齐代码之用，无实际操作。

数据操作指令

数据操作指令为move。move指令的原型为 move 目标，源。 move 指令根据字节码大小与类型不同，后面会跟上不同的后缀。

move-object/from16 vAA, vBBBB 为对象赋值。源寄存器为8位，目的寄存器为16位。

move-object/16 vAAAA,vBBBB 为对象复制。源寄存器与目的寄存器都为16位

move-result-wide vAA 将上一个invoke类型指令操作的双（没有-wide则是单）字非对象结果赋给vAA寄存器

move-result-object vAA 将上一个invoke类型指令操作的非对象结果赋给vAA寄存器

move-exception vAA 保存一个运行时发生的异常到vAA寄存器。这条指令必须是异常发生屎的异常处理器的一条指令。否则的话，指令无效。

返回指令

返回指令指的是函数结尾时运行的最后一条指令。共有以下四条返回指令：

return-void

return vAA

return-wide vAA

return-object vAA

数据定义指令

数据定义指令用来定义程序中用到的常量、字符串、类等数据。它的基础字节码为const。

const/4 vA,#+B 将数值符号扩展为32位后赋给寄存器 vA

const/16 vAA,#+BBBB 将数值符号扩展为32位后赋给寄存器 vAA

const vAA,#+BBBBBBBB 将数值付给寄存器vAA

const/high16 vAA,#+BBBB0000 将数值右边 0 扩展为32位后赋给寄存器vAA

const-wide/16 vAA,#+BBBB 将数值符号扩展64位后赋给寄存器对vAA

const-wide vAA,#+BBBBBBBBBBBBBBBB 将数值赋给寄存器对vAA

const-wide/high16 vAA,#+BBBB000000000000 将数值右边 0 扩展为64位后付给寄存器对 vAA

const-string vAA,string@BBBB 通过字符串索引构造一个字符串并赋给寄存器对 vAA

const-string/jumbo vAA,string@BBBBBBBB 通过字符串索引（较大）构造一个字符串并付给寄存器对vAA

const-class vAA,type@BBBB 通过类型索引获取一个类引用并付给寄存器 vAA

const-class/jumbo vAAAA,type@BBBBBBBB 通过给定的类型那个索引获取一个类索引并付给寄存器vAAAA（这条指令占用两个字节，值为0x00ff，是Android4.0中新增的指令）

锁指令

锁指令多用在多线程程序中对同一对象的操作。Dalvik指令集中有两条锁指令。

monitor-enter vAA 为指定的对象获取锁

monitor-exit vAA 释放指定的对象的锁

实例操作指令

与实例相关的操作包括实例的类型转换、检查及新建等

check-cast vAA,type@BBBB 将vAA寄存器中的对象引用转换成指定的类型，如果失败会抛出ClassCastException 异常。如果类型B 指定的是基本类型，对于非基本类型的A来说，运行时始终会失败。

instance-of vA,vB,type@CCCC 判断vB寄存器中的对象引用是否可以转换成指定的类型，如果可以vA寄存赋值为1，否则vA寄存器为0

new-instance vAA,type@BBBB 构造一个指定类型对象的新实例,并将对象引用赋值给vAA寄存器,类型符号type指定的类型不能是数组类。

check-cast/jumbo vAAAA,type@BBBBBBBB instance-of vAAAA, vBBBB, type@CCCCCCCC new-instance/jumbo vAAAA, type@BBBBBBBB这三个指令功能分别与上面三个指令分对应相同，只是寄存器值与指令的索引取值范围坑大（Android4.0中新增的命令）

数组操作指令

数组操作包括读取数组长度、新建数组、数组赋值、数组元素取值与赋值等操作。

array-length vA,vB 获取给定vB寄存器中数组的长度并将值赋给vA寄存器，数组长度指的是数组的条目个数。

new-array vA,vB,type@CCCC 构造指定类型（type@CCCC）与大小（vB）的数组，并将值赋给vA寄存器。

new-array/jumbo vAAAA,vBBBB,type@CCCCCCCC 指令功能与上一条指令相同，只是寄存器与指令的索引取值范围更大（Android4.0中新增的指令）

filled-new-array {vC,vD,vE,vF,vG},type@BBBB 构造指定类型（type@BBBB）与大小（vA）的数组并填充数组内容。vA寄存器是隐含使用的，除了指定数组的大小外还制订了参数的个数，vC~vG是使用到的参数寄存器序列

filled-new-array/range {vCCCC, ... ,vNNNN},type@BBBB 指定功能与上一条指令相同，只是参数寄存器使用range字节码后缀指定了取值范围，vC是第一个参数寄存器， N=A+C-1。

filled-new-array/jumbo {vCCCC, ... ,vNNNN},type@BBBBBBBB 指令功能与上一条指令相同，只是寄存器与指令的索引取值范围更大（Android4.0中新增的指令）

fill-array-data vAA, +BBBBBBBB 用指定的数据来填充数组，vAA寄存器为数组引用，引用必须为基础类型的数组，在指令后面会紧跟一个数据表

arrayop vAA,vBB,vCC 对vBB寄存器指定的数组元素进入取值与赋值。vCC寄存器指定数组元素索引，vAA寄存器用来寄放读取的或需要设置的数组元素的值。读取元素使用aget类指令，元素赋值使用aput指令，元素赋值使用aput类指令，根据数组中存储的类型指令后面会紧跟不同的指令后缀，指令列表有aget、aget-wide、aget-object、aget-boolean、aget-byte、aget-char、aget-short、aput、aput-wide、aput-boolean、aput-byte、aput-char、aput-short。

异常指令

Dalvik指令集有一条指令用来抛出异常

throw vAA 抛出vAA寄存器中指定类型的异常。

跳转指令

跳转指令用于从当前地址跳转到孩子定的偏移处。Dalvik指令集中有三种跳转指令：无条件跳转（goto）、分支跳转（switch）与条件跳转（if）。

goto +AA 无条件跳转到指定偏移处，偏移量AA不能为0

goto/16 +AAAA 无条件跳转到指定偏移处，偏移量AAAA不能为0。

goto/32 +AAAAAAAA 无条件跳转到指定偏移处。

packed-switch vAA,+BBBBBBBB 分支跳转指令。vAA寄存器为switch分支中需要判断的值，BBBBBBBB指向一个packed-switch-payload格式的偏移表，表中的值是有规律递增的。

sparse-switch vAA,+BBBBBBBB 分支跳转指令。vAA寄存器为switch分支中需要判断的值，BBBBBBBB指向一个sparse-switch-payload格式的偏移表，表中的值是无规律的偏移表，表中的值是无规律的偏移量。

if-test vA,vB,+CCCC 条件跳转指令。比较vA寄存器与vB寄存器的值，如果比较结果满足就跳转到CCCC指定的偏移处。偏移量CCCC不能为0。if-test类型的指令有以下几条：

● if-eq 如果vA不等于vB则跳转。Java语法表示为 if(vA == vB)

● if-ne 如果vA不等于vB则跳转。Java语法表示为 if(vA != vB)

● if-lt 如果vA小于vB则跳转。Java语法表示为 if(vA < vB)

● if-le 如果vA小于等于vB则跳转。Java语法表示为 if(vA <= vB)

● if-gt 如果vA大于vB则跳转。Java语法表示为 if(vA > vB)

● if-ge 如果vA大于等于vB则跳转。Java语法表示为 if(vA >= vB)

if-testz vAA,+BBBB 条件跳转指令。拿vAA寄存器与 0 比较，如果比较结果满足或值为0时就跳转到BBBB指定的偏移处。偏移量BBBB不能为0。 if-testz类型的指令有一下几条：

● if-nez 如果vAA为 0 则跳转。Java语法表示为 if(vAA == 0)

● if-eqz 如果vAA不为 0 则跳转。Java语法表示为 if(vAA != 0)

● if-ltz 如果vAA小于 0 则跳转。Java语法表示为 if(vAA < 0)

● if-lez 如果vAA小于等于 0 则跳转。Java语法表示为 if(vAA <= 0)

● if-gtz 如果vAA大于 0 则跳转。Java语法表示为 if(vAA > 0)

● if-gez 如果vAA大于等于 0 则跳转。Java语法表示为 if(vAA >= 0)

比较指令

比较指令用于两个寄存器的值（浮点型或长整型）进行比较。它的格式为 cmpkind vAA,vBB,vCC，其中vBB寄存器与vCC寄存器是需要比较的两个寄存器或者两个寄存器对，比较的结果放到vAA寄存器。Dalvik指令集中共有 5 条比较指令。

cmpl-float 比较两个单精度浮点数。如果vBB寄存器小于vCC寄存器，则结果为1，相等则结果为0，大于的话结果为-1。

cmpg-float 比较两个单精度浮点数。如果vBB寄存器大于vCC寄存器，则结果为1，相等则结果为0，小于的话结果为-1。

cmpl-double 比较两个双精度浮点数。如果vBB寄存器小于vCC寄存器，则结果为1，相等则结果为0，大于的话结果为-1。

cmpg-double 比较两个双精度浮点数。如果vBB寄存器大于vCC寄存器，则结果为1，相等则结果为0，小于的话结果为-1。

cmp-long 比较两个长整型数。如果vBB寄存器大于vCC寄存器，则结果为1，相等则结果为0，小于的话结果为-1。

字段操作指令

字段操作指令用来对对象实例的字段进入读写操作。字段的类型那个可以是Java中有效的数据类型，对普通字段与静态字段操作有两中指令集，分别是iinstanceop vA,vB,field@CCCC 与 sstaticop vAA,field@BBBB

普通字段指令的指令前缀为i，如对普通字段读操作使用iget指令，写操作使用iput指令；静态字段的指令前缀为s，如对静态字段读操作使用sget指令，写操作使用sput指令。

根据访问的字段类型不同，字段操作指令后面会紧跟字段类型的后缀，如iget-byte指令表示读写实例字段的值类型为字节类型，iput-short指令表示设置实例字段的值类型为短整型。两类指令操作结果都是一样的，只是指令前缀与操作的字段类型不同。

普通字段操作指令有：iget、iget-wide、iget-object、iget-boolean、iget-byte、iget-char、iget-short、iput、iput-wide、iput-object、iput-boolean、iput-byte、iput-char、iput-short。

静态字段操作指令有：sget、sget-wide、sget-object、sget-boolean、sget-byte、sget-char、sget-short、sput、sput-wide、sput-object、sput-boolean、sput-byte、sput-char、sput-short。

在Android4.0系统中，Dalvik指令集中增加了 instanceop/jumbo vAAAA,vBBBB,field@CCCCCCCC 与sstaticop/jumbo vAAAA,field@BBBBBBBB 两类指令，它们与上面介绍的两类指令作用相同，只是在指令中增加了jumbo字节码后缀，且寄存器值与指令的索引取值范围更大。

方法调用指令

方法调用指令负责调用类实例的方法。它的基础指令为invoke，方法嗲用指令有 invoke-kind {vC,vD,vE,vF,vG},meth@BBBB 与 invoke-kind/range {vCCCC, ... ,vNNNN},meth@BBBB 两类，两类指令在作用上并无不同，只是后则在设置参数寄存器时使用了range来指定寄存器的范围。根据方法类型的不同，共有如下 5 条方法调用指令：

invoke-virtual 或 invoke-virtual/range 调用实例的虚方法

invoke-super 或 invoke-super/range 调用实例的父类方法

invoke-direct 或 invoke-direct/range 调用实例的直接方法

invoke-static 或 invoke-static/range 调用实例的静态方法

invoke-interface 或 invoke-interface/range 调用实例的接口方法

在Android4.0系统中，Dalvik指令集中增加了 invoke-kind/jumbo {vCCCC, ... ,vNNNN},meth@BBBBBBBB 这类指令，它与上面介绍的两类指令作用相同，只是在指令中增加了jumbo字节码后缀，且寄存器值与指令的索引取值范围更大。

方法调用的指令的返回值必须使用move-result-* 指令来获取。如下两条指令：

invoke-static {},Landroid/os/Parcel;->obtain()Landroid/osParcel;

move-result-object v0

数据转换指令

数据转换指令用于将一种类型的数值转换成另一种类型，它的格式为 unop vA,vB 。 vB寄存器或vB寄存器对存放需要转换的数据，转换后的结果保存在vA寄存器或vA寄存器对中。

neg-int 对整型数求补

not-int 对整型数求反

neg-long 对长整型求补

not-long 对长整型求反

neg-float 对单精度浮点型数求补

neg-double 对双精度浮点型数求补

int-to-long 将整型数转换为长整型

int-to-float 将整型数转换为单精度浮点型

int-to-double 将整型数转换为双精度浮点型

long-to-int 将长整型数转换为整型

long-to-float 将长整型数转换为单精度浮点型

long-to-double 将长整型数转换为双精度浮点型

float-to-int 将单精度浮点型数转换为整型

float-to-long 将单精度浮点型数转换为长整型

float-to-double 将单精度浮点型数转换为双精度浮点型

double-to-int 将双精度浮点型数转换为整型

double-to-long 将双精度浮点型数转换为长整型

double-to-float 将双精度浮点型数转换为单精度浮点型

int-to-byte 将整型转换为字节型

int-to-char 将整型转换为字符串

int-to-short 将整型转换为短整型

数据运算指令

数据运算指令包括算术运算指令与逻辑运算指令。算术运算指令主要进行数值间如加、减、乘、除、模、移位等运算，逻辑运算主要进行数值间与、或、非、异或等运算。数据运算指令有如下四类（数据运算时可能在寄存器或寄存器对间进行，下面的指令作用讲解时使用寄存器来描述）：

binop vAA,vBB,vCC 将vBB寄存器与vCC寄存器进行运算，结果保存到vAA寄存器

binop/2addr vA,vB 将vA寄存器与vB寄存器进行运算，结果保存到vA寄存器

binop/lit16 vA,vB,#+CCCC 将vB寄存器与常量CCCC进行运算，结果保存到vA寄存器

binop/lit8 vAA,vBB,#+CC 将vBB寄存器与常量CC进行运算，结果保存到vAA寄存器

后面3类指令比第1类指令分别多了addr、lit16、lit8等指令后缀。四类指令中基础字节码后面加上数据类型后缀，如-int或-long分别表示操作的数据类型那个为整型与长整型。第1类指令可归类如下：

add-type vBB寄存器与vCC寄存器值进行加法运算（vBB + vCC）

sub-type vBB寄存器与vCC寄存器值进行减法运算（vBB - vCC）

mul-type vBB寄存器与vCC寄存器值进行乘法运算（vBB * vCC）

div-type vBB寄存器与vCC寄存器值进除法运算（vBB / vCC）

rem-type vBB寄存器与vCC寄存器值进行模运算（vBB % vCC）

and-type vBB寄存器与vCC寄存器值进行与运算（vBB & vCC）

or-type vBB寄存器与vCC寄存器值进行或运算（vBB | vCC）

xor-type vBB寄存器与vCC寄存器值进行异或运算（vBB ^ vCC）

shl-type vBB寄存器（有符号数）左移vCC位（vBB << vCC）

shr-type vBB寄存器（有符号数）右移vCC位（vBB >> vCC）

ushr-type vBB寄存器（无符号数）右移vCC位（vBB >> vCC）

其中基础字节码后面的-type可以是-int、-long、-float、-double。后面3类指令与之类似。

至此Dalvik虚拟机支持的所有指令都介绍完了。在Android4.0系统以前，每个指令的字节码只在用一个字节，取值范围是0x0~-0x0ff。在Android4.0系统中，有扩充了一部分指令，这些指令被成为扩展指令，如果指令主机次后添加了jumbo后缀，增加了寄存器与常量的取值范围。

简单的练习可以看看写一个Dalvik版的Hello World

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > [转载]Dalvik指令集

[转载]Dalvik指令集

看完仍有疑问？有类似问题直接问程序猿