首页 > 代码库 > [转载]Dalvik指令集

[转载]Dalvik指令集

这篇文章是转载的,为了便于查找一些指令,贴在这里。

转自:http://blog.csdn.net/canfengxiliu/article/details/20144119

---------------------

声明 : 文章是看<<Android软件安全与逆向分析>> 的所写笔记。

 

Dalvik指令格式
一段Dalvik汇编代码由一系列Dalvik指令组成,指令语法由指令的位描述与指令格式标识来决定。位描述约定如下:
     ● 每16位的字采用空格分隔开来。
     ● 每个字母表示4位,每个字母按顺序从高字节开始,排列到低字节。每4位之间可能使用竖线 “|” 来表示不同的内容。
     ● 顺序采用 A ~ Z 的单个大写字幕作为一个4位的操作码,op表示一个8位的操作码。
     ● “Φ” 来表示这字段所有位为0值。
以指令格式 “A|G|op BBBB F|E|D|C” 为例
指令中间有两个空格,每个分开的部分大小为16位,所以这条指令由三个16位的字组成。
第一个16位是 “A|G|op”,高8位由A与G组成,低字节由操作码op组成。
第二个16位由 BBBB 组成,它表示一个16位的偏移值。
第三个16位分别由F、E、D、C 共4个4字节组成,在这里他们表示寄存器参数。
 
单独使用位表示还无法确定一条指令,必须通过指令格式标识来指定格式的格式编码。它的约定如下:
     ● 指令格式标识大多由三个字符组成,前两个是数字,最后一个是字母。
     ● 第一个数字是表示指令有多少个16位的字组成。
     ● 第二个数字是表示指令最多使用寄存器的个数。特殊标记 “r” 标识使用一定范围内的寄存器。
     ● 第三个字母为类型码,表示指令用到的额外数据的类型。取值见如下表。
助记符位大小说 明
b88位有符号立即数
c16,32常量池索引
f16接口常量(仅对静态链接格式有效)
h16有符号立即数(32位或64位数的高值位,低值位为0)
i32立即数,有符号整数或32位浮点数
l64立即数,有符号整数或64位双精度浮点数
m16方法常量(仅对静态链接格式有效)
n44位的立即数
s16短整型立即数
t8, 16, 32跳转,分支
x0无额外数据
以指令格式标识22x 为例:
第一个数字2表示有2个16位字组成,第二个数字2表示指令使用到2个寄存器,第三个字母x表示没有使用到额外的数据。
 
Dalvik指令对语法做了一些说明,它约定如下:
     ● 每条指令从操作码开始,后面紧跟参数,参数个数不定,每个参数之间采用逗号分开。
     ● 每条指令的参数从指令第一部分开始,op位于低8位,高8位可以是一个8位的参数,也可以是两个4位的参数,还可以为空,如果指令超过16位,则后面部分一次作为参数
     ● 如果参数采用 “vX” 的方式表示,表示它是一个寄存器,如v0、v1等。这里采用v而不用r是为了避免与基于该虚拟机架构本身的寄存器名字产生冲突,如ARM架构寄存器命名采用r开头。
     ● 如果参数采用 “#+X” 的方式表示,表明它是一个常量数字。
     ● 如果参数采用 “+X” 的方式表示,表明它是一个相对指令的地址偏移。
     ● 如果参数采用 “kind@X” 的方式表示,表明它是一个常量池的索引值。其中kind表示常量池类型,它可以是 “string” 字符串常量池索引)、“type”(类型常量池索引)、“field”(字段常量池索引)或者 “meth”(方法常量池索引)。
 
在Andorid4.0源码Dalvik/docs 目录下提供了一份文档 instruction-formats.html,里面详细列举了Dalvik指令的所有格式。
 
Dalvik 字节码的类型、方法与字段表示方法
1.类型
语法含义
Vvoid, 只用于返回值类型
Zboolean
Bbyte
Sshort
Cchar
Iint
Jlong
Ffloat
Ddouble
LJava类类型
[数组类型
 
L类型可以表示Java类型中的任何类。这些类在Java代码以package.name.ObjectName方式因一哦那个,到了Dalvik汇编代码中,它们以Lpackage/name/ObjectName;形式表示,注意最后有个分号。
[类型可以表示所有基本类型的数组。[后面紧跟基本类型描述符。如 [I 表示 int [] , [[I 表示 int [][], 以此类推。注意多维数组的维数最大为255个。
 
2.方法
方法格式举例如下:
Lpackage/name/ObjectName;->MethodName(III)Z 
Lpackage/name/ObjectName 为函数属于哪个类的方法。
MethodName为具体的方法名。
(iii)Z 是方法的签名部分,其中III 为方法的参数(在此表示有三个int类型的参数), Z表示方法的返回类型(boolean类型)
 
3.字段
字段的格式如下:
Lpackage/name/ObjectName;->FieldNmae:Lpackage/name/ObjectName;
字段由类型(Lpackage/name/ObjectName;)、字段名(FieldName)与字段类型(Lpackage/name/ObjectName;)组成。
其中字段名与字段类型中间用冒号 “:” 隔开
BakSmali 生成的字段代码以。field指令开头,根据字段类型的不同,在字段指令的开头可能会用井号 “#” 加以注释, 如 
“# instance fields” 表示这是一个实例字段
“# static fields” 表示这是个静态字段 
 
Dalvik指令的语法与助词符有如下特点:
     1 .参数采用从目标到源的方式。
     2. 根据字节码的大小与类型不同,一些字节码添加了名称后缀以消除歧义
          ● 32位常规类型的字节码未添加任何后缀
          ● 64常规类型的字节码添加 -wide 后缀
          ● 特殊类型的字节码根据具体类型添加后缀。它们可以是 -boolean、-byte、-char、-short、 -int、-long、-float、-double、-object、-string、-void之一。
     3. 根据字节码的布局与选项不同,一些字节码添加了字节码后缀以消除歧义。这些后缀通过在字节码主名称后缀添加斜杠“/”来分割开。
     4. 在指令集的描述中,宽度值中每个字幕表示宽度为4位。
 
例如这条指令: “move-wide/from16 vAA, vBBBB”
move 为基础字节码。标识这是基本操作。
wide 为名称后缀。标识指令操作的数据宽度(64位)。
from16 为字节码后缀。标识源为一个16位的寄存器引用变量。
vAA 为目的寄存器。它始终在源的前面,取值范围为v0~v255。
vBBBB 为源寄存器。取值范围为v0~v65535
 
Dalvik 指令集中大多数指令用到了寄存器作为目的操作数或源操作数,其中 A/B/C/D/E/F/G/H 代表一个4位的数值, 可用来表示v0~v15的寄存器。 AA/BB/.../HH代表一个8位的数值。 AAAA/BBBB/.../HHHH 代表一个16位的数值
 
空操作指令
空操作指令的助记符为nop。它的值为00,通知被用来作对齐代码之用,无实际操作。
 
数据操作指令
数据操作指令为move。move指令的原型为 move 目标,源。 move 指令根据字节码大小与类型不同,后面会跟上不同的后缀。
move-object/from16 vAA, vBBBB 为对象赋值。源寄存器为8位,目的寄存器为16位。
move-object/16 vAAAA,vBBBB 为对象复制。源寄存器与目的寄存器都为16位
move-result-wide vAA 将上一个invoke类型指令操作的双(没有-wide则是 单 )字非对象结果赋给vAA寄存器
move-result-object vAA 将上一个invoke类型指令操作的非对象结果赋给vAA寄存器
move-exception vAA 保存一个运行时发生的异常到vAA寄存器。这条指令必须是异常发生屎的异常处理器的一条指令。否则的话,指令无效。
 
返回指令
返回指令指的是函数结尾时运行的最后一条指令。共有以下四条返回指令:
return-void
return vAA
return-wide vAA
return-object vAA
 
数据定义指令
数据定义指令用来定义程序中用到的常量、字符串、类等数据。它的基础字节码为const。
const/4 vA,#+B 将数值符号扩展为32位后赋给寄存器 vA
const/16 vAA,#+BBBB 将数值符号扩展为32位后赋给寄存器 vAA
const vAA,#+BBBBBBBB 将数值付给寄存器vAA
const/high16 vAA,#+BBBB0000 将数值右边 0 扩展为32位后赋给寄存器vAA
const-wide/16 vAA,#+BBBB 将数值符号扩展64位后赋给寄存器对vAA
const-wide vAA,#+BBBBBBBBBBBBBBBB 将数值赋给寄存器对vAA
const-wide/high16 vAA,#+BBBB000000000000 将数值右边 0 扩展为64位后付给寄存器对 vAA
const-string vAA,string@BBBB 通过字符串索引构造一个字符串并赋给寄存器对 vAA
const-string/jumbo vAA,string@BBBBBBBB 通过字符串索引(较大) 构造一个字符串并付给寄存器对vAA
const-class vAA,type@BBBB 通过类型索引获取一个类引用并付给寄存器 vAA
const-class/jumbo vAAAA,type@BBBBBBBB 通过给定的类型那个索引获取一个类索引并付给寄存器vAAAA(这条指令占用两个字节,值为0x00ff,是Android4.0中新增的指令)
 
锁指令
锁指令多用在多线程程序中对同一对象的操作。Dalvik指令集中有两条锁指令。
monitor-enter vAA 为指定的对象获取锁
monitor-exit vAA 释放指定的对象的锁
 
实例操作指令
与实例相关的操作包括实例的类型转换、检查及新建等
check-cast vAA,type@BBBB 将vAA寄存器中的对象引用转换成指定的类型,如果失败会抛出ClassCastException 异常。如果类型B 指定的是基本类型,对于非基本类型的A来说,运行时始终会失败。
instance-of vA,vB,type@CCCC 判断vB寄存器中的对象引用是否可以转换成指定的类型,如果可以vA寄存赋值为1,否则vA寄存器为0
new-instance vAA,type@BBBB 构造一个指定类型对象的新实例,并将对象引用赋值给vAA寄存器,类型符号type指定的类型不能是数组类。
check-cast/jumbo vAAAA,type@BBBBBBBB    instance-of vAAAA, vBBBB, type@CCCCCCCC   new-instance/jumbo vAAAA, type@BBBBBBBB这三个指令功能分别与 上面三个指令分对应 相同,只是寄存器值与指令的索引取值范围坑大(Android4.0中新增的命令)
 
数组操作指令
数组操作包括读取数组长度、新建数组、数组赋值、数组元素取值与赋值等操作。
array-length vA,vB 获取给定vB寄存器中数组的长度并将值赋给vA寄存器,数组长度指的是数组的条目个数。
new-array vA,vB,type@CCCC 构造指定类型(type@CCCC)与大小(vB)的数组,并将值赋给vA寄存器。
new-array/jumbo vAAAA,vBBBB,type@CCCCCCCC 指令功能与上一条指令相同,只是寄存器与指令的索引取值范围更大(Android4.0中新增的指令)
filled-new-array {vC,vD,vE,vF,vG},type@BBBB 构造指定类型(type@BBBB)与大小(vA)的数组并填充数组内容。vA寄存器是隐含使用的,除了指定数组的大小外还制订了参数的个数,vC~vG是使用到的参数寄存器序列
filled-new-array/range {vCCCC, ... ,vNNNN},type@BBBB 指定功能与上一条指令相同,只是参数寄存器使用range字节码后缀指定了取值范围,vC是第一个参数寄存器, N=A+C-1。
filled-new-array/jumbo {vCCCC, ... ,vNNNN},type@BBBBBBBB 指令功能与上一条指令相同,只是寄存器与指令的索引取值范围更大(Android4.0中新增的指令)
fill-array-data vAA, +BBBBBBBB 用指定的数据来填充数组,vAA寄存器为数组引用,引用必须为基础类型的数组,在指令后面会紧跟一个数据表
arrayop vAA,vBB,vCC 对vBB寄存器指定的数组元素进入取值与赋值。vCC寄存器指定数组元素索引,vAA寄存器用来寄放读取的或需要设置的数组元素的值。读取元素使用aget类指令,元素赋值使用aput指令,元素赋值使用aput类指令,根据数组中存储的类型指令后面会紧跟不同的指令后缀,指令列表有aget、aget-wide、aget-object、aget-boolean、aget-byte、aget-char、aget-short、aput、aput-wide、aput-boolean、aput-byte、aput-char、aput-short。
 
异常指令
Dalvik指令集有一条指令用来抛出异常
throw vAA 抛出vAA寄存器中指定类型的异常。
 
跳转指令
跳转指令用于从当前地址跳转到孩子定的偏移处。Dalvik指令集中有三种跳转指令:无条件跳转(goto)、分支跳转(switch)与条件跳转(if)。
goto +AA 无条件跳转到指定偏移处,偏移量AA不能为0
goto/16 +AAAA 无条件跳转到指定偏移处,偏移量AAAA不能为0。
goto/32 +AAAAAAAA 无条件跳转到指定偏移处。
packed-switch vAA,+BBBBBBBB 分支跳转指令。vAA寄存器为switch分支中需要判断的值,BBBBBBBB指向一个packed-switch-payload格式的偏移表,表中的值是有规律递增的。
sparse-switch vAA,+BBBBBBBB 分支跳转指令。vAA寄存器为switch分支中需要判断的值,BBBBBBBB指向一个sparse-switch-payload格式的偏移表,表中的值是无规律的偏移表,表中的值是无规律的偏移量。
if-test vA,vB,+CCCC 条件跳转指令。比较vA寄存器与vB寄存器的值,如果比较结果满足就跳转到CCCC指定的偏移处。偏移量CCCC不能为0。if-test类型的指令有以下几条:
     ● if-eq 如果vA不等于vB则跳转。Java语法表示为 if(vA == vB)
     ● if-ne 如果vA不等于vB则跳转。Java语法表示为 if(vA != vB)
     ● if-lt 如果vA小于vB则跳转。Java语法表示为 if(vA < vB)
     ● if-le 如果vA小于等于vB则跳转。Java语法表示为 if(vA <= vB)
     ● if-gt 如果vA大于vB则跳转。Java语法表示为 if(vA > vB)
     ● if-ge 如果vA大于等于vB则跳转。Java语法表示为 if(vA >= vB)
 
if-testz vAA,+BBBB 条件跳转指令。拿vAA寄存器与 0 比较,如果比较结果满足或值为0时就跳转到BBBB指定的偏移处。偏移量BBBB不能为0。 if-testz类型的指令有一下几条:
     ● if-nez 如果vAA为 0 则跳转。Java语法表示为 if(vAA == 0)
     ● if-eqz 如果vAA不为 0 则跳转。Java语法表示为 if(vAA != 0)
     ● if-ltz 如果vAA小于 0 则跳转。Java语法表示为 if(vAA < 0)
     ● if-lez 如果vAA小于等于 0 则跳转。Java语法表示为 if(vAA <= 0)
     ● if-gtz 如果vAA大于 0 则跳转。Java语法表示为 if(vAA > 0)
     ● if-gez 如果vAA大于等于 0 则跳转。Java语法表示为 if(vAA >= 0)
 
比较指令
比较指令用于两个寄存器的值(浮点型或长整型)进行比较。它的格式为 cmpkind vAA,vBB,vCC,其中vBB寄存器与vCC寄存器是需要比较的两个寄存器或者两个寄存器对,比较的结果放到vAA寄存器。Dalvik指令集中共有 5 条比较指令。
cmpl-float 比较两个单精度浮点数。如果vBB寄存器小于vCC寄存器,则结果为1,相等则结果为0,大于的话结果为-1。
cmpg-float 比较两个单精度浮点数。如果vBB寄存器大于vCC寄存器,则结果为1,相等则结果为0,小于的话结果为-1。
cmpl-double  比较两个双精度浮点数。如果vBB寄存器小于vCC寄存器,则结果为1,相等则结果为0,大于的话结果为-1。
cmpg-double 比较两个双精度浮点数。如果vBB寄存器大于vCC寄存器,则结果为1,相等则结果为0,小于的话结果为-1。
cmp-long 比较两个长整型数。如果vBB寄存器大于vCC寄存器,则结果为1,相等则结果为0,小于的话结果为-1。
 
字段操作指令
字段操作指令用来对对象实例的字段进入读写操作。字段的类型那个可以是Java中有效的数据类型,对普通字段与静态字段操作有两中指令集,分别是iinstanceop vA,vB,field@CCCC 与 sstaticop vAA,field@BBBB
普通字段指令的指令前缀为i,如对普通字段读操作使用iget指令,写操作使用iput指令;静态字段的指令前缀为s,如对静态字段读操作使用sget指令,写操作使用sput指令。
根据访问的字段类型不同,字段操作指令后面会紧跟字段类型的后缀,如iget-byte指令表示读写实例字段的值类型为字节类型,iput-short指令表示设置实例字段的值类型为短整型。两类指令操作结果都是一样的,只是指令前缀与操作的字段类型不同。
普通字段操作指令有:iget、iget-wide、iget-object、iget-boolean、iget-byte、iget-char、iget-short、iput、iput-wide、iput-object、iput-boolean、iput-byte、iput-char、iput-short。
静态字段操作指令有:sget、sget-wide、sget-object、sget-boolean、sget-byte、sget-char、sget-short、sput、sput-wide、sput-object、sput-boolean、sput-byte、sput-char、sput-short。
在Android4.0系统中,Dalvik指令集中增加了 instanceop/jumbo vAAAA,vBBBB,field@CCCCCCCC 与sstaticop/jumbo vAAAA,field@BBBBBBBB 两类指令,它们与上面介绍的两类指令作用相同,只是在指令中增加了jumbo字节码后缀,且寄存器值与指令的索引取值范围更大。
 
方法调用指令
方法调用指令负责调用类实例的方法。它的基础指令为invoke,方法嗲用指令有 invoke-kind {vC,vD,vE,vF,vG},meth@BBBB 与 invoke-kind/range {vCCCC, ... ,vNNNN},meth@BBBB 两类,两类指令在作用上并无不同,只是后则在设置参数寄存器时使用了range来指定寄存器的范围。根据方法类型的不同,共有如下 5 条方法调用指令:
invoke-virtual 或 invoke-virtual/range 调用实例的虚方法
invoke-super 或 invoke-super/range 调用实例的父类方法
invoke-direct 或 invoke-direct/range 调用实例的直接方法
invoke-static 或 invoke-static/range 调用实例的静态方法
invoke-interface 或 invoke-interface/range 调用实例的接口方法
 
在Android4.0系统中,Dalvik指令集中增加了 invoke-kind/jumbo {vCCCC, ... ,vNNNN},meth@BBBBBBBB 这类指令,它与上面介绍的两类指令作用相同,只是在指令中增加了jumbo字节码后缀,且寄存器值与指令的索引取值范围更大。
方法调用的指令的返回值必须使用move-result-* 指令来获取。如下两条指令:
invoke-static {},Landroid/os/Parcel;->obtain()Landroid/osParcel;
move-result-object v0
 
数据转换指令
数据转换指令用于将一种类型的数值转换成另一种类型,它的格式为 unop vA,vB 。 vB寄存器或vB寄存器对存放需要转换的数据,转换后的结果保存在vA寄存器或vA寄存器对中。
neg-int 对整型数求补
not-int  对整型数求反
neg-long 对长整型求补
not-long 对长整型求反
neg-float 对单精度浮点型数求补
neg-double 对双精度浮点型数求补
int-to-long 将整型数转换为长整型
int-to-float 将整型数转换为单精度浮点型
int-to-double 将整型数转换为双精度浮点型
long-to-int 将长整型数转换为整型
long-to-float 将长整型数转换为单精度浮点型
long-to-double 将长整型数转换为双精度浮点型
float-to-int 将单精度浮点型数转换为整型
float-to-long 将单精度浮点型数转换为长整型
float-to-double 将单精度浮点型数转换为双精度浮点型
double-to-int 将双精度浮点型数转换为整型
double-to-long 将双精度浮点型数转换为长整型
double-to-float 将双精度浮点型数转换为单精度浮点型
int-to-byte 将整型转换为字节型
int-to-char 将整型转换为字符串
int-to-short 将整型转换为短整型
 
数据运算指令
数据运算指令包括算术运算指令与逻辑运算指令。算术运算指令主要进行数值间如加、减、乘、除、模、移位等运算,逻辑运算主要进行数值间与、或、非、异或等运算。数据运算指令有如下四类(数据运算时可能在寄存器或寄存器对间进行,下面的指令作用讲解时使用寄存器来描述):
binop vAA,vBB,vCC 将vBB寄存器与vCC寄存器进行运算,结果保存到vAA寄存器
binop/2addr vA,vB 将vA寄存器与vB寄存器进行运算,结果保存到vA寄存器
binop/lit16 vA,vB,#+CCCC 将vB寄存器与常量CCCC进行运算,结果保存到vA寄存器
binop/lit8 vAA,vBB,#+CC 将vBB寄存器与常量CC进行运算,结果保存到vAA寄存器
后面3类指令比第1类指令分别多了addr、lit16、lit8等指令后缀。四类指令中基础字节码后面加上数据类型后缀,如-int或-long分别表示操作的数据类型那个为整型与长整型。第1类指令可归类如下:
add-type     vBB寄存器与vCC寄存器值进行加法运算(vBB  + vCC)
sub-type     vBB寄存器与vCC寄存器值进行减法运算(vBB  - vCC)
mul-type     vBB寄存器与vCC寄存器值进行乘法运算(vBB  * vCC)
div-type     vBB寄存器与vCC寄存器值进除法运算(vBB  / vCC)
rem-type     vBB寄存器与vCC寄存器值进行模运算(vBB  % vCC)
and-type     vBB寄存器与vCC寄存器值进行与运算(vBB  & vCC)
or-type     vBB寄存器与vCC寄存器值进行或运算(vBB  | vCC)
xor-type     vBB寄存器与vCC寄存器值进行异或运算(vBB  ^ vCC)
shl-type     vBB寄存器(有符号数)左移vCC位(vBB << vCC)
shr-type     vBB寄存器(有符号数)右移vCC位(vBB >> vCC)
ushr-type     vBB寄存器(无符号数)右移vCC位(vBB >> vCC)
其中基础字节码后面的-type可以是-int、-long、-float、-double。后面3类指令与之类似。
 
 
 
至此Dalvik虚拟机支持的所有指令都介绍完了。在Android4.0系统以前,每个指令的字节码只在用一个字节,取值范围是0x0~-0x0ff。在Android4.0系统中,有扩充了一部分指令,这些指令被成为扩展指令,如果指令主机次后添加了jumbo后缀,增加了寄存器与常量的取值范围。

 

简单的练习可以看看 写一个Dalvik版的Hello World