Android开发——Dalvik寄存器指令集学习,目前 DEX 可执行文件主流的反汇编工具有 BakSmali 与 Dedexer,本篇文章 Dalvik 指令的语法都采用的 Smali 语法格式。
Dalvik 虚拟机基于寄存器架构,作用与特定的 CPU 上运行,设计之初采用了 ARM 架构,ARM 架构的 CPU 本身集成了多个寄存器,Dalvik 将部分寄存器映射到了 ARM 寄存器上,还有一部分则通过调用栈进行模拟,Dalvik 中用到的寄存器都是 32 位的,支持任何类型,64 位类型用 2 个相邻的寄存器表示。
Dalvik 寄存器的取值返回:v0 ~ v65535,从语法 “op vAAAA , vBBBB” 可以看出,每个大写字母是 4 位,所以就是 2 的 16 次方减 1。
假设一个函数使用到了 M 个寄存器, 并且该函数有 N 个参数,根据 Dalvik 虚拟机参数传递方式中的规定:参数使用最后 N 个寄存器,局部变量使用 v0 开始的前 M-N 个寄存器。
v 命名法 | p 命名法 | 寄存器含义 |
---|---|---|
v0 | v0 | 第一个局部变量寄存器 |
v1 | v1 | 第二个局部变量寄存器 |
… | … | 中间的局部变量寄存器依次递增且名称相同 |
vM-N | p0 | 第一个参数寄存器 |
… | … | 中间的参数寄存器分别依次递增 |
vM-1 | pN-1 | 第 N 个参数寄存器 |
Dalvik 字节码只有两种类型,基本类型与引用类型,Dalvik 使用这两种类型来表示 Java 语言的 全部类型,除了对象和数组属于引用类型,其他 Java 类型都是基本类型。
Dalvik 字节码类型描述符:
语法 | 含义 |
---|---|
V | void, 只用于返回值类型 |
Z | boolean |
B | byte |
S | short |
C | char |
I | int |
J | long |
F | float |
D | double |
L | Java class 类型 |
[ | 数组类型 |
L 类型可以表示 java class 类型中的任何类型,这些类在 Java 代码中以 package.name.ObjectName 方式引用。
在 Dalvik 汇编代码中, 它们以 Lpackage/name/ObjectName; 形式表示,注意最后有个分号,L 表示后面跟着一个 Java 类, package/name/ 表示对象所在的包,ObjectName 表示对象的名称,最后分号表示对象名结束。
例:Ljava/lang/String; 表示
java.lang.String。
[ 类型可以表示所有的基本类型数组。[ 后面紧跟基本类型描述符,如
[I 表示一个整型一维数组,相当于
int[]。
[[I 表示
int[][],多维数组的维数最大为 255。
L 与 [ 可是同时使用用来表示对象数组。如
[Ljava/lang/String; 就表示 Java 中的
String[]。
方法
Dalvik 使用 方法名、类型参数、返回值 来详细描述一个方法。
格式如下:
Lpackage/name/ObjectName;->MethodName(III)Z
Lpackage/name/ObjectName;:类型
MethodName:方法名
(III):方法的参数,这里是三个 int 类型
Z:返回类型,这里是 boolean 类型
再看个栗子:
method (I[[IILjava/lang/String;[Ljava/lang/Object;)Ljava/lang/String;
对应的 java 代码如下:
String method(int.int[][],int,String,Object[])
BakSmali 生成的方法代码以 .method 指令开始,以 .end method 指令结束,根据方法类型的不同,在方法指令开始前可能会用 “#” 加以注释,如 “# virtual methods” 表示虚方法,“# direct methods” 表示直接方法。
字段
Lpackage/name/ObjectName;->FieldName:Ljava/lang/String;
对应的 java 代码是
String FieldName
BakSmali 生成的字段代码以 .field 指令开头,在字段指令的开始可能会用 “#” 号加以注释,如 “# instance fields” 表示实例字段,“# static fields” 表示静态字段。
Dalvik 指令集
指令特点
参数采用从目标(destination)到源(source)的方式 根据字节码的大小与类型不同,一些字节码添加了名称后缀以消除歧义。
32 位常规类型的字节码未添加任何后缀 64 位常规类型的字节码添加 -wide 后缀 特殊类型字节码根据具体类型添加后缀。它们可以是 -boolean、-byte、-char、…、-object、-class、-void 根据字节码的布局与选项不同,一些字节码添加了 字节码后缀 以消除歧义,这些后缀通过在字节码主名称后添加 “/” 来分隔开。 在指令集的描述中,宽度值中每个字母表示数据宽度为 4 位。
举个栗子:
move-wide/from16 vAA,vBBBB
move:基础字节码(base opcode)。标识这是基本操作。
wide:名称后缀(name suffix)。标识指令操作的数据宽度(64 位)。
from16:字节码后缀(opcode suffix)。标识源为一个 16 位的寄存器引用变量。
vAA:目的寄存器。范围 v0 ~ v255。
vBBBB:源寄存器。范围 v0 ~ v65535。
空操作指令
空操作指令的助记符为 nop。它的值为 00,通常 nop 指令被用来做对齐代码之用,无实际操作。
数据操作指令
|
|
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
返回指令
返回指令是函数结尾时运行的最后一条指令。
|
|
---|---|
|
|
|
|
|
|
|
|
数据定义指令
数据定义指令用来定义程序中用到的常量、字符串、类等数据,它的基础字节码为 const。
|
|
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
锁指令
锁指令多用在多线程中对同一对象的操作,Dalvik 提供了两条锁指令。
|
|
---|---|
|
|
|
|
实例操作指令
与实例相关的操作包括实例的类型转换,检查及新建等。
|
|
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
数组操作指令
数组操作包括获取数组长度、新建数组、数组赋值、数组元素取值与赋值等操作。
|
|
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
异常指令
Dalvik 指令集中有一条指令用来抛出异常。
|
|
---|---|
|
|
跳转指令
跳转指令用于从当前地址调转到指定的偏移处,Dalvik 指令集中有三种跳转指令:无条件跳转(goto)、分支跳转(switch)、条件跳转(if)。
|
|
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
比较指令
比较指令用于对两个寄存器的值(浮点型或者长整型)进行比较。它的格式为 “cmpkind vAA,vBB,vCC”,其中 vBB 寄存器与 vCC 寄存器是需要比较的两个寄存器或两个寄存器对,比较的结果放到 vAA 寄存器。
|
|
---|---|
|
|
|
|
|
|
|
|
|
|
字段操作指令
字段操作指令用来对 对象实例 的字段进行读写操作,字段的类型可以是 java 中有效的数据类型。对普通字段和静态字段操作有两种指令集。
普通字段
iinstanceop vA,vB,field@CCCC
普通字段指令前缀为 i,对普通字段进行读操作使用 iget 指令,写操作使用 iput 指令
静态字段
sstaticop vAA,field@BBBB
静态字段指令前缀为 s,对静态字段进行读操作使用 sget 指令,写操作使用 sput 指令
方法调用指令
方法调用指令负责调用类实例的方法,它的基础指令为 invoke,方法调用指令有 “invoke-kind {vC,vD,vE,vF,vG},meth@BBBB” 和 “invoke-kind/range{vCCCC .. vNNNN},meth@BBBB” 两类,后者只是在设置参数寄存器时使用了 range 来指定寄存器的范围。
|
|
---|---|
|
|
|
|
|
|
|
|
|
|
方法调用指令的返回值必须使用 move-result* 指令来获取。如下面两条指令:
invoke-static {}, Landroid/os/Parcel;->obtain()Landroid/os/Parcel;
move-result-object v0
数据转换指令
数据转换指令用于将一种类型的数值转换成另一种类型,它的格式为 “unop vA,vB”,vB 寄存器或 vB 寄存器对存放需要转换的数据,转换后的结果保存在 vA 寄存器或 vA 寄存器对中。
|
|
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
数据运算指令
数据运算指令包括算数运算指令和逻辑运算指令。
算数运算:加、减、乘、除、模、移位。
逻辑运算:与、或、非、异或
数据运算指令有如下四类(数据运算时可能是在寄存器或寄存器对间进行,下面的指令作用讲解时使用寄存器来描述):
|
|
---|---|
|
|
|
|
|
|
|
|
后面 3 类指令比第 1 类指令分别多出了 2addr、lit16、lit8 等指令后缀,四类指令中基础字节码相同的指令的运算操作是类似的,第一类指令中,根据数据类型不同会在基础字节码后面加上数据类型后缀,如 -int 或 -long 分别表示操作的数据类型为整型和长整型。
第一类指令可归类如下:
|
|
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
其中基础字节码后面的 -type 可以是 -int,-long,-float,-double。后面 3 类指令与之类似。
每个指令的字节码值占用一个字节,范围是 0x0 ~ 0x0ff 。
在 android 4.0 中,增加了一部分扩展指令,主要是在指令助记符后添加了 jumbo 后缀,增加了寄存器和常量的取值范围。