Android开发——Dalvik寄存器指令集学习

17-09-28 来源：[db:作者]

收藏我要投稿

Android开发——Dalvik寄存器指令集学习，目前 DEX 可执行文件主流的反汇编工具有 BakSmali 与 Dedexer，本篇文章 Dalvik 指令的语法都采用的 Smali 语法格式。

了解 Dalvik 寄存器

Dalvik 虚拟机基于寄存器架构，作用与特定的 CPU 上运行，设计之初采用了 ARM 架构，ARM 架构的 CPU 本身集成了多个寄存器，Dalvik 将部分寄存器映射到了 ARM 寄存器上，还有一部分则通过调用栈进行模拟，Dalvik 中用到的寄存器都是 32 位的，支持任何类型，64 位类型用 2 个相邻的寄存器表示。

Dalvik 寄存器的取值返回：v0 ~ v65535，从语法 “op vAAAA , vBBBB” 可以看出，每个大写字母是 4 位，所以就是 2 的 16 次方减 1。

v 命名法与 p 命名法

假设一个函数使用到了 M 个寄存器，并且该函数有 N 个参数，根据 Dalvik 虚拟机参数传递方式中的规定：参数使用最后 N 个寄存器，局部变量使用 v0 开始的前 M-N 个寄存器。

v 命名法	p 命名法	寄存器含义
v0	v0	第一个局部变量寄存器
v1	v1	第二个局部变量寄存器
…	…	中间的局部变量寄存器依次递增且名称相同
vM-N	p0	第一个参数寄存器
…	…	中间的参数寄存器分别依次递增
vM-1	pN-1	第 N 个参数寄存器

Dalvik 字节码的类型、方法、字段的表示方式

类型

Dalvik 字节码只有两种类型，基本类型与引用类型，Dalvik 使用这两种类型来表示 Java 语言的全部类型，除了对象和数组属于引用类型，其他 Java 类型都是基本类型。

Dalvik 字节码类型描述符：

语法	含义
V	void, 只用于返回值类型
Z	boolean
B	byte
S	short
C	char
I	int
J	long
F	float
D	double
L	Java class 类型
[	数组类型

L 类型可以表示 java class 类型中的任何类型，这些类在 Java 代码中以 package.name.ObjectName 方式引用。在 Dalvik 汇编代码中，它们以 Lpackage/name/ObjectName; 形式表示，注意最后有个分号，L 表示后面跟着一个 Java 类， package/name/ 表示对象所在的包，ObjectName 表示对象的名称，最后分号表示对象名结束。例：Ljava/lang/String; 表示 java.lang.String。

[ 类型可以表示所有的基本类型数组。[ 后面紧跟基本类型描述符，如 [I 表示一个整型一维数组，相当于 int[]。[[I 表示 int[][]，多维数组的维数最大为 255。

L 与 [ 可是同时使用用来表示对象数组。如 [Ljava/lang/String; 就表示 Java 中的 String[]。

`方法`

Dalvik 使用方法名、类型参数、返回值来详细描述一个方法。格式如下：

Lpackage/name/ObjectName;->MethodName(III)Z

Lpackage/name/ObjectName;：类型 MethodName：方法名 (III)：方法的参数，这里是三个 int 类型 Z：返回类型，这里是 boolean 类型

再看个栗子：

method (I[[IILjava/lang/String;[Ljava/lang/Object;)Ljava/lang/String;

对应的 java 代码如下：

String method(int.int[][],int,String,Object[])

BakSmali 生成的方法代码以 .method 指令开始，以 .end method 指令结束，根据方法类型的不同，在方法指令开始前可能会用 “#” 加以注释，如 “# virtual methods” 表示虚方法，“# direct methods” 表示直接方法。

`字段`

Lpackage/name/ObjectName;->FieldName:Ljava/lang/String;

对应的 java 代码是

String FieldName

BakSmali 生成的字段代码以 .field 指令开头，在字段指令的开始可能会用 “#” 号加以注释，如 “# instance fields” 表示实例字段，“# static fields” 表示静态字段。

`Dalvik 指令集`

`指令特点`

参数采用从目标（destination）到源（source）的方式 根据字节码的大小与类型不同，一些字节码添加了名称后缀以消除歧义。

32 位常规类型的字节码未添加任何后缀 64 位常规类型的字节码添加 -wide 后缀 特殊类型字节码根据具体类型添加后缀。它们可以是 -boolean、-byte、-char、…、-object、-class、-void 根据字节码的布局与选项不同，一些字节码添加了 字节码后缀 以消除歧义，这些后缀通过在字节码主名称后添加 “/” 来分隔开。 在指令集的描述中，宽度值中每个字母表示数据宽度为 4 位。

举个栗子：

move-wide/from16 vAA,vBBBB

move：基础字节码（base opcode）。标识这是基本操作。 wide：名称后缀（name suffix）。标识指令操作的数据宽度（64 位）。 from16：字节码后缀（opcode suffix）。标识源为一个 16 位的寄存器引用变量。 vAA：目的寄存器。范围 v0 ~ v255。 vBBBB：源寄存器。范围 v0 ~ v65535。

`空操作指令`

空操作指令的助记符为 nop。它的值为 00，通常 nop 指令被用来做对齐代码之用，无实际操作。

`数据操作指令`

`指令`	`描述`
`move vA,vB`	`将 vB 寄存器的值赋值给 vA 寄存器，源寄存器和目的寄存器都是 4 位。`
`move/from16 vAA,vBBBB`	`将 vBBBB 寄存器的值赋值给 vAA 寄存器，源寄存器为 16 位，目的寄存器为 8 位。`
`move/16 vAAAA,vBBBB`	`将 vBBBB 寄存器的值赋值给 vAAAA 寄存器，源寄存器和目的寄存器都是 16 位。`
`move-wide vA,vB`	`为 4 位的寄存器对赋值，源寄存器和目的寄存器都是 4 位。`
`move-wide/from16 vAA,vBBBB`	`同 move-wide`
`move-wide/16 vAA,vBBBB`	`同 move-wide`
`move-object vA,vB`	`为对象赋值，源寄存器和目的寄存器都是 4 位。`
`move-object/from16 vAA,vBBBB`	`为对象赋值，源寄存器为 16 位，目的寄存器为 8 位。`
`move-object/16 vAAAA,vBBBB`	`为对象赋值，源寄存器和目的寄存器都是 16 位。`
`move-result vAA`	`将上一个 invoke 类型指令操作的单字非对象结果赋给 vAA 寄存器`
`move-result-wide vAA`	`将上一个 invoke 类型指令操作的双字非对象结果赋给 vAA 寄存器`
`move-result-object vAA`	`将上一个 invoke 类型指令操作的对象结果赋给 vAA 寄存器`
`move-exception vAA`	`保存一个运行时发生的异常到 vAA 寄存器。这条指令必须是异常发生时的异常处理器的一条指令，否则指令无效。`

`返回指令`

返回指令是函数结尾时运行的最后一条指令。

`指令`	`描述`
`return-void`	`表示函数从一个 void 方法返回`
`return vAA`	`表示函数返回一个 32 位非对象类型的值，返回值寄存器为 8 位的寄存器 vAA`
`return-wide vAA`	`表示函数返回一个 64 位非对象类型的值，返回值寄存器为 8 位的寄存器对 vAA`
`return-object vAA`	`表示函数返回一个对象类型的值，返回值为 8 位的寄存器 vAA`

`数据定义指令`

数据定义指令用来定义程序中用到的常量、字符串、类等数据，它的基础字节码为 const。

`指令`	`描述`
`const/4 vA,#+B`	`将数值符号扩展为 32 位后赋给寄存器 vA。`
`const/16 vAA,#+BBBB`	`将数值符号扩展为 32 位后赋给寄存器 vAA。`
`const vAA,#+BBBBBBBB`	`将数值赋给寄存器 vAA。`
`const/high16 vAA,#+BBBB0000`	`将数值右边零扩展为 32 位后赋给寄存器 vAA`
`const-wide/16 vAA,#+BBBB`	`将数值扩展为 64 位后赋给寄存器对 vAA`
`const-wide/32 vAA,#+BBBBBBBB`	`将数值扩展为 64 位后赋给寄存器对 vAA`
`const-wide vAA,#+BBBBBBBBBBBBBBBB`	`将数值赋给寄存器对 vAA`
`const-wide/hight16 vAA,#+BBBB000000000000`	`将数值右边零扩展为 64 位后赋给寄存器对 vAA`
`const-string vAA,string@BBBB`	`通过字符串索引构造一个字符串并赋给寄存器 vAA`
`const-string/jumbo vAA,string@BBBBBBBB`	`通过字符串索引（较大）构造一个字符串并赋给寄存器 vAA`
`const-class vAA,type@BBBB`	`通过类型索引获取一个类引用并赋给寄存器 vAA`
`const-class/jumbo vAAAA,type@BBBBBBBB`	`通过类型索引获取一个类引用并赋给寄存器 vAA（这条指令占用两个字节，值为 0x00ff）`

`锁指令`

锁指令多用在多线程中对同一对象的操作，Dalvik 提供了两条锁指令。

`指令`	`描述`
`monitor-enter vAA`	`为指定的对象获取锁`
`monitor-exit vAA`	`释放指定对象的锁`

`实例操作指令`

与实例相关的操作包括实例的类型转换，检查及新建等。

`指令`	`描述`
`check-cast vAA,type@BBBB`	`将 vAA 寄存器中的对象引用转换成指定的类型，如果失败会抛出 ClassCastException 异常，如果类型 B 指定的是基本类型，对于非基本类型的 A 来说，运行时始终会失败。`
`instance-of vA,vB,type@CCCC`	`判断 vB 寄存器中的对象是否可以转换成指定的类型，如果可以 vA 赋给 1，否则赋给 0。`
`new-instance vAA,type@BBBB`	`构造一个指定类型对象的新实例，并将对象引用赋给 vAA，类型符 type 指定的类型不是数组。`
`check-cast/jumbo vAAAA,type@BBBBBBBB`	`同 check-cast vAA,type@BBBB ，只是寄存器值和指令的索引取值返回更大（android 4.0 新增）`
`instance-of/jumbo vAAAA,vBBBB,type@CCCCCCCC`	`同 instance-of vA,vB,type@CCCC ，只是寄存器值和指令的索引取值返回更大（android 4.0 新增）`
`new-instance/jumbo vAAAA,type@BBBBBBBB`	`同 new-instance vAA,type@BBBB ，只是寄存器值和指令的索引取值返回更大（android 4.0 新增）`

`数组操作指令`

数组操作包括获取数组长度、新建数组、数组赋值、数组元素取值与赋值等操作。

`指令`	`描述`
`array-length vA,vB`	`获取给定 VB 寄存器中数组的长度并将值赋给 vA 寄存器`
`new-array vA,vB,type@CCCC`	`构造指定类型（type@CCCC）和大小（vB）的数组，并将值赋给 vA`
`filled-new-array {vC,vD,vE,vF,vG},type@BBBB`	`构造指定类型（type@BBBB）和大小（vA）的数组并填充数组内容。vA 寄存器是隐含使用的，除了指定数组的大小外还指定了参数的个数，vC ~ vG 是使用到的参数寄存器序列`
`filled-new-array/range {vCCCC .. vNNNN},type@BBBB`	`指令功能同 filled-new-array {vC,vD,vE,vF,vG},type@BBBB，只是参数寄存器使用 range 字节码后缀指定了取值范围，vC 是第一个参数寄存器， N = A + C - 1`
`fill-array-data vAA,+BBBBBBBB`	`用指定的数据来填充数组，vAA 为数组引用，引用必须为基础类型的数组，再指令后面会紧跟一个数据表`
`new-array/jumbo vAAAA,vBBBB,type@CCCCCCCC`	`同 new-array vA,vB,type@CCCC ，只是寄存器值和指令的索引取值返回更大（android 4.0 新增）`
`filled-new-array/jumbo {vCCCC .. vNNNN},type@BBBBBBBB`	`同 filled-new-array/range {vCCCC … vNNNN},type@BBBB ，只是索引取值返回更大（android 4.0 新增）`
`arrayop vAA,vBB,vCC`	`对 vBB 寄存器指定的数组元素进行取值和赋值，vCC 指定数组元素索引，vAA 用来存放读取的或需要设置的数组元素的值，读取元素使用 aget 类指令，元素赋值使用 aput 类指令，根据数组中存储的类型指令后面会紧跟不同的指令后缀，指令列表有( aget , aget-wide , aget-object , aget-boolean , aget-byte , aget-char , aget-short , aput , aput-wide , aput-object , aput-boolean , aput-byte , aput-char , aput-short )`

`异常指令`

Dalvik 指令集中有一条指令用来抛出异常。

`指令`	`描述`
`throw vAA`	`抛出 vAA 寄存器中指定类型的异常`

`跳转指令`

跳转指令用于从当前地址调转到指定的偏移处，Dalvik 指令集中有三种跳转指令：无条件跳转（goto）、分支跳转（switch）、条件跳转（if）。

`指令`	`描述`
`goto +AA`	`无条件跳转到指定偏移处，偏移量 AA 不能为 0。`
`goto/16 +AAAA`	`无条件跳转到指定偏移处，偏移量 AAAA 不能为 0。`
`goto/32 +AAAAAAAA`	`无条件跳转到指定偏移处`
`packed-switch vAA,+BBBBBBBB`	`分支跳转指令。vAA 寄存器为 switch 分支中需要判断的值， BBBBBBBB 指向一个 packed-switch-payload 格式的偏移表，表中的值是有规律递增的`
`sparse-switch vAA,+BBBBBBBB`	`分支跳转指令。vAA 寄存器为 switch 分支中需要判断的值， BBBBBBBB 指向一个 packed-switch-payload 格式的偏移表，表中的值是无规律的偏移量`
`if-test vA,vB,+CCCC`	`条件跳转指令，比较 vA 和 vB 的值，如果比较结果满足条件就跳转到 CCCC 指定的偏移处，偏移量 CCCC 不能为 0`
`if-testz vAA,+BBBB`	`条件跳转指令，vAA 和 0 比较，如果比较结果满足或值为 0 时就跳转到 BBBB 指定的偏移处，偏移量 BBBB 不能为 0`

`if-test 类型的指令`	`对应的 Java 语法`	`描述`
`if-eq`	`if(vA==vB)`	`如果 vA 等于 vB 则跳转`
`if-ne`	`if(vA!=vB)`	`如果 vA 不等于 vB 则跳转`
`if-lt`	`if(vA`	`如果 vA 小于 vB 则跳转`
`if-ge`	`if(vA>=vB)`	`如果 vA 大于等于 vB 则跳转`
`if-gt`	`if(vA>vB)`	`如果 vA 大于 vB 则跳转`
`if-le`	`if(vA<=vB)`	`如果 vA 小于等于 vB 则跳转`

`if-testz 类型的指令`	`对应的 Java 语法`	`描述`
`if-eqz`	`if(!vAA)`	`vAA 为 0 则跳转`
`if-nez`	`if(vAA)`	`vAA 不为 0 则跳转`
`if-ltz`	`if(vAA<0)`	`vAA 小于 0 则跳转`
`if-gez`	`if(vAA>=0)`	`vAA 大于等于 0 则跳转`
`if-gtz`	`if(vAA>0)`	`vAA 大于 0 则跳转`
`if-lez`	`if(vAA<=0)`	`vAA 小于等于 0 则跳转`

`比较指令`

比较指令用于对两个寄存器的值（浮点型或者长整型）进行比较。它的格式为 “cmpkind vAA,vBB,vCC”，其中 vBB 寄存器与 vCC 寄存器是需要比较的两个寄存器或两个寄存器对，比较的结果放到 vAA 寄存器。

`指令`	`描述`
`cmpl-float`	`比较两个单精度浮点数。如果 vBB 寄存器大于 vCC 寄存器，则结果为 -1，相等则为 0，小于则为 1。`
`cmpg-float`	`比较两个单精度浮点数。如果 vBB 寄存器大于 vCC 寄存器，则结果为 1，相等则为 0，小于则为 -1。`
`cmpl-double`	`比较两个双精度浮点数。如果 vBB 寄存器对大于 vCC 寄存器对，则结果为 -1，相等则为 0，小于则为 1。`
`cmpg-double`	`比较两个双精度浮点数。如果 vBB 寄存器对大于 vCC 寄存器对，则结果为 1，相等则为 0，小于则为 -1。`
`cmp-long`	`比较两个长整型数。如果 vBB 寄存器大于 vCC 寄存器，则结果为 1，相等则为 0，小于则为 -1。`

`字段操作指令`

字段操作指令用来对对象实例的字段进行读写操作，字段的类型可以是 java 中有效的数据类型。对普通字段和静态字段操作有两种指令集。

`普通字段`

iinstanceop vA,vB,field@CCCC

普通字段指令前缀为 i，对普通字段进行读操作使用 iget 指令，写操作使用 iput 指令

`静态字段`

sstaticop vAA,field@BBBB

静态字段指令前缀为 s，对静态字段进行读操作使用 sget 指令，写操作使用 sput 指令

`方法调用指令`

方法调用指令负责调用类实例的方法，它的基础指令为 invoke，方法调用指令有 “invoke-kind {vC,vD,vE,vF,vG},meth@BBBB” 和 “invoke-kind/range{vCCCC .. vNNNN},meth@BBBB” 两类，后者只是在设置参数寄存器时使用了 range 来指定寄存器的范围。

`指令`	`描述`
`invoke-virtual 或 invoke-virtual/range`	`调用实例的虚方法`
`invoke-super 或 invoke-super/range`	`调用实例的父类方法`
`invoke-direct 或 invoke-direct/range`	`调用实例的直接方法`
`invoke-static 或 invoke-static/range`	`调用实例的静态方法`
`invoke-interface 或 invoke-interface/ragne`	`调用实例的接口方法`

方法调用指令的返回值必须使用 move-result* 指令来获取。如下面两条指令：

invoke-static {}, Landroid/os/Parcel;->obtain()Landroid/os/Parcel;  

move-result-object v0

`数据转换指令`

数据转换指令用于将一种类型的数值转换成另一种类型，它的格式为 “unop vA,vB”，vB 寄存器或 vB 寄存器对存放需要转换的数据，转换后的结果保存在 vA 寄存器或 vA 寄存器对中。

`指令`	`描述`
`neg-int`	`对整型数求补`
`not-int`	`对整型数求反`
`neg-long`	`对长整型数求补`
`not-long`	`对长整型数求反`
`neg-float`	`对单精度浮点数求补`
`neg-double`	`对双精度浮点数求补`
`int-to-long`	`将整型数转换为长整型`
`int-to-float`	`略`
`int-to-double`	`略`
`long-to-int`	`略`
`long-to-float`	`略`
`long-to-double`	`略`
`float-to-int`	`略`
`float-to-long`	`略`
`float-to-double`	`略`
`double-to-int`	`略`
`double-to-long`	`略`
`double-to-float`	`略`
`int-to-byte`	`略`
`int-to-char`	`略`
`int-to-short`	`略`

`数据运算指令`

数据运算指令包括算数运算指令和逻辑运算指令。算数运算：加、减、乘、除、模、移位。逻辑运算：与、或、非、异或

数据运算指令有如下四类（数据运算时可能是在寄存器或寄存器对间进行，下面的指令作用讲解时使用寄存器来描述）：

`指令`	`描述`
`binop vAA,vBB,vCC`	`vBB 和 vCC 运算，结果保存到 vAA 中。`
`binop/2addr vA,vB`	`vA 和 vB 运算，结果保存到 vA 中。`
`binop/lit16 vA,vB,#+CCCC`	`vB 和常量 CCCC 运算，结果保存到 vA 中。`
`binop/lit8 vAA,vBB,#+CC`	`vBB 和常量 CC 运算，结果保存到 vAA 中。`

后面 3 类指令比第 1 类指令分别多出了 2addr、lit16、lit8 等指令后缀，四类指令中基础字节码相同的指令的运算操作是类似的，第一类指令中，根据数据类型不同会在基础字节码后面加上数据类型后缀，如 -int 或 -long 分别表示操作的数据类型为整型和长整型。第一类指令可归类如下：

`指令`	`描述`
`add-type`	`vBB + vCC`
`sub-type`	`vBB - vCC`
`mul-type`	`vBB * vCC`
`div-type`	`vBB / vCC`
`rem-type`	`vBB % vCC`
`and-type`	`vBB AND vCC`
`or-type`	`vBB OR vCC`
`xor-type`	`vBB XOR vCC (异或)`
`shl-type`	`vBB << vCC (有符号数)`
`shr-type`	`vBB >> vCC (有符号数)`
`ushr-type`	`vBB >> vCC (无符号数)`

其中基础字节码后面的 -type 可以是 -int,-long,-float,-double。后面 3 类指令与之类似。

每个指令的字节码值占用一个字节，范围是 0x0 ~ 0x0ff 。

在 android 4.0 中，增加了一部分扩展指令，主要是在指令助记符后添加了 jumbo 后缀，增加了寄存器和常量的取值范围。

点击复制链接与好友分享!回本站首页