__cdecl、__stdcall、__fastcall 与 __pascal 浅析

call 指令与 retn 指令

首先我们得了解 CALL 和 RETN 指令的作用，才能更好地理解调用规则，这也是先决条件。

实际上，CALL 指令就是先将下一条指令的 EIP 压栈，然后 JMP 跳转到对应的函数的首地址，当执行完函数体后，通过 RETN 指令从堆栈中弹出 EIP，程序就可以继续执行 CALL 的下一条指令。

__cdecl 与 __stdcall 调用规则

C/C++ 中不同的函数调用规则会生成不同的机器代码，产生不同的微观效果，接下来让我们一起来浅析四种调用规则的原理和它们各自的异同。首先我们通过一段 C 语言代码来引导我们的浅析过程。

这里我们编写了三个函数，它们的功能都是返回两个参数的相加结果，只是每个函数都有不一样的调用规则。

我们使用 printf 函数主要是为了在 OllyDBG 中能够快速下断点，以确定后边调用三个函数的位置，便于分析。在这里我给每个函数都用了内联的 NOP 指令来分隔开，图中也用红框标明，这样可以便于区分每个函数的调用过程。通过一些简单的步骤，我们用 OllyDBG 查看了编译后代码的“真面目”。代码中有 4 个 CALL，第一个是 printf，我们不关心这个。后面三个分别是具有 __cdecl，__stdcall，__fastcall 调用规则的函数 CALL（这里我已经做了注释）。

在这里为了循序渐进，我们先介绍 __cdecl 与 __stdcall 调用规则，后面我们会接着浅析 __fastcall 调用规则。

首先，我们得明白一个教条（其实也是自己概括的），那就是 —— 调用规则的区别产生其实就是由于调用者与被调用者之间的“责任分配”问题。

代码段中的第 2 个就是 __cdecl 调用规则的 CALL。__cdecl 是 C/C++、MFC 默认的调用规则。我们可以看到，在执行 CALL 之前，程序会将参数按照从右到左的方式压栈，这里是两个整型参数，每压栈一个 ESP 都会减 4，这样下来 ESP 会减少 8，然后 CALL 这个函数。常规地，我们可以看到，这个 CALL 里面参数的处理和通常情况下一致，先将 EBP 压栈保存现场，然后使 EBP 重合于 ESP，再通过 EBP + 偏移地址来取得两个参数值，赋值再累加到 EAX 中，EAX 将作为返回值给调用者使用，还原 EBP 现场，调用 RETN 返回到调用者。最后，使得 ESP 加 8。哎！这刚好和开头对称嘛！为了堆栈平衡，ESP 最终又被拉回到了 CALL 之前的位置。我们暂且可以小结一下，实际上在 __cdecl 调用规则中，需要调用者来负责清栈操作（由调用者将 ESP 拉高以维持堆栈平衡）。

代码段中的第 3 个是 __stdcall 调用规则的 CALL。__stdcall 调用规则在 Win32 API 函数中用的比较多。跟 __cdecl 一样，在执行 CALL 之前，程序会先将参数从右到左依次压栈，我们跟进 CALL 里面，可以看到以下的反汇编代码，我们很容易发现，除了最后一条指令，其他的指令与 __cdecl 调用规则是基本一样的。最后一条指令是“RETN 0x8”，这是什么意思呢？实际上呢，就相当于先执行“ADD ESP, 0x8”再执行“POP EIP” 。换言之，就是将 ESP 加 8，然后正常 RETN 返回到调用者。

我们不难发现，__stdcall 调用规则使得被调用者来执行清栈操作（由被调用者函数自身将 ESP 拉高以维持堆栈平衡），这也是 __stdcall 与 __cdecl 调用规则的最根本的区别。

__cdecl 偏向于把责任分配给调用者，动脑筋想想，我们的程序在 CALL __cdecl 调用规则的函数之前，把参数从右到左依次压栈，CALL 返回后，剩下的清栈操作都交给调用者处理，调用者负责拉高 ESP。再回来想想 __stdcall，在 CALL 中将调用者的 EBP 压栈以保存现场，然后使 EBP 对齐于 ESP，然后通过 EBP + 偏移地址取得参数，并且经过加法得到 EAX 返回值，从堆栈弹出 EBP 恢复现场，但是最后不一样的地方，程序将执行 “RETN 0x8” 将 ESP 拉回之前的 ESP + 8 的位置，换言之，被调用者将负责清栈操作。这就是之前所谓的“责任分配”的区别。

__fastcall 调用规则

不难揣测 fastcall 的英文意思貌似是“快速调用”，这一点与它的调用规则息息相关，它的快速是有原因的，让我们继续来看看之前那张反汇编的截图，代码段中的第 4 个就是 __fastcall 调用规则的 CALL。进 CALL 前，出乎意料地，程序将两个参数从右到左分别传给了 EDX，ECX 寄存器，讲到这里，学过计算机系统相关知识的人很容易理解为什么这叫“快速调用”了，寄存器比内存快很多很多倍，可以认为传参给寄存器，要比在内存中更快得多，效率更高。

由于参数是直接传递给了寄存器，堆栈并未发生改变，在 CALL 中，EBP 压栈，EBP 和 ESP 对齐之后，ESP 减 8，这个操作有点像对局部变量分配堆栈空间（这里有我之前一篇博客，对局部变量的存放规则做了浅析），然后程序将 EDX，ECX 分别赋值给 EBP – 8 与 EBP – 4 这两个地址，这个过程相当于用寄存器给局部变量赋值，接下来运算结果将保存在 EAX 中，ESP 归位，EBP 恢复现场，最后 RETN 返回调用者领空。

本例只传送了两个整数型参数。其实呢，对于 __fastcall 调用规则，左边开始的两个不大于4字节（int）的参数分别放在ECX和EDX寄存器，其余的参数仍旧自右向左压栈传送。并且，__fastcall 调用规则使得被调用者负责清理栈的操作（由被调用者函数自身将 ESP 拉高以维持堆栈平衡），这一点和 __stdcall 一样。

__pascal 调用规则

__pascal 是用于 Pascal / Delphi 编程语言的调用规则，C/C++ 中也可以使用这种调用规则。简单地说，__pascal 调用规则与 __stdcall 不同的地方就是压栈顺序恰恰相反，前面讲到的三种调用规则的压栈顺序都是从右到左依次入栈，__pascal 则是从左到右依次入栈。并且，被调用者（函数自身）将自行完成清栈操作，这和 __stdcall，__fastcall 一样。由于比较简单，我就没有做出示例。

小结

做个表格来小结一下，很直观就能看出这四种调用规则的异同：

调用规则	入栈顺序	清栈责任
__cdecl	从右到左	调用者
__stdcall	从右到左	被调用者
__fastcall	从右到左（先 EDX、ECX，再到堆栈）	被调用者
__pascal	从左到右	被调用者

来源：oschina

链接：https://my.oschina.net/u/4261330/blog/3830922

标签

c++

edx

ollydbg