2021-06-30 ycdxsb papers / security / binary_analyse1 小时读完 (大约 10477 个字) 0次访问

SoK: All You Ever Wanted to Know About x86/x64 Binary Disassembly But Were Afraid to Ask(S&P 2021)

是一篇二进制分析工具的SoK文章，内容十分繁多，但是收获颇丰

二进制分析工具#

开源工具

PSI：为了实现静态插桩实现的工具
uroboros：一个指令反汇编的基础框架
dyninst：二进制分析、检测和修改工具
Objdump：gnu套间中的二进制信息查看工具
Ghidra：NSA开发的逆向套件，对标IDA
mcsema：用于将x86/x64等架构的二进制转换为LLVM 字节码的框架
angr：二进制分析平台，主要应用于符号执行
bap：二进制分析平台，包括静态分析和动态符号执行等
radare2：逆向工程框架，命令行工具，cutter是对应的GUI工具

商业工具

IDA Pro：一个强大的反汇编器和一个多功能的调试器，跨各种平台，有丰富的插件，支持Python
Binary Ninja：与IDA类似，支持Python，有丰富的API
Hopper Disassembler：Mac平台上的二进制分析工具

更多对比和参考

radare2提供了对 Radare2| Binary Ninja Demo | Binary Ninja | Hopper Demo | Hopper| JEB| IDA Pro的详细对比：https://raw.githubusercontent.com/radareorg/radareorg/master/source/comparison.rst
SecToolSet
static-analysis
dynamic-analysis

研究背景#

思考问题：

这些二进制分析工具的区别是什么，都有哪些优点和缺点
哪个工具更适合我们，我们该怎么选择

研究内容：

剖析二进制分析工具的分析技术，论文将分析技术分为两类：算法和启发式（Q1）

算法：算法的结果具有准确性保证，主要利用来自于二进制(符号表等)、机器(指令集)、ABI(调用约定)
启发式：基于总结的常见模式，不具有准确定保证，可能会引入错误

设计了一个分析框架，结合benchmark(3788)，对现有工具进行分析和测试（Q2、Q3）

回答下面的问题：

Q1：二进制分析工具中的算法和启发式有哪些，它们如何相互作用
Q2：与算法相比，启发式的覆盖率和准确性如何，是否有一定取舍
Q3：现有工具会产生哪些分析错误，根本原因是什么

一些综合性发现：

现有工具都在分析的各个阶段加入了启发式算法
启发式通常无法提供正确性保证并导致各种错误，尤其是在遇到复杂构造时，以前的工作可能高估了这些启发式方法的可靠性
一些工具可能共享同一组算法和启发式算法，但是，它们以不同的方式进行组合，从而导致不同的准确度-覆盖率
工具在不同的任务中具有不同的优势。例如，商业工具更擅长恢复指令，但开源工具可以更好地识别交叉引用。

二进制分析技术剖析背景#

功能划分#

在二进制安全分析领域，大家会更加关注表中的信息，主要为指令恢复(反汇编)，控制流图、函数识别以及交叉引用，相关技术如下：

反汇编：将二进制中的指令恢复出来，反汇编需要将数据与代码区域分开，并正确识别由编译器发出或由开发人员引入的指令
符号化：确定交叉引用，准确的确定二进制中作为其他代码或数据对象引用的数值。根据参考位置和目标位置的不同，外部参照有四种类型：代码到代码 (c2c)、代码到数据 (c2d)、数据到代码 (d2c) 和数据到数据（d2d）
函数入口点识别：识别函数的入口点，尤其是main函数
CFG重建：根据直接跳转，间接跳转等重建控制流图

目标二进制#

对于分析的二进制文件，具有如下假设：

由主流编译器和链接器生成的
二进制文件中可能包含手写的汇编代码
没有被混淆
假设无符号，即二进制文件被strip过
只考虑 x86/x64 二进制文件
能够在 Linux 或 Windows 操作系统上运行

目标工具#

对于目标工具的选择，主要基于下面的考虑：

能够进行二进制分析，或者具有独立的分析功能
能够在无用户交互的情况下进行分析
是开源工具，能够深入源码研究具体的策略
有其他工具没有完全覆盖的独特策略
可以运行目标二进制文件来支持定量评估

基于上面的考虑，选择了一开始表中的工具

除此之外，还有JakStab [59]、RetDec [32] 和 BinCat [12]，但由于不满足考虑条件，所以没有列入其中

JakStab：无法运行目标二进制文件
RetDec：使用了初步的反编译策略，大家都用到了
BinCat：需要人工交互

实验设置#

BenchMark

选择表中的软件构建benchmark，这些软件包括不同领域，使用C/C++编写，包含了硬编码和手写汇编，以及复杂的结构

在编译时，使用Linux gcc/llvm 和Windows下的Visual Studio进行编译，生成了不同编译选项(O0,O1,O2,Ox)以及两种架构(x86/x64)下的共3788个二进制文件

Ground Truth

在编译时收集相关信息，包括指令、函数、CFG、跳转表、交叉引用和其他复杂结构

Linux下：扩展了LLVM(clang)，也修改了gcc
Windows下：结合编译器选项、符号/调试信息以及轻量级手动分析获得相关信息，(附件B)

PS：在实验中使用了两个版本的Ghidra和Angr，包括一个不使用异常信息的Ghidra版本，即Ghidra-NE，以及一个不使用线性扫描的版本，即Angr-NS。

二进制分析技术剖析和评测#

白底黑字的表示算法，黑底白字的表示启发式，总的分析结果如下

反汇编技术剖析#

目前的反汇编都基于两种算法：线性扫描和递归下降算法

线性扫描#

线性扫描 [OBJDUMP, PSI, UROBOROS]：扫描连续扫描预先选择的代码范围并识别有效指令，利用现代汇编程序倾向于连续布局代码以减小二进制文件大小的基本原理。一般来说，线性扫描策略可以通过它如何选择扫描范围以及它如何处理扫描过程中的错误来描述。因此，可以根据这两个方面总结

(1) 算法 [OBJDUMP, PSI, UROBOROS]：基于objdump的算法选择扫描范围，具体处理.symtab和.dymsym (包含section 信息) 中的符号指定的代码范围，一般里面都是合法的代码指令

[1] 启发式 [OBJDUMP, PSI, UROBOROS]：由于是线性扫描，因此都是连续的对指令进行扫描

[2] 启发式 [OBJDUMP]：Objdump扫描到无效的指令时，会跳过一个字节，重新开始扫描

[3] 启发式 [PSI]：除了无效指令,PSI将跳转到非指令数据也认为错误，PSI会反向追溯到第一个跳转指令，然后将中间的所有指令进行padding，最后重新进行分析

[4] 启发式 [UROBOROS]：uroboros将error处附近的指令都直接排除掉

SUMMARY
总的来说，线性扫描积极地扫描所有可能的代码，从而最大限度地恢复指令。但是，由于代码中的数据，它可能会遇到错误。为了解决错误，现有工具依赖启发式进行更正，但不够全面，实用性有限

递归下降#

递归下降 [DYNINST, GHIDRA, ANGR, BAP, RADARE2]：从给定的代码地址开始，根据控制流进行反汇编，主要策略包括：1. 如何选择起始地址；2.如何处理控制流；3.如何处理递归下降后剩余的间隙

(2) 算法 [DYNINST, GHIDRA, ANGR, BAP, RADARE2]：由于是递归下降，因此都根据控制流进行反汇编

(3) 算法 [DYNINST, GHIDRA, ANGR, BAP, RADARE2]：都选择从代码入口点，main和符号表中获取代码块信息进行分析

对于直接控制流的处理是比较简单的，但是对于间接控制流，以及没有ret的函数，就比较困难。

由于间接控制流的静态难以判定性，递归下降往往会留下分析缺口，评估显示，当只使用递归下降时，会错过49.35%的代码，因此需要大量的启发式方法增加代码的覆盖率。

[5] 启发式 [DYNINST, GHIDRA, ANGR, BAP, RADARE2]：基于常见的函数序言/结尾或预训练的决策树模型在代码间隙中搜索函数入口点，评估显示该启发式能增加31.55%的代码覆盖率

[6] 启发式 [Angr]：Angr还会对剩下的代码间隙通过线性扫描增加覆盖率，如果在扫描中出现错误，angr会跳过当前的基本块并移动到下一个字节继续扫描。这种线性扫描将Angr的代码覆盖率提高了约 8.20%。但是，它会将数据错误地识别为代码

[7] 启发式 [Ghidra]：Ghidra增加了交叉引用的信息帮助分析，提高了4.33%的覆盖率

SUMMARY
严格的递归下降确保了正确性，但覆盖范围不足。为了扩大代码覆盖范围，现有工具结合了许多破坏正确性保证的激进启发式方法。反汇编技术评测

反汇编技术评测#

评估分析工具对合法的指令恢复情况。排除了所有填充字节和链接器插入的函数（例如，_start），同时为了公平，还插入了一个 main 符号，以便所有递归分析工具都能找到它

pre表示准确率，rec表示召回率；蓝色表示最好，红色表示最差

综合性结论#

覆盖率结论：

线性扫描工具，如Objdump 和 Angr，具有很高的覆盖率（99.95%+ 召回率）。递归下降工具的覆盖率较低，有些只能恢复不到 80% 的指令（Bap 和 Radare2）。而且递归工具的性能会随着优化级别和架构而变化。几乎所有的递归工具（Angr-NS、Ghidra-NE、Dyninst、Bap、Radare2）的覆盖率都会随着优化级别的增加而降低。这是因为优化级别和架构会影响递归工具中的函数匹配，进一步导致指令丢失。这样的结果很好地符合了前面的分析

准确性结论：

无论编译器、架构和优化级别如何，递归分析工具都具有很高的准确率（超过 99.5%）。线性工具反而不太准确，在在最坏的情况下，Objdump 的准确率下降到 85% 左右。这种差异主要是因为递归工具大多遵循控制流，确保了正确性。但是，线性工具会扫描每个字节，并且在代码中出现数据时经常会出错。例如，Objdump在分析 Openssl 时产生最差的结果（精度：85.35%），因为 Openssl 在汇编文件中有大量的data，而 Objdump会错误地将数据识别为代码

启发式的使用#

在二进制文件上，线性扫描会产生超过 10K 的错误。 PSI 启发式方法可以捕获线性扫描中 32% 的错误

相比之下，递归下降的启发式主要为了增加覆盖率。但是，如果没有启发式方法，这些工具的覆盖率会非常低。 Angr、Ghidra、Dyninst的召回率都在 51% 左右，而 Radare2 恢复的代码不超过 10%。但是， Ghidra 仍然对 Linux 二进制文件产生高召回率。这是因为 Ghidra 使用了交叉引用的信息来帮助分析

错误引入#

对于线性工具（例如 Objdump），所有误报都是由将填充字节或代码中的数据错误识别为代码引起的。对于递归工具，最常见的错误原因包括（1）将非法地址视为函数入口； (2) no-return函数分析有误； (3)跳转表解析不正确。除此之外，由于代码可能存在数据，angr 的线性扫描会导致 21% 的错误； Bap和 Ghidra 有一些实现缺陷，也导致了一些错误。

符号化技术剖析#

符号化用于标识二进制中的数值，这些数值实际上是对代码或数据对象的引用

数据提取#

[8] 启发式 [ANGR, GHIDRA, UROBOROS, MCSEMA]：搜索指令，识别常量操作数和可能的指针，并扫描非代码区块查找数据单元。通常一个数据单元由位于对齐地址的连续n个字节组成，但是，不同的工具对 n、对齐和非代码区域有不同的选择

[9] 启发式[ANGR, GHIDRA, UROBOROS, MCSEMA]：所有的分析工具都假设数据单元大小应该和机器大小一致，x86 4字节 / x64 8字节，但这并不是完全正确的，比如64位下的跳转表可能是4字节的

[10] 启发式 [GHIDRA, UROBOROS, MCSEMA]：uroboros 和 mcsema 使用机器字节对齐

[11] 启发式 [ANGR, GHIDRA]：除非数据单元为另一个数据的引用，否则Ghidra假定4字节对齐 / Angr没有对齐的要求，因为它观察到了指针存在不对齐的情况

评估表明，对齐的选择是一种覆盖精度的权衡：大约 600 个指针保存在未对齐的地址，而无对齐的假设导致了angr近 60% 的误报。

除了数据段之外，Ghidra 和 angr 还从非反汇编代码区域中搜索数据单元。

数据单元类型推断#

Angr会识别来自数据单元的内存负载。如果加载的值流向浮点指令，angr会将数据单元标记为浮点数

Ghidra使用了比较激进的策略：如果给定一个常量操作数“指向”数据单元，且数据单元后跟一系列 ASCII/Unicode 字节和空字节，则认为该数据单元是字符串的开头，同时，满足下面条件的数据单元会被认为是指针

值大于4096
是指令地址或者不是代码段地址
[12] 启发式 [Ghidra]：如果这个值是已知函数中的地址，那么必须是函数的入口点

因此Ghidra的类型推断没有准确性保证

C2C，C2D交叉引用#

对于每个常量操作数，angr、uroboros 和 mcsema都试图将其符号化为代码指针，并检查操作数是否引用合法指令

Ghidra的额外策略：

操作数不能是0-4095,0xffff,0xff00, 0xffffff, 0xff0000, 0xff0000, 0xffffffff, 0xffffff00, 0xffff0000, 0xff00000中的值
[12] 启发式 [Ghidra]：被引用的指令必须是函数的入口点。

在评估中发现数千个指针指向函数中间（例如，异常处理中用于 try-catch 的指针），表明启发式 12 是不合理的。

对于不可能是代码指针的常量操作数，工具会尝试将其符号化为数据指针，检查操作数是否指向合法的数据位置

[13] 启发式 [Ghidra, Angr]：Angr和Ghidra在检查过程中，将数据区域的范围增加了1024，因为有一些指针会使用偏移来解引用，这个方法确实有效，但也引入了一些错误

地址表#

除了常量操作数，一些工具还通过扫扫描非代码区域来定位地址表：是连续的，由指针组成的数据单元集合

[14] 启发式 [Ghidra]：Ghidra 将 2 视为地址表的最小大小虽然选这有助于更准确地识别分组指针（如函数表），但它会遗漏许多单独的指针，从而导致误报。

(4) 算法 [Angr]：angr去除代表浮点数的表条目

[15] 启发式 [Mcsema, Ghidra]

Mcsema排除可能和字符串重叠的表条目，如果一个条目可能是地址也可能是字符串的话，mcsema更倾向于字符串，而angr正相反
Ghidra排除指向恢复函数中间的表条目，也排除与字符串重叠或切入其他指针的表条目。最后，当相邻条目的距离大于 0xffffff 时，Ghidra会拆分地址表

[16] 启发式：angr在暴力搜索数据区域时使用特殊策略。给定一个位置，angr会依次检查里面的数据是指针、ASCII/Unicode 字符串还是算术序列。如果任何类型匹配，ANGR 跳过输入的字节，然后继续搜索，这个策略引入了大量的误报

SUMMARY
符号化过程缺乏算法支撑，暂时没有好的解决方案，各个工具都是引入了自己的启发式方法，在覆盖率和准确率上做了一个平衡