深入 WebAssembly 二进制格式：小巧、快速的奥秘

2025/3/12 07:59:32 395 0 0 0

你好！今天咱们来聊聊 WebAssembly（简称 Wasm）的二进制格式。你可能听说过 Wasm 很快、很小巧，但你知道这背后的原因吗？如果你对底层技术感兴趣，想一探究竟，那就跟我来吧！

什么是 WebAssembly？

在深入二进制格式之前，咱们先简单回顾一下 WebAssembly 是什么。Wasm 是一种可移植的、体积小、加载快的二进制格式，可以在现代 Web 浏览器中运行。它被设计为一种编译目标，可以从 C、C++、Rust 等高级语言编译而来，让你能在 Web 上运行高性能的代码。

为什么需要二进制格式？

你可能会问，JavaScript 不是挺好的吗，为什么还需要 Wasm？JavaScript 是一种解释型语言，这意味着它需要在运行时进行解析和编译。这会带来一定的性能开销。而 Wasm 是一种二进制格式，这意味着它已经被编译成了一种更接近机器码的形式，可以更快地被解析和执行。

Wasm 二进制格式概览

Wasm 的二进制格式是经过精心设计的，以实现体积小巧和快速加载的目标。它主要由以下几个部分组成：

模块（Module）: Wasm 的基本单元是模块。一个模块包含了一组定义，例如类型、函数、内存、表和全局变量。
节（Section）: 模块由一系列节组成。每个节都有一个特定的 ID 和用途。例如，类型节包含模块中使用的所有函数类型的定义，函数节包含函数的代码。
类型（Type）: 类型节定义了模块中使用的函数签名。
函数（Function）: 函数节包含了函数的代码，这些代码由一系列 Wasm 指令组成。
指令（Instruction）: Wasm 指令是 Wasm 虚拟机的基本操作。它们类似于汇编指令，但更加抽象。
内存（Memory）: Wasm 模块可以定义一个线性内存，用于存储数据。
表（Table）: 表是一种用于存储函数引用的数组，可以用于实现间接函数调用。
全局变量（Global）: 全局变量用于存储模块中的全局状态。
导出(Export): 导出节声明了哪些函数、内存、表、全局变量可以被外部（如JavaScript）访问。
导入(Import): 导入节声明了当前模块需要从外部（如JavaScript）导入哪些函数、内存、表、全局变量。
数据段(Data)：数据段用于初始化内存。
元素段(Element)：元素段用于初始化表。
Start Section（起始节）: 起始节指定了模块加载后应该自动执行的函数。

深入 Wasm 二进制格式

下面，咱们来更深入地了解一下 Wasm 二进制格式的一些关键特性。

1. LEB128 编码

Wasm 使用 LEB128（Little Endian Base 128）编码来表示整数。LEB128 是一种可变长度的编码方式，可以根据整数的大小使用不同数量的字节来表示。对于较小的整数，LEB128 编码可以节省空间。

例如，数字 624485 可以被编码为 0xE5 0x8E 0x26。

2. 结构化控制流

Wasm 使用结构化控制流，这意味着它不支持任意的跳转指令（如 goto）。相反，它使用结构化的控制流指令，如 block、loop、if、else 和 br（break）。这使得 Wasm 代码更容易验证和优化。

3. 线性内存

Wasm 使用线性内存模型。这意味着 Wasm 代码可以访问一个连续的内存区域，就像 C 或 C++ 中的数组一样。线性内存的大小可以在模块中定义，也可以在运行时动态调整。

4. 基于栈的虚拟机

Wasm 虚拟机是基于栈的。这意味着 Wasm 指令从栈中获取操作数，并将结果推回到栈中。这种设计使得 Wasm 虚拟机更容易实现，并且可以生成更紧凑的代码。

Wasm 二进制格式示例

为了更好地理解 Wasm 二进制格式，咱们来看一个简单的例子。假设我们有以下 C 代码：

int add(int a, int b) {
  return a + b;
}

我们可以使用 Emscripten 将其编译为 Wasm：

emcc add.c -s WASM=1 -o add.wasm

生成的 add.wasm 文件就是一个 Wasm 二进制文件。我们可以使用 wasm-objdump 工具来查看其内容：

wasm-objdump -x add.wasm

输出结果可能类似于：

add.wasm:	file format wasm 0x1

Section Details:

Type[1]:
 - type[0] (i32, i32) -> i32
Function[1]:
 - func[0] sig=0 <add>
Code[1]:
 - func[0] size=7 <add>
  00000b: 20 00                         | local.get 0
  00000d: 20 01                         | local.get 1
  00000f: 6a                            | i32.add
  000010: 0b                            | end

这个输出显示了 Wasm 模块的结构。我们可以看到：

Type 节定义了一个函数类型，它接受两个 i32 类型的参数并返回一个 i32 类型的值。
Function 节声明了一个名为 add 的函数，它使用了上面定义的函数类型。
Code 节包含了 add 函数的代码。代码由一系列 Wasm 指令组成：
- local.get 0：获取第一个局部变量（参数 a）的值，并将其推入栈中。
- local.get 1：获取第二个局部变量（参数 b）的值，并将其推入栈中。
- i32.add：从栈中弹出两个值，将它们相加，并将结果推回栈中。
- end：函数结束。

如何查看和分析 Wasm 二进制文件？

除了 wasm-objdump，还有一些其他工具可以帮助你查看和分析 Wasm 二进制文件：

wabt: WebAssembly Binary Toolkit，包含了一组用于处理 Wasm 文件的工具，例如 wasm2wat（将 Wasm 转换为可读的文本格式）、wat2wasm（将文本格式转换为 Wasm）、wasm-validate（验证 Wasm 文件的有效性）等。
Binaryen: Binaryen 是一个编译器和工具链基础设施库，用于 WebAssembly，它提供了一组用于操作和优化 Wasm 模块的 API，以及一些命令行工具，例如 wasm-opt（优化 Wasm 模块）、wasm-as（将 Wasm 汇编文本转换为二进制格式）等。
Chrome DevTools: Chrome 浏览器的开发者工具也提供了对 Wasm 的支持。你可以在 Sources 面板中查看 Wasm 模块的源代码，并在调试器中设置断点和单步执行。
Firefox DevTools：与Chrome类似。

Wasm 二进制格式的优势

通过上面的介绍，我们可以总结出 Wasm 二进制格式的几个主要优势：

体积小巧：Wasm 二进制文件通常比 JavaScript 文件小得多。这是因为它是一种二进制格式，不需要包含空格、注释等冗余信息。此外，Wasm 使用 LEB128 编码和结构化控制流等技术，可以进一步减小文件大小。
加载快速：Wasm 二进制文件可以更快地被解析和编译。这是因为它已经被编译成了一种更接近机器码的形式，不需要像 JavaScript 那样进行复杂的解析和编译过程。
执行高效：Wasm 代码可以接近原生代码的执行速度。这是因为它是一种低级语言，可以直接映射到机器指令。此外，Wasm 虚拟机是基于栈的，可以生成更紧凑的代码。
安全性: Wasm 运行在一个沙箱环境中，与 JavaScript 共享相同的安全策略。这意味着 Wasm 代码不能直接访问宿主环境的资源，除非通过显式定义的 API。
可移植性: Wasm 被设计为一种可移植的格式，可以在不同的平台和架构上运行。

总结

WebAssembly 的二进制格式是实现其小巧、快速和高效的关键。通过使用 LEB128 编码、结构化控制流、线性内存和基于栈的虚拟机等技术，Wasm 能够在 Web 上提供接近原生代码的性能。如果你对底层技术感兴趣，深入了解 Wasm 二进制格式将有助于你更好地理解 WebAssembly 的工作原理。

希望这篇文章对你有所帮助！如果你还有其他问题，欢迎随时提问。

技术宅小陈 WebAssembly 二进制格式性能优化