编译要做什么

在预处理阶段生成了一个“干净”的源码文件，接下来的任务是把这个源码转换成汇编代码或者机器码。这一阶段主要包括：词法分析 → 语法分析 → 语义分析 → 中间表示及优化 → 汇编生成。

词法分析

目标：把字符流（源码）切分成有意义的最小单元：token

输入：预处理后的源码

输出：token 流，每个 token 有类型和值，例如：

编译器通过正则式或 DFA（有限状态机）匹配字符，跳过空格、注释。生成 token 流供下一阶段使用。

int x = 42;

// 上述代码会被解析为如下 token

[int][identifier:x][=][integer:42][;]

目标：把 token 按照语言语法结构组织成 AST（Abstract Syntax Tree, 抽象语法树）。

输入：token 流

输出：AST，反映程序结构（声明、表达式、控制流）

编译器基于上下文无关文法（CFG）对 token 流做递归下降或 LR/LL 解析。

AST 的节点表示语法元素，例如：

函数定义节点

变量声明节点

表达式节点

int x = 42 + 3;

// 上述代码的 AST 可能表示为

Assignment
 ├─ Variable: x
 └─ BinaryOp: +
     ├─ Literal: 42
     └─ Literal: 3

目标：检查程序是否符合语言规则（类型、作用域、模板等）。任务包括：

目标：生成与具体硬件无关的中间代码，并进行优化。

输入：AST

输出：中间表示（IR，Intermediate Representation），通常是三地址码或 SSA（Static Single Assignment）形式。

优化策略：

现代编译器（Clang/LLVM、GCC）在 IR 阶段能做很多高级优化，直接影响性能。

int a = 2 + 3;
int b = 2 + 3;

// 上述代码可优化为如下形式

int tmp = 5;
int a = tmp;
int b = tmp;

目标：把 IR 转成特定 CPU 的汇编语言（x86, ARM 等）。

输入：优化后的 IR

输出：汇编文件 .s 或 .S

过程：

int main() { return 42; }

// 可生成如下 x86汇编代码

_main:
    mov eax, 42
    ret