AST 抽象语法树

提起 AST 抽象语法树，大家可能并不感冒。但是提到它的使用场景，也许会让你大吃一惊。原来它一直在你左右与你相伴，而你却不知。

一、什么是抽象语法树

在计算机科学中，抽象语法树（abstract syntax tree 或者缩写为 AST），或者语法树（syntax tree），是源代码的抽象语法结构的树状表现形式，这里特指编程语言的源代码。树上的每个节点都表示源代码中的一种结构。

之所以说语法是「抽象」的，是因为这里的语法并不会表示出真实语法中出现的每个细节。

二、使用场景

JS 反编译，语法解析
Babel 编译 ES6 语法
代码高亮
关键字匹配
作用域判断
代码压缩

三、AST Explorer

我们来看一个 ES6 的解释器，声明如下的代码：

1 let tips = [  2   "Jartto's AST Demo"  3 ];

看看是如何解析的, JSON 格式如下：

 1 {   2   "type": "Program",   3   "start": 0,   4   "end": 38,   5   "body": [   6     {   7       "type": "VariableDeclaration",   8       "start": 0,   9       "end": 37,  10       "declarations": [  11         {  12           "type": "VariableDeclarator",  13           "start": 4,  14           "end": 36,  15           "id": {  16             "type": "Identifier",  17             "start": 4,  18             "end": 8,  19             "name": "tips"  20           },  21           "init": {  22             "type": "ArrayExpression",  23             "start": 11,  24             "end": 36,  25             "elements": [  26               {  27                 "type": "Literal",  28                 "start": 15,  29                 "end": 34,  30                 "value": "Jartto's AST Demo",  31                 "raw": "\"Jartto's AST Demo\""  32               }  33             ]  34           }  35         }  36       ],  37       "kind": "let"  38     }  39   ],  40   "sourceType": "module"  41 }

而它的语法树大概如此：

每个结构都看的清清楚楚，这时候我们会发现，这和 Dom 树真的差不了多少。再来看一个例子：

1 (1+2)*3

AST Tree:

我们删掉括号，看看规则是如何变化的？JSON 格式会一目了然：

 1 {   2   "type": "Program",   3   "start": 0,   4   "end": 6,   5   "body": [   6     {   7       "type": "ExpressionStatement",   8       "start": 0,   9       "end": 5,  10       "expression": {  11         "type": "BinaryExpression",  12         "start": 0,  13         "end": 5,  14         "left": {  15           "type": "Literal",  16           "start": 0,  17           "end": 1,  18           "value": 1,  19           "raw": "1"  20         },  21         "operator": "+",  22         "right": {  23           "type": "BinaryExpression",  24           "start": 2,  25           "end": 5,  26           "left": {  27             "type": "Literal",  28             "start": 2,  29             "end": 3,  30             "value": 2,  31             "raw": "2"  32           },  33           "operator": "*",  34           "right": {  35             "type": "Literal",  36             "start": 4,  37             "end": 5,  38             "value": 3,  39             "raw": "3"  40           }  41         }  42       }  43     }  44   ],  45   "sourceType": "module"  46 }

可以看出来，（1+2)*3 和 1+2*3，语法树是有差别的：
1.在确定类型为 ExpressionStatement 后，它会按照代码执行的先后顺序，将表达式 BinaryExpression 分为 Left，operator 和 right 三块；
2.每块标明了类型，起止位置，值等信息；
3.操作符类型；

再来看看我们最常用的箭头函数：

1 const mytest = (a,b) => {  2   return a+b;  3 }

JSON 格式如下：

 1 {   2   "type": "Program",   3   "start": 0,   4   "end": 42,   5   "body": [   6     {   7       "type": "VariableDeclaration",   8       "start": 0,   9       "end": 41,  10       "declarations": [  11         {  12           "type": "VariableDeclarator",  13           "start": 6,  14           "end": 41,  15           "id": {  16             "type": "Identifier",  17             "start": 6,  18             "end": 12,  19             "name": "mytest"  20           },  21           "init": {  22             "type": "ArrowFunctionExpression",  23             "start": 15,  24             "end": 41,  25             "id": null,  26             "expression": false,  27             "generator": false,  28             "params": [  29               {  30                 "type": "Identifier",  31                 "start": 16,  32                 "end": 17,  33                 "name": "a"  34               },  35               {  36                 "type": "Identifier",  37                 "start": 18,  38                 "end": 19,  39                 "name": "b"  40               }  41             ],  42             "body": {  43               "type": "BlockStatement",  44               "start": 24,  45               "end": 41,  46               "body": [  47                 {  48                   "type": "ReturnStatement",  49                   "start": 28,  50                   "end": 39,  51                   "argument": {  52                     "type": "BinaryExpression",  53                     "start": 35,  54                     "end": 38,  55                     "left": {  56                       "type": "Identifier",  57                       "start": 35,  58                       "end": 36,  59                       "name": "a"  60                     },  61                     "operator": "+",  62                     "right": {  63                       "type": "Identifier",  64                       "start": 37,  65                       "end": 38,  66                       "name": "b"  67                     }  68                   }  69                 }  70               ]  71             }  72           }  73         }  74       ],  75       "kind": "const"  76     }  77   ],  78   "sourceType": "module"  79 }

AST Tree 结构如下图：

我们注意到了，增加了几个新的字眼：

ArrowFunctionExpression
BlockStatement
ReturnStatement

到这里，其实我们已经慢慢明白了：

抽象语法树其实就是将一类标签转化成通用标识符，从而结构出的一个类似于树形结构的语法树。

四、深入原理

可视化的工具可以让我们迅速有感官认识，那么具体内部是如何实现的呢？

继续使用上文的例子：

1 Function getAST(){}

JSON 也很简单：

 1 {   2   "type": "Program",   3   "start": 0,   4   "end": 19,   5   "body": [   6     {   7       "type": "FunctionDeclaration",   8       "start": 0,   9       "end": 19,  10       "id": {  11         "type": "Identifier",  12         "start": 9,  13         "end": 15,  14         "name": "getAST"  15       },  16       "expression": false,  17       "generator": false,  18       "params": [],  19       "body": {  20         "type": "BlockStatement",  21         "start": 17,  22         "end": 19,  23         "body": []  24       }  25     }  26   ],  27   "sourceType": "module"  28 }

怀着好奇的心态，我们来模拟一下用代码实现：

 1 const esprima = require('esprima'); //解析js的语法的包   2 const estraverse = require('estraverse'); //遍历树的包   3 const escodegen = require('escodegen'); //生成新的树的包   4 let code = `function getAST(){}`;   5 //解析js的语法   6 let tree = esprima.parseScript(code);   7 //遍历树   8 estraverse.traverse(tree, {   9   enter(node) {  10     console.log('enter: ' + node.type);  11   },  12   leave(node) {  13     console.log('leave: ' + node.type);  14   }  15 });  16 //生成新的树  17 let r = escodegen.generate(tree);  18 console.log(r);

运行后，输出：

 1 enter: Program   2 enter: FunctionDeclaration   3 enter: Identifier   4 leave: Identifier   5 enter: BlockStatement   6 leave: BlockStatement   7 leave: FunctionDeclaration   8 leave: Program   9 function getAST() {  10 }

我们看到了遍历语法树的过程，这里应该是深度优先遍历。

稍作修改，我们来改变函数的名字 getAST => Jartto：

 1 const esprima = require('esprima'); //解析js的语法的包   2 const estraverse = require('estraverse'); //遍历树的包   3 const escodegen = require('escodegen'); //生成新的树的包   4 let code = `function getAST(){}`;   5 //解析js的语法   6 let tree = esprima.parseScript(code);   7 //遍历树   8 estraverse.traverse(tree, {   9   enter(node) {  10     console.log('enter: ' + node.type);  11     if (node.type === 'Identifier') {  12       node.name = 'Jartto';  13     }  14   }  15 });  16 //生成新的树  17 let r = escodegen.generate(tree);  18 console.log(r);

运行后，输出：

1 enter: Program  2 enter: FunctionDeclaration  3 enter: Identifier  4 enter: BlockStatement  5 function Jartto() {  6 }

可以看到，在我们的干预下，输出的结果发生了变化，方法名编译后方法名变成了 Jartto。

这就是抽象语法树的强大之处，本质上通过编译，我们可以去改变任何输出结果。

补充一点：关于 node 类型，全集大致如下：

(parameter) node: Identifier | SimpleLiteral | RegExpLiteral | Program | FunctionDeclaration | FunctionExpression | ArrowFunctionExpression | SwitchCase | CatchClause | VariableDeclarator | ExpressionStatement | BlockStatement | EmptyStatement | DebuggerStatement | WithStatement | ReturnStatement | LabeledStatement | BreakStatement | ContinueStatement | IfStatement | SwitchStatement | ThrowStatement | TryStatement | WhileStatement | DoWhileStatement | ForStatement | ForInStatement | ForOfStatement | VariableDeclaration | ClassDeclaration | ThisExpression | ArrayExpression | ObjectExpression | YieldExpression | UnaryExpression | UpdateExpression | BinaryExpression | AssignmentExpression | LogicalExpression | MemberExpression | ConditionalExpression | SimpleCallExpression | NewExpression | SequenceExpression | TemplateLiteral | TaggedTemplateExpression | ClassExpression | MetaProperty | AwaitExpression | Property | AssignmentProperty | Super | TemplateElement | SpreadElement | ObjectPattern | ArrayPattern | RestElement | AssignmentPattern | ClassBody | MethodDefinition | ImportDeclaration | ExportNamedDeclaration | ExportDefaultDeclaration | ExportAllDeclaration | ImportSpecifier | ImportDefaultSpecifier | ImportNamespaceSpecifier | ExportSpecifier

说到这里，聪明的你，可能想到了 Babel，想到了 js 混淆，想到了更多背后的东西。接下来，我们要介绍介绍 Babel 是如何将 ES6 转成 ES5 的。

五、关于 `Babel`

由于 ES6 的兼容问题，很多情况下，我们都在使用 Babel 插件来进行编译，那么有没有想过 Babel 是如何工作的呢？先来看看：

1 let sum = (a, b)=>{return a+b};

AST 大概如此：

JSON 格式可能会看的清楚些：

 1 {   2   "type": "Program",   3   "start": 0,   4   "end": 31,   5   "body": [   6     {   7       "type": "VariableDeclaration",   8       "start": 0,   9       "end": 31,  10       "declarations": [  11         {  12           "type": "VariableDeclarator",  13           "start": 4,  14           "end": 30,  15           "id": {  16             "type": "Identifier",  17             "start": 4,  18             "end": 7,  19             "name": "sum"  20           },  21           "init": {  22             "type": "ArrowFunctionExpression",  23             "start": 10,  24             "end": 30,  25             "id": null,  26             "expression": false,  27             "generator": false,  28             "params": [  29               {  30                 "type": "Identifier",  31                 "start": 11,  32                 "end": 12,  33                 "name": "a"  34               },  35               {  36                 "type": "Identifier",  37                 "start": 14,  38                 "end": 15,  39                 "name": "b"  40               }  41             ],  42             "body": {  43               "type": "BlockStatement",  44               "start": 18,  45               "end": 30,  46               "body": [  47                 {  48                   "type": "ReturnStatement",  49                   "start": 19,  50                   "end": 29,  51                   "argument": {  52                     "type": "BinaryExpression",  53                     "start": 26,  54                     "end": 29,  55                     "left": {  56                       "type": "Identifier",  57                       "start": 26,  58                       "end": 27,  59                       "name": "a"  60                     },  61                     "operator": "+",  62                     "right": {  63                       "type": "Identifier",  64                       "start": 28,  65                       "end": 29,  66                       "name": "b"  67                     }  68                   }  69                 }  70               ]  71             }  72           }  73         }  74       ],  75       "kind": "let"  76     }  77   ],  78   "sourceType": "module"  79 }

结构大概如此，那我们再用代码模拟一下：

 1 const babel = require('babel-core'); //babel核心解析库   2 const t = require('babel-types'); //babel类型转化库   3 let code = `let sum = (a, b)=>{return a+b}`;   4 let ArrowPlugins = {   5 //访问者模式   6 visitor: {   7   //捕获匹配的API   8     ArrowFunctionExpression(path) {   9       let { node } = path;  10       let body = node.body;  11       let params = node.params;  12       let r = t.functionExpression(null, params, body, false, false);  13       path.replaceWith(r);  14     }  15   }  16 }  17 let d = babel.transform(code, {  18   plugins: [  19     ArrowPlugins  20   ]  21 })  22 console.log(d.code);

记得安装 babel-core，babel-types 这俩插件，之后运行 babel.js，我们看到了这样的输出：

1 let sum = function (a, b) {  2   return a + b;  3 };

这里，我们完美的将箭头函数转换成了标准函数。

那么问题又来了，如果是简写呢，像这样，还能正常编译吗？

1 let sum = (a, b)=>a+b

Body 部分的结构发生了变化，所以，我们的 babel.js 运行就会报错了。

TypeError: unknown: Property body of FunctionExpression expected node to be of a type ["BlockStatement"] but instead got "BinaryExpression"

意思很明了，我们的 body 类型变成 BinaryExpression 不再是 BlockStatement，所以需要做一些修改：

 1 const babel = require('babel-core'); //babel核心解析库   2 const t = require('babel-types'); //babel类型转化库   3 let code = `let sum = (a, b)=> a+b`;   4 let ArrowPlugins = {   5 //访问者模式   6   visitor: {   7   //捕获匹配的API   8     ArrowFunctionExpression(path) {   9       let { node } = path;  10       let params = node.params;  11       let body = node.body;  12       if(!t.isBlockStatement(body)){  13         let returnStatement = t.returnStatement(body);  14         body = t.blockStatement([returnStatement]);  15       }  16       let r = t.functionExpression(null, params, body, false, false);  17       path.replaceWith(r);  18     }  19   }  20 }  21 let d = babel.transform(code, {  22   plugins: [  23     ArrowPlugins  24   ]  25 })  26 console.log(d.code);

看看输出结果：

1 let sum = function (a, b) {  2   return a + b;  3 };

看起来不错，堪称完美～

六、深入 Babel

当然，上文我们简单演示了 Babel 是如何来编译代码的，但是并非简单如此。

Babel 使用一个基于 ESTree 并修改过的 AST，它的内核说明文档可以在这里找到。

正如我们上面示例代码一样，Babel 的三个主要处理步骤分别是：解析（parse），转换（transform），生成（generate）。

1.解析（parse）：解析步骤接收代码并输出 AST。这个步骤分为两个阶段：词法分析 Lexical Analysis 和语法分析Syntactic Analysis。

词法分析：词法分析阶段把字符串形式的代码转换为令牌（tokens）流。你可以把令牌看作是一个扁平的语法片段数组：
```
n * n;
```

例如上面的代码片段，解析结果如下：

[    { type: { ... }, value: "n", start: 0, end: 1, loc: { ... } },    { type: { ... }, value: "*", start: 2, end: 3, loc: { ... } },    { type: { ... }, value: "n", start: 4, end: 5, loc: { ... } },    ...  ]

每一个 type 有一组属性来描述该令牌，和 AST 节点一样它们也有 start，end，loc 属性：

{    type: {      label: 'name',      keyword: undefined,      beforeExpr: false,      startsExpr: true,      rightAssociative: false,      isLoop: false,      isAssign: false,      prefix: false,      postfix: false,      binop: null,      updateContext: null    },    ...  }

语法分析：语法分析阶段会把一个令牌流转换成 AST 的形式。这个阶段会使用令牌中的信息把它们转换成一个 AST 的表述结构，这样更易于后续的操作。

2.转换（transform）：接收 AST 并对其进行遍历，在此过程中对节点进行添加、更新及移除等操作。这是 Babel 或是其他编译器中最复杂的过程，同时也是插件将要介入工作的部分。

3.生成（generate）：代码生成步骤把最终（经过一系列转换之后）的 AST 转换成字符串形式的代码，同时还会创建源码映射（source maps）。

代码生成其实很简单：深度优先遍历整个 AST，然后构建可以表示转换后代码的字符串。

了解这这些过程，我们回头再来参悟一下之前的示例代码：

 1 const babel = require('babel-core'); //babel核心解析库   2 const t = require('babel-types'); //babel类型转化库   3 let code = `let sum = (a, b)=>{return a+b}`;   4 let ArrowPlugins = {   5 //访问者模式   6   visitor: {   7   //捕获匹配的API   8     ArrowFunctionExpression(path) {   9       let { node } = path;  10       let body = node.body;  11       let params = node.params;  12       let r = t.functionExpression(null, params, body, false, false);  13       path.replaceWith(r);  14     }  15   }  16 }  17 let d = babel.transform(code, {  18   plugins: [  19     ArrowPlugins  20   ]  21 })  22 console.log(d.code);

是不是发现突然简单易懂了。

七、关于遍历

想要转换 AST 你需要进行递归的树形遍历。

比方说我们有一个 FunctionDeclaration 类型。它有几个属性：id，params，和 body，每一个都有一些内嵌节点。

 1 {   2   type: "FunctionDeclaration",   3   id: {   4     type: "Identifier",   5     name: "square"   6   },   7   params: [{   8     type: "Identifier",   9     name: "n"  10   }],  11   body: {  12     type: "BlockStatement",  13     body: [{  14       type: "ReturnStatement",  15       argument: {  16         type: "BinaryExpression",  17         operator: "*",  18         left: {  19           type: "Identifier",  20           name: "n"  21         },  22         right: {  23           type: "Identifier",  24           name: "n"  25         }  26       }  27     }]  28   }  29 }

按照上面的代码结构，我们来说一下具体流程：
1.首先我们从 FunctionDeclaration 开始并且我们知道它的内部属性（即：id，params，body），所以我们依次访问每一个属性及它们的子节点；

2.然后我们来到 id，它是一个 Identifier。Identifier 没有任何子节点属性，所以我们继续；

3.紧接着是 params，由于它是一个数组节点所以我们访问其中的每一个，它们都是 Identifier 类型的单一节点，然后我们继续；

4.此时我们来到了 body，这是一个 BlockStatement 并且也有一个 body 节点，而且也是一个数组节点，我们深入访问其中的每一个；

5.这里唯一的一个属性是 ReturnStatement 节点，它有一个 argument，我们访问 argument 就找到了 BinaryExpression；

6.BinaryExpression 有一个 operator，一个 left，和一个 right。 Operator 不是一个节点，它只是一个值。因此我们不用继续向内遍历，我们只需要访问 left 和 right。

Babel 的转换步骤基本都是是这样的遍历过程。

八、具体语法树

看到抽象语法树，我们脑海中会出现这样一个疑问：有没有具体语法树呢？

和抽象语法树相对的是具体语法树（通常称作分析树）。一般的，在源代码的翻译和编译过程中，语法分析器创建出分析树。一旦AST 被创建出来，在后续的处理过程中，比如语义分析阶段，会添加一些信息。

文章首发于 Jartto's blog

来源：https://www.cnblogs.com/wind-alex/p/10375236.html

标签

抽象语法树

遍历

babel

require

const