编译器通过以下的词法转换(Lexical Translation)步骤,将上述的原始Unicode字符流转换成各种词法符号(Tokens)。
转义处理(Escape Processing):将原始Unicode字符流中的Unicode转义系列转换成对应的Unicode字符。Unicode转义系列的形式为\uxxxx,其中xxxx为4个16进制数字,表示编码为xxxx的Unicode字符。该转换步骤允许所有的Fuxi程序都可以仅用ASCII字符来编写。
行识别(Line Recognition):将经过步骤1)转换得来的Unicode字符流转换成由输入字符和行结束符组成的流;
符号化过程(Tokenization):将经过步骤2)转换得来的由输入字符和行结束符组成的输入流转换成输入成分(Input Element),在剔除空白、注释后,形成词法符号(Tokens)组成的系列。这些词法符号(Token)是构成句法(Syntactic Grammar)的结点符号(Terminal Symbol)。
来源:https://blog.csdn.net/fuxifans/article/details/98959241