
1.3 词法分析中的“贪心法”
C语言的某些符号,例如/ 、* 、和=,只有一个字符,称为单字符符号。而C语言中的其他符号,例如/*和 = = ,以及标识符,包括了多个字符,称为多字符符号。当C编译器读入一个字符'/'后又跟了一个字符'*',那么编译器就必须做出判断:是将其作为两个分别的符号对待,还是合起来作为一个符号对待。C语言对这个问题的解决方案可以归纳为一个很简单的规则:每一个符号应该包含尽可能多的字符。也就是说,编译器将程序分解成符号的方法是,从左到右一个字符一个字符地读入,如果该字符可能组成一个符号,那么再读入下一个字符,判断已经读入的两个字符组成的字符串是否可能是一个符号的组成部分;如果可能,继续读入下一个字符,重复上述判断,直到读入的字符组成的字符串已不再可能组成一个有意义的符号。这个处理策略有时被称为“贪心法”,或者更口语化一点,称为“大嘴法”。Kernighan与Ritchie对这个方法的表述如下,“如果(编译器的)输入流截至某个字符之前都已经被分解为一个个符号,那么下一个符号将包括从该字符之后可能组成一个符号的最长字符串”。
需要注意的是,除了字符串与字符常量,符号的中间不能嵌有空白(空格符、制表符和换行符)。例如,==是单个符号,而 = = 则是两个符号,下面的表达式
a---b
与表达式
a -- - b
的含义相同,而与
a - -- b
的含义不同。同样,如果/是为判断下一个符号而读入的第一个字符,而/之后紧接着*,那么无论上下文如何,这两个字符都将被当作一个符号/*,表示一段注释的开始。
根据代码中注释的意思,下面语句的本意似乎是用x除以p所指向的值,把所得的商再赋给y:
y = x/*p /* p指向除数*/;
而实际上,/*被编译器理解为一段注释的开始,编译器将不断地读入字符,直到*/出现为止。也就是说,该语句直接将x的值赋给y,根本不会顾及后面出现的p。将上面的语句重写如下:
y = x / *p /* p指向除数 */;
或者更加清楚一点,写作:
y = x/(*p) /* p指向除数 */;
这样得到的实际效果才是语句注释所表示的原意。
诸如此类的准二义性(near-ambiguity)问题,在有的上下文环境中还有可能招致麻烦。例如,老版本的C语言中允许使用=+来代表现在+=的含义。这种老版本的C编译器会将
a=-1;
理解为下面的语句
a =- 1;
亦即
a = a - 1;
因此,如果程序员的原意是
a = -1;
那么所得结果将使其大吃一惊。
另外,尽管/*看上去像一段注释的开始,但在下例中这种老版本的编译器会将
a=/*b;
当作
a =/ *b ;
这种老版本的编译器还会将复合赋值视为两个符号,因而可以毫无疑问地处理
a >> = 1;
而一个严格的ANSI C编译器则会报错。