您的位置：首页 > 其它

关于编译器自举问题的个人见解

2018-03-25 00:41 344 查看

C编译器可以编译C语言，即，将任意的C代码转换为机器语言（或汇编，看语境）。那么C编译器本身作为一个可执行程序，它必然也是用某种语言编写并编译为机器语言的，是用什么语言编写的呢，是机器语言吗？是汇编吗？据说都不是，因为用机器语言或者汇编语言实在是太难太复杂了！答案是用C语言编写的。初次遇到这个问题一定很奇怪，用C语言这样的语言编写了一段可以将自己翻译为全是0或1构成的机器语言的C语言程序？不是陷入了先有鸡还是先有蛋的怪圈了吗？
然而实际上这个和鸡蛋悖论还是有所区别的，计算机领域内这个问题叫做编译器的自举问题。
我们不妨从编译器的大概原理来考虑这个问题：
编译器编译某种语言是从通过对语言的词法分析，句法结构入手的，可以理解为如何处理特定的代码文本。我们假定用某种语言--X语言去写Y语言的编译器，当它编译某段Y语言代码时，比如看到“int c=100”"import lib "什么之类文本片段，就把它转为同样意义的X语言写的代码。通过比较充足的测试用例后，这段X代码功能就完善好了，它已经可以将任意的Y代码转为X代码。那么这段特定的X代码经过编译（这是指X到机器语言的编译）后成为可执行文件，比如命名为y2m.exe，就可以当编译器用了。以后任何Y代码都可以通过该编译器y2m.exe来编译。
转到原问题，X、Y都成了C语言，用自己分析自己，可行吗？似乎有那么一点可能性，为什么？我们不妨先来举个例子，当我们小学生时只会几千个汉字，为什么通过查字典方式就可以认识理论上所有汉字了呢？因为有那一部分已知汉字作为基础，就可以理解在字典上用简单汉字解释复杂冷僻汉字的条目。作为类比，用精简后的C语言(一般称为C的一个子集），也就是保留比较核心的功能，比如保留重要的关键字什么的，的简化版的C语言，随便给个名字比如叫Cn语言，来分析所有C语句。再假定我们的Cn语言到机器语言的编译器我们已经实现了（如何实现的暂时不管它，也许是别人给你的，也许是手工写汇编或者机器语言来的，反正总比写C的全集工作量要小）。再回想下汇编和机器语言的关系，不也和这个有点相像吗？
汇编和机器语言的关系：早期计算机通过识别纸带上的有没有孔的方式（也就是代表数字0或1）来读取各种指令，后来也许可以直接输入机器码了，但仍然比较麻烦。有人觉得那些指令，比如相加操作，假设对应的机器码为10010001，不好记，那么我不如先记成ADD这样的意义明确的帮助记忆的符号（后来称之为助记符），到时候实际输入计算机的时候用某种办法（硬件实现或者软件实现都可以）让它被翻译为10010001再输入计算机就行，这样程序员省事了，计算机也还能像以前一样继续读取机器码。这样，把基本的操作都用助记符来表示，就产生了汇编语言。只要用机器代码写一段机器代码，可以将助记符转为机器代码（即编译），就可以行得通，因为汇编的助记符种类确实不多。那么，刚才这段代码就是所谓的汇编语言编译器（就是汇编器）了。
好了，再来回头想这个问题，从C到Cn好似隧道的一头，汇编到机器语言是隧道另一头，中间过程再打通，就全线连接，完成C的编译器了。现在我们必须考虑刚才我们说的那个问题，从Cn到机器语言的编译器怎么写？那我们不如继续精简，继续分层，用Cn-1语言来写一个能够编译Cn的编译器，前提是假定我们Cn-1到机器语言的编译器已经实现。然后再继续精简，分层，用Cn-2语言来写一个能够编译Cn-1的编译器... ...
然后你会发现这成了一个类似递归的问题，最后我们需要一种能将C0语言编译的、用汇编写成的编译器,至此全部环节打通。
好了，我们终于用一种几乎等同于C语言的C子集--Cn语言写好了C的编译器，而当你看Cn语言你根本就觉得它就是C语言，因为它只是用了C语言的部分内容，所以称之为用C语言写的C编译器也不为过吧。
至此，我们似乎可以创造自己的语言W了，只要用C语言写一段可以分析W代码的C代码，再用C编译器编译，就得到了W语言的编译器，比如取名叫W2M.exe。
那么，新的问题是，你能用W写一个W的编译器吗？是不是又像刚才那样分那么多层？难道不那么分层就做不了吗？
可以只分W-C-Machine Language吗？试试吧。假设我们已经拥有了用C编译W的编译器，取名compiler0。
先用W给自己写一段简单点的分析代码W，取名code1，也许可能会有一些问题，没关系，只要能把大部分功能完成即可。好了，现在我们用compiler0编译code1得到compiler1，compiler1是W编写的可能不那么完善的W解释器。为了让其完善，得想办法。我们试试用compiler1再去编译code1，得到compiler2，如果顺利走到这一步，说明至少compiler1可以编译自己，那么，我们有compiler1和compiler2了，哪个更好呢，我也不太清楚，也许是后者吧。如果以后相对code1进行改进，那么我们用compiler1，2，...n.继续编译就好了，因为这些compiler都是从编译W代码而来，编译过程没bug(有bug就不能生成exe)，至少可以保证编译过程没错（W源文件代码是否写对不能保证）。
在以上的这个过程中，对code1的多次修改以达到预期效果，是和前文里的多次分层的效果是差不多的，殊路同归。
以上是个人见解，可能有误，具体原理和内容还是看编译原理等参考书为好。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航