深入理解PHP代碼的執(zhí)行的過程

2020-03-22 20:17:47

字體：大中小

供稿：網(wǎng)友

一、前言

語言是人們進行溝通和交流的表達符號，每種語言都有專屬于自己的符號，表達方式和規(guī)則。就編程語言來說，它也是由特定的符號，特定的表達方式和規(guī)則組成。語言的作用是溝通，不管是自然語言，還是編程語言，它們的區(qū)別在于自然語言是人與人之間溝通的工具，而編程語言是人與機器之間的溝通渠道。

就PHP語言來說，它也是一組符合一定規(guī)則的約定的指令。在編程人員將自己的想法以PHP語言實現(xiàn)后，通過PHP的虛擬機（確切的來說應該是PHP的語言引擎Zend）將這些PHP指令轉(zhuǎn)變成C語言（可以理解為更底層的一種指令集）指令，而C語言又會轉(zhuǎn)變成匯編語言，最后匯編語言將根據(jù)處理器的規(guī)則轉(zhuǎn)變成機器碼執(zhí)行。這是一個更高層次抽象的不斷具體化，不斷細化的過程。

從一種語言到另一種語言的轉(zhuǎn)化稱之為編譯，這兩種語言分別可以稱之為源語言和目標語言。這種編譯過程通過發(fā)生在目標語言比源語言更低級（或者說更底層）。語言轉(zhuǎn)化的編譯過程是由編譯器來完成，編碼器通常被分為一系列的過程：詞法分析、語法分析、語義分析、中間代碼生成、代碼優(yōu)化、目標代碼生成等。前面幾個階段（詞法分析、語法分析和語義分析）的作用是分析源程序，我們可以稱之為編譯器的前端。后面的幾個階段（中間代碼生成、代碼優(yōu)化和目標代碼生成）的作用是構(gòu)造目標程序，我們可以稱之為編譯器的后端。一種語言被稱為編譯類語言，一般是由于在程序執(zhí)行之前有一個翻譯的過程，其中關(guān)鍵點是有一個形式上完全不同的等價程序生成。而PHP之所以被稱為解釋類語言，就是因為并沒有這樣的一個程序生成，它生成的是中間代碼Opcode，這只是PHP的一種內(nèi)部數(shù)據(jù)結(jié)構(gòu)。

二、 PHP代碼的執(zhí)行的過程

比如我們寫一個簡單的程序

<?php	echo "Hello World!";	$a = 1 + 1;	echo $a;?>

這個簡單的程序他執(zhí)行過程是怎樣的呢？其實，執(zhí)行過程也正如我們前面所說分為4個步驟。（這里只是指PHP語言引擎Zend執(zhí)行過程，不包含Web服務器的執(zhí)行過程。）

1.Scanning(Lexing) ,將PHP代碼轉(zhuǎn)換為語言片段(Tokens)2.Parsing, 將Tokens轉(zhuǎn)換成簡單而有意義的表達式3.Compilation, 將表達式編譯成Opocdes4.Execution, 順次執(zhí)行Opcodes，每次一條，從而實現(xiàn)PHP腳本的功能。

注1：Opcode是一種PHP腳本編譯后的中間語言，就像Java的ByteCode,或者.NET的MSL

注2：現(xiàn)在有的Cache比如APC,可以使得PHP緩存住Opcodes，這樣，每次有請求來臨的時候，就不需要重復執(zhí)行前面3步，從而能大幅的提高PHP的執(zhí)行速度。

1. Scanning（Lexing）,將PHP代碼轉(zhuǎn)換為語言片段（Tokens）

那什么是Lexing? 學過編譯原理的同學都應該對編譯原理中的詞法分析步驟有所了解，Lex就是一個詞法分析的依據(jù)表。

對于PHP在開始使用的是Flex，之后改為re2c， html' target='_blank'>MySQL的詞法分析使用的Flex，除此之外還有作為UNIX系統(tǒng)標準詞法分析器的Lex等。這些工具都會讀進一個代表詞法分析器規(guī)則的輸入字符串流，然后輸出以C語言實做的詞法分析器源代碼。這里我們只介紹PHP的現(xiàn)版詞法分析器，re2c。在源碼目錄下的Zend/zend_language_scanner.l 文件是re2c的規(guī)則文件，如果需要修改該規(guī)則文件需要安裝re2c才能重新編譯，生成新的規(guī)則文件。Zend/zend_language_scanner.c會根據(jù)Zend/zend_language_scanner.l,來輸入的 PHP代碼進行詞法分析，從而得到一個一個的“詞”。

從PHP4.2開始提供了一個函數(shù)叫token_get_all,這個函數(shù)就可以將一段PHP代碼 Scanning成Tokens；

我們用下面的代碼使用token_get_all函數(shù)處理我們開頭提到的PHP代碼。

<?phpecho "<pre>";$phpcode = <<<PHPCODE<?php	echo "Hello World!";	$a = 1 + 1;	echo $a;?>PHPCODE;// $tokens = token_get_all($phpcontent);// print_r($tokens);$tokens = token_get_all($phpcode); foreach ($tokens as $key => $token) {	$tokens[$key][0] = token_name($token[0]);}print_r($tokens);?>

注：為了便于理解和查看，我使用token_name函數(shù)將解析器代號修改成了符號名稱說明。

如果有的童鞋想要看原始的，可以將上面代碼中的第10,11行代碼注釋去掉。

解釋器代號列表詳見：http://www.php.net/manual/zh/tokens.php

得到的結(jié)果如下：

Array(    [0] => Array        (            [0] => T_OPEN_TAG            [1] =>  1        )    [1] => Array        (            [0] => T_WHITESPACE            [1] => 	            [2] => 2        )    [2] => Array        (            [0] => T_ECHO            [1] => echo            [2] => 2        )    [3] => Array        (            [0] => T_WHITESPACE            [1] =>              [2] => 2        )    [4] => Array        (            [0] => T_CONSTANT_ENCAPSED_STRING            [1] => "Hello World!"            [2] => 2        )    [5] =>     [6] => Array        (            [0] => T_WHITESPACE            [1] => 	             [2] => 2        )    [7] =>     [8] => Array        (            [0] => T_WHITESPACE            [1] =>              [2] => 3        )    [9] => Array        (            [0] => T_LNUMBER            [1] => 1            [2] => 3        )    [10] => Array        (            [0] => T_WHITESPACE            [1] =>              [2] => 3        )    [11] =>     [12] => Array        (            [0] => T_WHITESPACE            [1] =>              [2] => 3        )    [13] => Array        (            [0] => T_LNUMBER            [1] => 1            [2] => 3        )    [14] =>     [15] => Array        (            [0] => T_WHITESPACE            [1] => 	            [2] => 3        )    [16] => Array        (            [0] => T_ECHO            [1] => echo            [2] => 4        )    [17] => Array        (            [0] => T_WHITESPACE            [1] =>              [2] => 4        )    [18] =>     [19] => Array        (            [0] => T_WHITESPACE            [1] =>             [2] => 4        )    [20] => Array        (            [0] => T_CLOSE_TAG            [1] => ?>            [2] => 5        ))

分析這個返回結(jié)果我們可以發(fā)現(xiàn)，源碼中的字符串，字符，空格都會原樣返回。

每個源代碼中的字符，都會出現(xiàn)在相應的順序處。

而其他的，比如標簽，操作符，語句，都會被轉(zhuǎn)換成一個包含三部分的

1、Token ID解釋器代號 (也就是在Zend內(nèi)部的改Token的對應碼，比如,T_ECHO,T_STRING)

2、源碼中的原來的內(nèi)容

3、該詞在源碼中是第幾行。

2. Parsing, 將Tokens轉(zhuǎn)換成簡單而有意義的表達式

接下來，就是Parsing階段了，Parsing首先會丟棄Tokens Array中的多于的空格，

然后將剩余的Tokens轉(zhuǎn)換成一個一個的簡單的表達式

1.echo a constant string2.add two numbers together3.store the result of the prior expression to a variable4.echo a variable

Bison是一種通用目的的分析器生成器。它將LALR(1)上下文無關(guān)文法的描述轉(zhuǎn)化成分析該文法的C程序。使用它可以生成解釋器，編譯器，協(xié)議實現(xiàn)等多種程序。 Bison向上兼容Yacc，所有書寫正確的Yacc語法都應該可以不加修改地在Bison下工作。它不但與Yacc兼容還具有許多Yacc不具備的特性。

Bison分析器文件是定義了名為yyparse并且實現(xiàn)了某個語法的函數(shù)的C代碼。這個函數(shù)并不是一個可以完成所有的語法分析任務的C程序。除此這外我們還必須提供額外的一些函數(shù)：如詞法分析器、分析器報告錯誤時調(diào)用的錯誤報告函數(shù)等等。我們知道一個完整的C程序必須以名為main的函數(shù)開頭，如果我們要生成一個可執(zhí)行文件，并且要運行語法解析器，那么我們就需要有main函數(shù)，并且在某個地方直接或間接調(diào)用yyparse，否則語法分析器永遠都不會運行。

在PHP源碼中，詞法分析器的最終是調(diào)用re2c規(guī)則定義的lex_scan函數(shù)，而提供給Bison的函數(shù)則為zendlex。而yyparse被zendparse代替。

3. Compilation, 將表達式編譯成Opocdes之后就是Compilation階段了，它會把Tokens編譯成一個個op_array, 每個op_arrayd包含如下5個部分

在PHP實現(xiàn)內(nèi)部，opcode由如下的結(jié)構(gòu)體表如下：

struct _zend_op {opcode_handler_t handler; // 執(zhí)行該opcode時調(diào)用的處理函數(shù)znode result;znode op1;znode op2;ulong extended_value;uint lineno;zend_uchar opcode; // opcode代碼};

和CPU的指令類似，有一個標示指令的opcode字段，以及這個opcode所操作的操作數(shù)。

PHP不像匯編那么底層，在腳本實際執(zhí)行的時候可能還需要其他更多的信息，extended_value字段就保存了這類信息。

其中的result域則是保存該指令執(zhí)行完成后的結(jié)果。

PHP腳本編譯為opcode保存在op_array中，其內(nèi)部存儲的結(jié)構(gòu)如下：

struct _zend_op_array {	/* Common elements */	zend_uchar type;	char *function_name; // 如果是用戶定義的函數(shù)則，這里將保存函數(shù)的名字	zend_class_entry *scope;	zend_uint fn_flags;	union _zend_function *prototype;	zend_uint num_args;	zend_uint required_num_args;	zend_arg_info *arg_info;	zend_bool pass_rest_by_reference;	unsigned char return_reference;	/* END of common elements */	zend_bool done_pass_two;	zend_uint *refcount;	zend_op *opcodes; // opcode數(shù)組	zend_uint last，size;	zend_compiled_variable *vars;	int last_var，size_var;	// ...}

如上面的注釋，opcodes保存在這里，在執(zhí)行的時候由下面的execute函數(shù)執(zhí)行：

ZEND_API void execute(zend_op_array *op_array TSRMLS_DC){	// ... 循環(huán)執(zhí)行op_array中的opcode或者執(zhí)行其他op_array中的opcode}

前面提到每條opcode都有一個opcode_handler_t的函數(shù)指針字段，用于執(zhí)行該opcode。

PHP有三種方式來進行opcode的處理:CALL，SWITCH和GOTO。

PHP默認使用CALL的方式，也就是函數(shù)調(diào)用的方式，由于opcode執(zhí)行是每個PHP程序頻繁需要進行的操作，

可以使用SWITCH或者GOTO的方式來分發(fā)，通常GOTO的效率相對會高一些，

不過效率是否提高依賴于不同的CPU。

在我們上面的例子中，我們的PHP代碼會被Parsing成:

* ZEND_ECHO     'Hello World%21'* ZEND_ADD       ~0 1 1* ZEND_ASSIGN  !0 ~0* ZEND_ECHO     !0* ZEND_RETURN  1

你可能會問了，我們的$a去那里了？這個要介紹操作數(shù)了，每個操作數(shù)都是由以下倆個部分組成：

a)op_type : 為IS_CONST, IS_TMP_VAR, IS_VAR, IS_UNUSED, or IS_CV b)u,一個聯(lián)合體，根據(jù)op_type的不同，分別用不同的類型保存了這個操作數(shù)的值(const)或者左值(var)

而對于var來說，每個var也不一樣 IS_TMP_VAR, 顧名思義，這個是一個臨時變量，保存一些op_array的結(jié)果，以便接下來的op_array使用，這種的操作數(shù)的u保存著一個指向變量表的一個句柄（整數(shù)），這種操作數(shù)一般用~開頭。比如~0,表示變量表的0號未知的臨時變量 IS_VAR 這種就是我們一般意義上的變量了,他們以$開頭表示
IS_CV 表示ZE2.1/PHP5.1以后的編譯器使用的一種cache機制，這種變量保存著被它引用的變量的地址，當一個變量第一次被引用的時候，就會被CV起來，以后對這個變量的引用就不需要再次去查找active符號表了，CV變量以！開頭表示。

這么看來，我們的$a被優(yōu)化成!0了。
比如我們使用VLD來查看opcodes顯示如下：

從上面這個我們看到，是不是和我們之前分析的一樣呢。如上為VLD輸出的PHP代碼生成的中間代碼的信息，說明如下：
Branch analysis from position 這條信息多在分析數(shù)組時使用。
Return found 是否返回，這個基本上有都有。
filename 分析的文件名
function name 函數(shù)名，針對每個函數(shù)VLD都會生成一段如上的獨立的信息，這里顯示當前函數(shù)的名稱
number of ops 生成的操作數(shù)
compiled vars 編譯期間的變量，這些變量是在PHP5后添加的，它是一個緩存優(yōu)化。這樣的變量在PHP源碼中以IS_CV標記。
op list 生成的中間代碼的變量列表
是不是和前面所說的一樣呢。4. Execution,Zend引擎順次執(zhí)行Opcodes最后一步，也就是Execution，Zend引擎順次執(zhí)行Opcodes，每次一條，從而實現(xiàn)PHP腳本的功能，和機器指令運行相似。
好了，到這里整個PHP代碼的執(zhí)行過程算是寫完了，水平有限寫的不好還望海涵，有問題希望大家指出。
參考資料以及對他們的致謝（雖然人家不會鳥我們這些小菜。。。）：
鳥哥：http://www.laruence.com/2008/06/18/221.html
（注：因為鳥哥的博文是08年的，本文的數(shù)據(jù)雖然和鳥哥有些相似，PHP發(fā)展到現(xiàn)在已經(jīng)有了不少改變，所以大家看到鄙人的博文中程序運行結(jié)果以及相關(guān)的說明與鳥哥的不同，請不要吃驚，鄙人的結(jié)果都是運行驗證過的，PHP版本為5.4）
TIPI：http://www.php-internals.com/

排版老是亂，改了幾次了- -。

PHP編程

鄭重聲明：本文版權(quán)歸原作者所有，轉(zhuǎn)載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時間聯(lián)系我們修改或刪除，多謝。

上一篇：PHP學習筆記之php文件操作

下一篇：一個完整的PHPZIP壓縮類的代碼