本模塊提供了和Perl里的正則表達式類似的功能,不關是正則表達式本身還是被搜索的字符串,都可以是Unicode字符,這點不用擔心,python會處理地和Ascii字符一樣漂亮。
正則表達式使用反斜桿(/)來轉義特殊字符,使其可以匹配字符本身,而不是指定其他特殊的含義。這可能會和python字面意義上的字符串轉義相沖突,這也許有些令人費解。比如,要匹配一個反斜桿本身,你也許要用'////'來做為正則表達式的字符串,因為正則表達式要是//,而字符串里,每個反斜桿都要寫成//。
你也可以在字符串前加上 r 這個前綴來避免部分疑惑,因為 r 開頭的python字符串是 raw 字符串,所以里面的所有字符都不會被轉義,比如r'/n'這個字符串就是一個反斜桿加上一字母n,而'/n'我們知道這是個換行符。因此,上面的'////'你也可以寫成r'//',這樣,應該就好理解很多了??梢钥聪旅孢@段:
代碼如下:
>>> import re
>>> s = '/x5c' #0x5c就是反斜桿
>>> print s
/
>>> re.match('////', s) #這樣可以匹配
<_sre.SRE_Match object at 0xb6949e20>
>>> re.match(r'//', s) #這樣也可以
<_sre.SRE_Match object at 0x80ce2c0>
>>> re.match('//', s) #但是這樣不行
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/lib/python2.6/re.py", line 137, in match
return _compile(pattern, flags).match(string)
File "/usr/lib/python2.6/re.py", line 245, in _compile
raise error, v # invalid expression
sre_constants.error: bogus escape (end of line)
>>>
另外值得一提的是,re模塊的方法,大多也就是RegexObject對象的方法,兩者的區別在于執行效率。這個在最后再展開吧。
正則表達式語法
正則表達式(RE)指定一個與之匹配的字符集合;本模塊所提供的函數,將可以用來檢查所給的字符串是否與指定的正則表達式匹配。
正則表達式可以被連接,從而形成新的正則表達式;例如A和B都是正則表達式,那么AB也是正則表達式。一般地,如果字符串p與A匹配,q與B匹配的話,那么字符串pq也會與AB匹配,但A或者B里含有邊界限定條件或者命名組操作的情況除外。也就是說,復雜的正則表達式可以用簡單的連接而成。
正則表達式可以包含特殊字符和普通字符,大部分字符比如'A','a'和'0'都是普通字符,如果做為正則表達式,它們將匹配它們本身。由于正則表達式可以連接,所以連接多個普通字符而成的正則表達式last也將匹配'last'。(后面將用不帶引號的表示正則表達式,帶引號的表示字符串)
下面就來介紹正則表達式的特殊字符:
新聞熱點
疑難解答