Python正則表達式教程之二：捕獲篇

2020-02-23 04:22:56

字體：大中小

來源：轉載

供稿：網友

前言

在上一篇文中，我們介紹了關于Python正則表達式的基礎，那么在這一篇文章里，我們將總結一下正則表達式關于捕獲的用法。下面話不多說，來看看詳細的介紹吧。

捕獲

捕獲和分組在正則表達式中有著密切的聯系，一般情況下，分組即捕獲，都用小括號完成（因此，小括號在正則表達式中也屬于特殊字符，表達原含義時需要轉義）：

(…) 正常分組，并捕獲

(?:…) 分組，但是不捕獲

舉個例子，假設我們需要匹配一個座機號碼：

>>> m = re.search(r'^(/d{3,4}-)?(/d{7,8})$','020-82228888')>>> m.group(0)'020-82228888'>>> m.group(1)'020-'>>> m.group(2)'82228888'

這里，默認分組(0)是完整的匹配，之后的分組則按出現順序排列。

接下來，我們想在一整段文本中，找出所有的座機號碼，這里需要用到re.findall:

>>> re.findall(r'(/d{3,4}-)?(/d{7,8})','020-82228888/n0357-4227865') [('020-', '82228888'), ('0357-', '4227865')]

findall有一個特性，就是如果結果中有捕獲的分組，則將捕獲的分組組成tuple返回。利用這個特點，和上面提到的分組，但是不捕獲的語法，可以得到我們想要的結果：

>>> re.findall(r'(?:/d{3,4}-)?/d{7,8}','020-82228888/n0357-4227865') ['020-82228888', '0357-4227865']>>> re.findall(r'(?:/d{3,4}-)?/d{7,8}','020-82228888/n4227865')  ['020-82228888', '4227865']

在正則表達式中，也可以通過/1,/2等來指代之前捕獲的字符串組合。這個經常用于單雙引號的正確匹配：

>>> sentence = """You said "why?" and I say "I don't know".""">>> re.findall(r'["/'](.*?)["/']', sentence)['why?', 'I don']>>> re.findall(r'(["/'])(.*?)/1', sentence)[('"', 'why?'), ('"', "I don't know")]

此外，如果覺得/1,/2這種表示可讀性不好的話，還可以給捕獲起一個英文名字。如下例子中，實現了兩種不同的日期格式之間的轉換：

>>> sentence = "from 12/22/1629 to 11/14/1643">>> re.sub(r'(?P<month>/d{2})/(?P<day>/d{2})/(?P<year>/d{4})', r'/g<year>-/g<month>-/g<day>', sentence) 'from 1629-12-22 to 1643-11-14'

但是，這種命名引用捕獲的方式，在findall、search中卻是無效的：

>>> sentence = """You said "why?" and I say "I don't know".""">>> re.findall(r'(?P<quote>["/'])(.*?)/g<quote>', sentence)  []>>> re.search(r'(?P<quote>["/'])(.*?)/g<quote>', sentence)   >>> re.search(r'(?P<quote>["/'])(.*?)/1', sentence)  <_sre.SRE_Match object; span=(9, 15), match='"why?"'>>>> re.search(r'(?P<quote>["/'])(.*?)/1', sentence).groupdict(){'quote': '"'}

上一篇：python日志記錄模塊實例及改進

下一篇：python解析基于xml格式的日志文件

學習交流

筆記本開機提示error loading os錯誤的問

筆記本開機提示error loading os錯誤的問題怎么解決...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注