大類的技術手記

regex 語法簡介

regex 用法規則不少，小弟我把它大致區分為四種類別，分別是「選擇」、「次數」、「錨點」和「截取」類。

選擇

首先是「選擇」類，regex 可以在不知道準確字串的情況下對內文進行搜尋，不知道實際是小「白」雞、還是小「小」雞也沒關係，都可以搜尋得到，在此例中，我們可以這麼做：

小白雞|小小雞

「|」代表「或」的意思，表示由「|」區隔出來的字串都可以接受，在這個例子中，無論是「小白雞」還是「小小雞」都可抓得到。

我們也可以加上小括號可以限制「或」的範圍，達成同樣的效果：

小(白|小)雞

這並不限制只能有兩種狀況，假設除了「小白雞」和「小小雞」，「小母雞」也是可以接受的，那只要再加上一個「|」即可：

小白雞|小小雞|小母雞

或是

小(白|小|母)雞

其中 (白|小|母) 可以用中括號的語法簡化：

小[白小母]雞

省去寫一大堆「|」的麻煩。

不過，由於複雜的世界，可接受的情況越來越多，什麼小懶雞、小肥雞都出來了，這個中括號裡的內容可能也會越來越長。

幸好中括號的用法還提供了另一個功能，那就是反向選擇的功能，假設今天我們已經豁出去，覺得什麼都可以，只要不是「小雞雞」就行！我們可以這樣寫：

小[^雞]雞

在中括號內的開頭加上「^」代表反向選擇，只要不是括號內的字都可以接受。

選擇的用法大概就這樣，非常單純。不過在實際的情況下，還是有些便利的技巧，比如說:

[a-zA-Z0-9]

a-z 代表 a 到 z，A-Z 代表 A 到 Z 而 0-9 代表 0 到 9，這個 regex 代表「所有英文字母和數字」都可以接受。

而有些太長用的字，甚至可以直接利用特殊的符號代表。下面列一個簡單的列表：

regex 語法	意義
.	任意字元
\d	數字(digit)，如 0 到 9
\D	非數字
\w	文字(word)
\W	非文字
\s	廣義的空白符號(whitespace)，如空白、tab 等
\S	非空白

Note

通常 \w 代表的是 [A-Za-z0-9_]，但在 Python3 中，\w 也可以是中文字。

次數

再來則是關於「次數」類型的規則。

有時不只出現搜尋的文字不確定，就連出現的次數也不能肯定。regex 也提供了一些特殊符號來處理這種次數未定的情況。

好比說假設我們一開始就知道是小「白」雞，但卻發現「白」有機會不只出現一次，有可能是「小白雞」、「小白白雞」、「小白白白雞」、「小白白白白雞」……。

這時就可以用「次數」類型的規則處理這個問題，在這個例子中，我們可以用：

小白*雞

「*」修飾前面的「白」字，表示「白」可以出現任意次數(包含 0 次)，所以這個 regex 可以同時代表「小雞」、「小白雞」、「小白白雞」、「小白白白雞」……。

如果不想包含 0 次，也可以用「+」代替：

小白+雞

「+」一樣代表任意次數，但不包含 0 次。所以只能是「小白雞」、「小白白雞」、「小白白白雞」、「小白白白白雞」……。

我們也可以直接指定可以出現的次數範圍：

小白{1,3}雞

{} 大括號代表可以出現的次數範圍，這個例子即代表「白」可以出現 1 次到 3 次，所以只會有「小白雞」、「小白白雞」、「小白白白雞」三種情況。

類似的規則可以見下表：

regex 語法	意義
*	任意次數(包含 0 次)
+	任意次數(不包含 0 次)
?	0 次或 1 次
{n}	n 次
{n, m}	n 次到 m 次
{n,}	n 次以上

錨點

再來是定位相關的「錨點」類型。

感謝我們身在一個複雜的世界，有時我們不但對搜尋的字串很龜毛，甚至對搜尋的字串出現的位置也有意見。這種類型的語法比較少，比較有機會用到的就那幾個。

其中「^」代表開頭，「$」代表結尾。

^小白雞

代表「小白雞」一定要搜尋內文的開頭。

(……話說這個例子還要用搜尋，也是一種本事？)

反過來說：

小白雞$

代表「小白雞」一定要在內文的結尾。

另外還有比較常用的是「\b」和「\B」，前者代表「邊界」，後者代表「非邊界」。這個定義比較模糊，有時碰到像是中文的時候會出事，比較沒異議的應用場景比較像是應用在拼音文字單字的邊界，如：

chick\b

在這個例子中，「chicken」就不符合要求，因為「k」並非單字的邊界。但反過來如果是：

chick\B

那麼「chicken」就可以接受，但「chick」就不能過。但如果換成中文呢？比如說：

小雞\b

據我測試的結果，有些可有些不行，像是 Python 2 就抓不到，但 Python 3 就可以。因此結論就是最好不要太依靠這個規則。

截取

最後則是「截取」類的規則。

小括號除了可以改變規則影響的範圍，像是下例 regex 對應的字串並非是「小雞雞」，而是「小雞小雞」:

(小雞){2}

括號裡的內容本身也能直接當成結果輸出，說來有些抽象，舉個例子先：

小雞 (\d+) 公克重

我們可以用這個 regex 搜尋文章中是否有對應的字串外，也可以直接截取括號裡的內容。如果符合的字串為「小雞 30 公克重」，我們可以直接取得「30」這個數字。

事實上，小括號也不限於只能用一次：

小雞 (\d+) 公克重， (\d+) 公分長。

這樣我們就能同時取得體重和身高了。

接下來，再度因應複雜的社會，越來越機車的情況一個接著一個出現，有時我們會碰到需要考慮「前後文」的字串。

<p>小雞</p>

假設有一種情況，需要知道「小雞」屬於什麼標籤的內文，該怎麼辦呢？不能單純用角括號「<」和「>」來判斷，因為裡頭其實也可以包含其他的標籤，好比：

<p>這是一隻<strong>3000</strong>公斤重的小雞</p>

幸好，用小括號截取出來的字串，也可以當成規則的一部分。我們可以用小括號配合 \1 解決。

<(\w+)>.*小雞.*</\1>

\1 代表第一個小括號截取出來的內容，在這個例子中就代表「p」。以此類推，如果有第二個括號，那麼就是 \2，第三、四個則是 \3 和 \4。

原則上，regex 比較常用的規則大約都不會超出這些，看起來好像很簡單，但事實上有不少人，可能一聽到 regex，心裡就會抽蓄，不能自已。

不過這也不能怪他們，舉個例子，下面是我 Google 到驗證 Email 格式的 regex：

((([\t ]*\r\n)?[\t ]+)?[-!#-'*+/-9=?A-Z^-~]+(\.[-!#-'*+/-9=?A-Z^-~]+)*(([\t ]*\r\n)?[\t ]+)?|(([\t ]*\r\n)?[\t ]+)?"(((([\t ]*\r\n)?[\t ]+)?([]!#-[^-~]|(\\[\t -~])))+(([\t ]*\r\n)?[\t ]+)?|(([\t ]*\r\n)?[\t ]+)?)"(([\t ]*\r\n)?[\t ]+)?)@((([\t ]*\r\n)?[\t ]+)?[-!#-'*+/-9=?A-Z^-~]+(\.[-!#-'*+/-9=?A-Z^-~]+)*(([\t ]*\r\n)?[\t ]+)?|(([\t ]*\r\n)?[\t ]+)?\[((([\t ]*\r\n)?[\t ]+)?[!-Z^-~])*(([\t ]*\r\n)?[\t ]+)?](([\t ]*\r\n)?[\t ]+)?)

(傳送門： http://stackoverflow.com/questions/13992403/regex-validation-of-email-addresses-according-to-rfc5321-rfc5322)

看到這個噁心的語法，誰都會想叫媽媽。

但其實雖然 regex 看起來不容易，但實際去寫的時候，卻常會發現並沒有想像中困難。因為 regex 在大部分的情況下都是前後文無關的，後面不會影響前面，所以寫起來感覺像是一層一層疊起來的感覺，實際上考慮的東西並不會如何複雜。

寫的時候雖然很輕鬆，但把最後結果拿給別人看的時候，就會是「一整坨」regex，別人自然會覺得它很噁心，好像很難的樣子。

對此，我只能說－－反正寫出來能用就好，痛苦是之後看的人！

呵呵。

(開玩笑的，別當真。)

我們也可以透過一些工具，像是 Rubular 這些線上工具，用視覺化的形式即時驗證自己寫的東西是否正確，讓我們更輕鬆地撰寫 regex。

咦！ Rubular 是 Ruby 的？這怎麼可以！趕緊推薦另一個工具 RegExr ，這個工具還附帶一些用法的教學、隨附語法簡表、常用 regex 範例、甚至還開放原始碼，這真是太棒了！比前者好用一萬倍啊！

(而且不是 Ruby)

大類的技術手記

淺談 regex 及其應用

regex 語法簡介

選擇

次數

錨點

截取

Python 的 re 模組

常見應用

抓取特定格式的字串

驗證格式

取代特定格式的內容

拆解特定格式的 token

編輯器上的應用

常見問題與注意事項

注意「/」和「\」

注意 * 是貪婪的

注意換行

結語