Regexp 是什麼東東?
Regular Expression (簡稱 regexp 或 RE) 是什麼? 有人直譯為「常規表示式」; 筆者偏好意譯, 姑且叫它「字串樣版」。 Regexp 是一組大約三四十個特殊符號, 只要學會其中常用二十來個, 就能搜尋字串/代換字串, 甚至完成許多滑鼠選單做不到的驚奇繁雜工作。 以下舉一些例子; 為讓您專注於 regexp 本身, 暫時不寫出完整的指令, 只寫出指令中關於 regexp 的那一小段。
- 英文的 "顏色" 一字, 有兩種拼法: color 及 colour。 用 regexp 表達, 可以一石兩鳥: colou?r 其中的 ? 表示 「前面的字元可有可無」
- 想要找 "port" 與 "ports", 但又不希望找到 "export", "portable", "important" 等等一大堆不相關的單字, 該怎麼辦? 用 \bports?\b 這裡的 \b 表示 「(文數字 vs. 標點符號等等其他字元 之間的) 邊界 (boundary); 旁邊不可有其他文數字」。 所謂文數字, 就是英文字母, 數字, 及底線 "_"。
- 在一篇文章當中, 抓出所有 「看起來像是機場代碼的字串」 (例如 TPE 臺北, KHH 高雄, LAX 洛杉磯, ... 等等): \b[A-Z][A-Z][A-Z]\b。 這裡的 [A-Z] 是 [ABCDEFGHIJKLMNOPQRSTUVWXYZ] 的簡寫, 意思是 「任何一個大寫字母」
- 如何在一大片文字, 銀行帳號, 信用卡號... 當中, 找出看來像是行動電話號碼的字串, 例如 0912345678 或是 0912-345678 或是 0912-345-678 之類的? 09\d\d-?\d\d\d-?\d\d\d 這裡的 \d 是 [0-9] 的簡寫, 這又是 [0123456789] 的簡寫, 意思是 「任何一個數字字元」
- 想要找一組數字 ip (例如 168.95.1.1 或 163.17.57 之類的) 印象中在某個檔案內曾看過, 但既不記得精確的數字, 也不記得在那個檔案看過, 該怎麼辦? 可以搜尋 \d+\.\d+\.\d+\.\d+ 抓出所有數字 ip。 這裡的 + 表示 「前面的東西, 可以重複出現 1 次, 2 次, 3 次, ... 任意次」。 因為 . 在 regexp 當中有特殊的意義: 「任何一個字元」; 但在這裡我們就是要找 "." 於是在前面加上 \ 以取消它的特殊意義。
- 可以把一個文字檔裡面的所有空白列都刪掉嗎? 這個 regexp 可以抓出所有空白列: ^\s*$。 在 regexp 最前面放一個 ^ 表示您只對 「出現在一列之首」 的樣版有興趣; 在 regexp 的最後面放一個 $ 表示您只對 「出現在一列之尾」 的樣版有興趣。 \s 是 [ \t\n] 的簡寫, 意思是 「任何一個空白字元」 (包含空格, tab, 等等)。 * 表示 「前面的東西, 可以重複出現 0 次, 1 次, 2 次, ... 任意次」。 這個樣版翻譯成中文, 就是 「從頭到尾都是一片空白的那種列」。
恭喜! 您已經學會大約十個 regexp 特殊符號。 Regexp 總共大約有三四十個符號; 不過其中大約有一半較少用; 只要熟用兩打, 就已經可以變很多魔術了。 Regexp 是一種低成本, 高報酬的學習投資。 耐心把這份講義看一半, 絕對比花時間學花俏的圖形介面軟體更值回票價。
- 本頁最新版網址: http://people.ofset.org/~ckhung///b/re/intro.php; 您所看到的版本: November 30 2008 11:36:57.
- 作者: 朝陽科技大學 資訊管理系 洪朝貴
- 寶貝你我的地球, 請 減少列印, 多用背面, 丟棄時做垃圾分類。
- 本文件以 Creative Commons Attribution-ShareAlike License 或以 Free Document License 方式公開授權大眾自由複製/修改/散佈。
![[rss feed 圖案]](/~greg//i/rss.png)
![[帶頭升級 Office 2007? 別當害群之馬]](/~greg//i/n7/no-office2007.png)
![[(力求維持) 符合 xhtml 1.0]](/~greg//i/vxhtml10.png)
