寫程式時可能遇到的 big-5 碼問題
- 在 Big-5 碼中, 每個中文字佔兩個 bytes, 第一個 byte 可以是 A1-F9 當中的任何一個; 第二個 byte 可以是 40-7E 或 A1-FE 當中的任何一個. 詳見 ifcss 有關 Big5 的文件.
- 由於 40-7E 是一般常用字元的 ASCII 碼範圍, 因此有時會給程式設計師帶來一些困擾. 例如 ASCII 碼各為 5b 5c 5d 7b 7d 的 [\]{} 等字元在 Tcl/Tk 與 perl 當中都有特殊意義, 如果你的 Tcl/Tk 或 perl 程式裡面有 "加" (a5 5b) "也" (a4 5d) "程" (b5 7b) "陣" (b0 7d) "功" (a5 5c) 等字, 恐怕就要小心了. 其他程式語言也有相同的問題.
- 如何知道一個中文字的 big-5 碼? 在 UNIX 下, 可以用你熟悉的 editor 建立一個小檔案, 把你要查的字敲進去, 再用 od 命令看: od -A x -t x1 檔案名稱. 注意: 換列字元的 ASCII 碼是 0a.
- 如何知道一個文字檔裡面是否有製造問題的 big-5 碼? 我也不知道有沒有這樣的程式; 但是我正好在教 Tcl/Tk 與 perl, 所以就寫了一個: b5tm. 例如你想知道 grade 這個檔案裡面是否有含有 []{}\ 等碼的中文字, 可以在 UNIX 的 shell 底下用 b5tm '[]{}\' grade 查看. (perl 版寫得比較好)
- 本頁最新版網址: http://people.ofset.org/~ckhung/b/tcl/big5.php; 您所看到的版本: June 24 2000 10:26:17.
- 作者: 朝陽科技大學 資訊管理系 洪朝貴
- 寶貝你我的地球, 請 減少列印, 多用背面, 丟棄時做垃圾分類。
- 本文件以 Creative Commons Attribution-ShareAlike License 或以 Free Document License 方式公開授權大眾自由複製/修改/散佈。
![[rss feed 圖案]](/~greg//i/rss.png)
![[拒絕冏性升級 docx]](/~greg//i/n7/no-docx.png)
![[用創意換取注意力: 認識 CC 授權]](/~greg//i/cc.png)
![[(力求維持) 符合 xhtml 1.0]](/~greg//i/vxhtml10.png)
