HTML Unicode (UTF-8) 參考手冊
Unicode 是一套通用字元集,它定義了在計算機上書寫大多數現存語言所需的全部字元。
Unicode 的目標是成為(並且已經是)所有其他編碼計算機字元集的超集。
Unicode 標準涵蓋了世界上(幾乎)所有的字元、標點符號和符號,並支援獨立於平臺和語言的文字處理、儲存和傳輸。
Unicode 聯盟
Unicode 聯盟負責開發 Unicode 標準。其目標是用 UTF(Unicode 轉換格式)取代現有的字元集。
Unicode 標準已在 HTML、XML、JavaScript、電子郵件、PHP、資料庫以及所有現代作業系統和瀏覽器中得到實現。
Unicode 字元集
Unicode 可以透過不同的字元集來實現。最常用的編碼是 UTF-8 和 UTF-16。
字元集 | 描述 |
---|---|
UTF-8 | 一種可變長度的字元編碼(1 到 4 位元組)。UTF-8 向後相容 ASCII,是電子郵件和網頁的首選編碼。 |
UTF-16 | 一種可變長度的字元編碼。UTF-16 被 Windows、iOS 和 Unix 等所有主流作業系統使用。 |
UTF-8 的前 128 個字元的二進位制值與 ASCII 相同,這意味著 ASCII 文字也是有效的 UTF-8。
HTML 標準是 Unicode UTF-8
HTML-4 的預設字元集 (ISO-8859-1) 大小有限,在多語言環境中不相容。
HTML-5 的預設字元編碼是 UTF-8。
使用非 UTF-8 字元集的 HTML5 頁面必須在 <meta> 標籤中指定。
示例
<meta charset="ISO-8859-1">
Unicode 和 UTF-8 之間的區別
Unicode 是一個字元集。
它是一個列表,其中所有字元都有唯一的十進位制數字。
A | = | 65 |
B | = | 66 |
C | = | 67 |
D | = | 69 |
表示字串 "hello" 的十進位制數字是 104 101 108 108 111。
UTF-8 是編碼。
它表示 Unicode 數字如何轉換為二進位制數字以儲存在計算機中。
UTF-8 編碼將 "hello" 儲存為(二進位制):01101000 01100101 01101100 01101100 01101111
Unicode 是一個字元集。它將字元轉換為數字。
UTF-8 是一個編碼標準。它將數字轉換為二進位制。
HTML5 UTF-8 字元程式碼
以下是 HTML5 支援的一些 UTF-8 字元程式碼列表:
字元程式碼 | 十進位制 | 十六進位制 |
---|---|---|
C0 控制字元和基本拉丁字母 | 0-127 | 0000-007F |
C1 控制字元和拉丁字母-1 補充 | 128-255 | 0080-00FF |
拉丁字母擴充套件-A | 256-383 | 0100-017F |
拉丁字母擴充套件-B | 384-591 | 0180-024F |
拉丁字母 IPA | 592-685 | 0250-02AD |
間隔修飾字母 | 688-767 | 02B0-02FF |
變音符號 | 768-879 | 0300-036F |
希臘語和科普特語 | 880-1023 | 0370-03FF |
西里爾語基本 | 1024-1279 | 0400-04FF |
西里爾語補充 | 1280-1327 | 0500-052F |
通用標點 | 8192-8303 | 2000-206F |
貨幣符號 | 8352-8399 | 20A0-20CF |
字母形符號 | 8448-8527 | 2100-214F |
數字形式 | 8528-8591 | 2150-218F |
箭頭 | 8592-8703 | 2190-21FF |
數學運算子 | 8704-8959 | 2200-22FF |
框線圖 | 9472-9599 | 2500-257F |
塊狀元素 | 9600-9631 | 2580-259F |
幾何形狀 | 9632-9727 | 25A0-25FF |
雜項符號 | 9728-9983 | 2600-26FF |
飾符 | 9984-10175 | 2700-27BF |
雜項數學符號 A | 10176-10223 | 27C0-27EF |
補充箭頭 A | 10224-10239 | 27F0-27FF |
盲文 | 10240-10495 | 2800-28FF |
補充箭頭 B | 10496-10623 | 2900-297F |
雜項數學符號 B | 10624-10751 | 2980-29FF |
補充數學運算子 | 10752-11007 | 2A00-2AFF |
雜項符號和箭頭 | 11008-11263 | 2B00-2BFF |