編碼
編碼就是轉換 Unicode 字符為等價二進制表示的過程。XML 處理程序讀取一個 XML 文檔時,它依賴于編碼類型來編碼文檔。因此,我們需要在 XML 聲明中指定編碼類型。
編碼類型
主要有兩種類型的編碼:
UTF-8
UTF-16
UTF 表示 UCS 轉換格式,而 UCS 本身的意義是通用字符集。編號 8 或者 16 表示呈現字符的比特數。它們是 8(一個字節)或者 16(兩個字節)。對于沒有編碼信息的文檔,默認使用 UTF-8。
語法
編碼信息包含在 XML 文檔的序言部分。UTF-8 編碼的語法如下:
XML/HTML Code復制內容到剪貼板 <?xml version="1.0" encoding="UTF-8" standalone="no" ?>UTF-16 編碼語法如下:
XML/HTML Code復制內容到剪貼板 <?xml version="1.0" encoding="UTF-16" standalone="no" ?>示例
下面的例子展示了編碼聲明:
XML/HTML Code復制內容到剪貼板 <?xml version="1.0" encoding="UTF-8" standalone="no" ?> <contact-info> <name>Tanmay Patil</name> <company>TutorialsPoint</company> <phone>(011) 123-4567</phone> </contact-info>在上面的 encoding="UTF-8" 示例中,指定使用 8 位表示字符。要使用 16 為表示字符,可以使用 UTF-16 編碼。
使用 UTF-8 編碼的 XML 文件尺寸比 UTF-16 格式的文件更小。
驗證
驗證 就是對 XML 文檔進行驗證的過程。如果文檔內容與元素,屬性和關聯的文檔類型定義(DTD)匹配,以及文檔符合b表達的約束則該文檔被認為是有效的。通過 XML 解析器處理驗證的方式有兩種。分別是:
格式良好的 XML 文檔
有效的 XML 文檔
格式良好的 XML 文檔
如果 XML 文檔遵守以下規則則被認為是格式良好的。
沒有 DTD 的 XML 文檔必須使用預定義的字符實體處理 amp(&),apos(單引號),g(>),quot(雙引號)。
必須遵循標簽的順序,比如內部標簽必須在外部標簽閉合之前閉合。
每個開始標簽必須都有一個結束標簽或者必須是一個自閉合標簽(<title>...</title> 或者 <title />)。
在開始標簽中必須只能有一個屬性,并且需要使用引號包裹。
新聞熱點
疑難解答