XML和HTML文檔的主要組成部分是元素。
XML文檔的基石
從一個DTD角度看,所有的XML文檔是由由以下組成部分:
- Elements
- Attributes
- Entities
- PCDATA
- CDATA
分子
元素的main building blocks XML和HTML文檔。
HTML元素的例子是"body"和"table" 。 XML元素的例子可能是"note"和"message" 。 元素可以包含文本,其他元素或者是空的。 空的HTML元素的例子是"hr" , "br"和"img"
例子:
<body>some text</body>
<message>some text</message>
屬性
屬性提供extra information about elements 。
屬性總是放在一個元素的開始標籤中。 屬性總是以名稱/值對。 下面的"img"元素有關於源文件的其他信息:
<img src="computer.gif" />
元素的名稱是"img" 屬性的名稱是"src" 該屬性的值是"computer.gif" 由於元件自身是空它是由一個封閉的" /"
實體
一些字符在XML中的特殊含義,比如小於號(<)它定義XML標記的開始。
大多數人都知道的HTML實體: " " 。 這種"no-breaking-space"實體在HTML中用於插入文檔中的額外的空間。 當文檔被XML解析器解析實體被擴展。
下面的實體在預定義的XML:
實體引用 | 字符 |
---|---|
< | < |
> | > |
& | & |
" | " |
' | ' |
PCDATA
PCDATA意味著解析字符數據。
字符數據看作開始標籤和XML元素的結束標記之間找到的文本。
PCDATA is text that WILL be parsed by a parser 。 The text will be examined by the parser for entities and markup 。
文本中的標籤將被視為標記和實體將擴大。
然而,解析字符數據不應包含任何&,<,>等符號; 這些需要由&放大器來表示; &LT; 和大於 實體,分別為。
CDATA
CDATA意味著字符數據。
CDATA is text that will NOT be parsed by a parser 。 文本中的標籤不會被視為標記和實體也不會被展開。