XML和HTML文档的主要组成部分是元素。
XML文档的基石
从一个DTD角度看,所有的XML文档是由由以下组成部分:
- Elements
- Attributes
- Entities
- PCDATA
- CDATA
分子
元素的main building blocks XML和HTML文档。
HTML元素的例子是"body"和"table" 。 XML元素的例子可能是"note"和"message" 。 元素可以包含文本,其他元素或者是空的。 空的HTML元素的例子是"hr" , "br"和"img"
例子:
<body>some text</body>
<message>some text</message>
属性
属性提供extra information about elements 。
属性总是放在一个元素的开始标签中。 属性总是以名称/值对。 下面的"img"元素有关于源文件的其他信息:
<img src="computer.gif" />
元素的名称是"img" 属性的名称是"src" 该属性的值是"computer.gif" 由于元件自身是空它是由一个封闭的" /"
实体
一些字符在XML中的特殊含义,比如小于号(<)它定义XML标记的开始。
大多数人都知道的HTML实体: " " 。 这种"no-breaking-space"实体在HTML中用于插入文档中的额外的空间。 当文档被XML解析器解析实体被扩展。
下面的实体在预定义的XML:
实体引用 | 字符 |
---|---|
< | < |
> | > |
& | & |
" | " |
' | ' |
PCDATA
PCDATA意味着解析字符数据。
字符数据看作开始标签和XML元素的结束标记之间找到的文本。
PCDATA is text that WILL be parsed by a parser 。 The text will be examined by the parser for entities and markup 。
文本中的标签将被视为标记和实体将扩大。
然而,解析字符数据不应包含任何&,<,>等符号; 这些需要由&放大器来表示; &LT; 和大于 实体,分别为。
CDATA
CDATA意味着字符数据。
CDATA is text that will NOT be parsed by a parser 。 文本中的标签不会被视为标记和实体也不会被展开。