穎科HTML2XML白皮書
InfOnCall HTML2XML
2001/12/05
1.術語
HTML2XML 模板生成器
HTML2XML 解析引擎
2.簡介
Infoncall提供了一套HTML2XML工具,用以將HTML文檔自動轉換為XML文檔。目前主要針對以表格數(shù)據(jù)為核心(data-centric)的HTML格式文件。這是由于XML標準主要是用以精確標識所包含的數(shù)據(jù),而有進一步應用需求的HTML文件多以含有Table的 Data-Centric文件為主。目前該工具功能主要包括:
3.背景
Internet的廣泛應用和飛速發(fā)展使得以HTML表達的Web成為了信息的主要發(fā)布渠道之一。人們可以通過WWW瀏覽豐富的信息資源。而Web越是普及,就越迫切地要求信息內(nèi)容不僅容易表現(xiàn),而且能被應用方便地獲取,以提供服務之間的自動化和互操作。人們要求來自Web的信息以結構化的方式來訪問。W3C制定的可擴展標記語言(XML)以及其數(shù)據(jù)模型和查詢語言提供了解決之道?墒侨缃竦腤eb仍然是由許多雜亂的HTML網(wǎng)頁組成,而不是組織良好的XML文檔。因為需要把現(xiàn)有的HTML網(wǎng)頁轉換成更靈活應用和處理的XML數(shù)據(jù)。為了解決這個實際的問題,InfonCall提供了HTML2XML的開發(fā)工具,可以來將基于Web資源包裝成產(chǎn)生所需要的XML文檔。
4.系統(tǒng)架構
HTML2XML1.0中包括了兩個工具:HTML2XML模板生成器和HTML2XML解析引擎。通過該HTML2XML模板生成器的GUI界面和HTML2XML解析引擎,將HTML文件中的<Table>標記中的數(shù)據(jù),根據(jù)指導性文件,轉換成XML格式數(shù)據(jù),供其他應用程序進行進一步處理。
Infoncall的 HTML2XML 模板生成器提供方便的用戶界面。HTML網(wǎng)頁內(nèi)容編輯人員,選定所需要的HTML內(nèi)容后,以可視化的圖形方式,用鼠標進行拖拉操作即可完成對HTML內(nèi)容的獲取。用戶不必了解所編輯HTML文件的源代碼。當保存編輯結果后,即可生成針對該類HTML文件的解析模板和DEMO解析結果。
HTML2XML解析引擎支持兩種用戶界面:Service和API。Service界面不需要用戶有較深的編程經(jīng)驗;API界面為開發(fā)人員提供更靈活的編程接口。模板使用人員在開發(fā)具體應用時,通過parser 解析引擎裝載不同模板,解析得到相應的結果。解析結果返回XML格式的字符串和保存為指定文件,以供進一步處理。若模板裝載發(fā)生錯誤或開發(fā)人員未指定模板,解析引擎則按無模板的方式進行處理。此時,解析引擎解析所有Table中的數(shù)據(jù)到XML文件中。
5. 產(chǎn)品功能和特點
5.1 產(chǎn)品功能
Infoncall的HTML2XML工具,提供以下功能:
5.2 產(chǎn)品特點
Infoncall的HTML2XML開發(fā)工具將給您帶來如下的優(yōu)勢:
6.應用前景
Infoncall HTML2XML工具可以應用的情景的有:
1)網(wǎng)站與增值服務提供商的數(shù)據(jù)交換。
一般的情形,網(wǎng)站已經(jīng)通過Internet發(fā)布其信息內(nèi)容(比如匯率、證券信息、氣象信息等),這樣的信息通常是通過其服務系統(tǒng)不同的格式和渠道進行發(fā)布(比如提供給WAP手機)。在進行實施過程中,要直接開放其原來的后臺數(shù)據(jù)庫可能對數(shù)據(jù)來源的安全性造成影響;或者有可能不同的頻道信息來自不同的網(wǎng)站,也就可能來自不同的平臺和數(shù)據(jù)庫。這就需要直接針對HTML,通過調(diào)用應用服務器而不是訪問后臺數(shù)據(jù)庫的方式來獲取網(wǎng)頁信息,并且轉換成為統(tǒng)一的基于XML格式。XML具有獨立于平臺和發(fā)布渠道的特點,可以很好地用于各種不同方式的發(fā)布。
2)網(wǎng)站的重新設計。
目前HTML的固有缺點已經(jīng)使得原來的網(wǎng)站模式很難符合新的需求,特別是在商務之間相互通信的場合,XML的產(chǎn)生和相關技術的成熟,特別是基于XML的XHTML逐漸更新HTML,使得越來越多的網(wǎng)站逐漸升級到基于XML設計的網(wǎng)站。在這個過程中既要將新的內(nèi)容以XML的方式存儲和發(fā)布,同時也要考慮到兼容原來的數(shù)據(jù)。這就需要將原來的數(shù)據(jù)進行組織和轉換。對于數(shù)據(jù)庫,可以通過數(shù)據(jù)庫到XML的轉化來實現(xiàn)(Infoncall也提供了通用的數(shù)據(jù)庫轉換到XML的工具DB2XML)。同時許多靜態(tài)的HTML網(wǎng)頁也需要轉換,其中攙雜了許多重要的信息。Infoncall HTML2XML也提供了這樣機制,既可以將HTML轉換成的XHTML,也可以將其轉換為獨立于應用的XML通用格式,然后通過XSL進行網(wǎng)站的發(fā)布。這將是新一代網(wǎng)站發(fā)展中的重要環(huán)節(jié)。
穎科公司供稿 CTI論壇編輯