穎科HTML2XML白皮書
InfOnCall HTML2XML
2001/12/05
1.術(shù)語(yǔ)
HTML2XML 模板生成器
HTML2XML 解析引擎
2.簡(jiǎn)介
Infoncall提供了一套HTML2XML工具,用以將HTML文檔自動(dòng)轉(zhuǎn)換為XML文檔。目前主要針對(duì)以表格數(shù)據(jù)為核心(data-centric)的HTML格式文件。這是由于XML標(biāo)準(zhǔn)主要是用以精確標(biāo)識(shí)所包含的數(shù)據(jù),而有進(jìn)一步應(yīng)用需求的HTML文件多以含有Table的 Data-Centric文件為主。目前該工具功能主要包括:
3.背景
Internet的廣泛應(yīng)用和飛速發(fā)展使得以HTML表達(dá)的Web成為了信息的主要發(fā)布渠道之一。人們可以通過WWW瀏覽豐富的信息資源。而Web越是普及,就越迫切地要求信息內(nèi)容不僅容易表現(xiàn),而且能被應(yīng)用方便地獲取,以提供服務(wù)之間的自動(dòng)化和互操作。人們要求來自Web的信息以結(jié)構(gòu)化的方式來訪問。W3C制定的可擴(kuò)展標(biāo)記語(yǔ)言(XML)以及其數(shù)據(jù)模型和查詢語(yǔ)言提供了解決之道。可是如今的Web仍然是由許多雜亂的HTML網(wǎng)頁(yè)組成,而不是組織良好的XML文檔。因?yàn)樾枰熏F(xiàn)有的HTML網(wǎng)頁(yè)轉(zhuǎn)換成更靈活應(yīng)用和處理的XML數(shù)據(jù)。為了解決這個(gè)實(shí)際的問題,InfonCall提供了HTML2XML的開發(fā)工具,可以來將基于Web資源包裝成產(chǎn)生所需要的XML文檔。
4.系統(tǒng)架構(gòu)
HTML2XML1.0中包括了兩個(gè)工具:HTML2XML模板生成器和HTML2XML解析引擎。通過該HTML2XML模板生成器的GUI界面和HTML2XML解析引擎,將HTML文件中的<Table>標(biāo)記中的數(shù)據(jù),根據(jù)指導(dǎo)性文件,轉(zhuǎn)換成XML格式數(shù)據(jù),供其他應(yīng)用程序進(jìn)行進(jìn)一步處理。
Infoncall的 HTML2XML 模板生成器提供方便的用戶界面。HTML網(wǎng)頁(yè)內(nèi)容編輯人員,選定所需要的HTML內(nèi)容后,以可視化的圖形方式,用鼠標(biāo)進(jìn)行拖拉操作即可完成對(duì)HTML內(nèi)容的獲取。用戶不必了解所編輯HTML文件的源代碼。當(dāng)保存編輯結(jié)果后,即可生成針對(duì)該類HTML文件的解析模板和DEMO解析結(jié)果。
HTML2XML解析引擎支持兩種用戶界面:Service和API。Service界面不需要用戶有較深的編程經(jīng)驗(yàn);API界面為開發(fā)人員提供更靈活的編程接口。模板使用人員在開發(fā)具體應(yīng)用時(shí),通過parser 解析引擎裝載不同模板,解析得到相應(yīng)的結(jié)果。解析結(jié)果返回XML格式的字符串和保存為指定文件,以供進(jìn)一步處理。若模板裝載發(fā)生錯(cuò)誤或開發(fā)人員未指定模板,解析引擎則按無模板的方式進(jìn)行處理。此時(shí),解析引擎解析所有Table中的數(shù)據(jù)到XML文件中。
5. 產(chǎn)品功能和特點(diǎn)
5.1 產(chǎn)品功能
Infoncall的HTML2XML工具,提供以下功能:
5.2 產(chǎn)品特點(diǎn)
Infoncall的HTML2XML開發(fā)工具將給您帶來如下的優(yōu)勢(shì):
6.應(yīng)用前景
Infoncall HTML2XML工具可以應(yīng)用的情景的有:
1)網(wǎng)站與增值服務(wù)提供商的數(shù)據(jù)交換。
一般的情形,網(wǎng)站已經(jīng)通過Internet發(fā)布其信息內(nèi)容(比如匯率、證券信息、氣象信息等),這樣的信息通常是通過其服務(wù)系統(tǒng)不同的格式和渠道進(jìn)行發(fā)布(比如提供給WAP手機(jī))。在進(jìn)行實(shí)施過程中,要直接開放其原來的后臺(tái)數(shù)據(jù)庫(kù)可能對(duì)數(shù)據(jù)來源的安全性造成影響;或者有可能不同的頻道信息來自不同的網(wǎng)站,也就可能來自不同的平臺(tái)和數(shù)據(jù)庫(kù)。這就需要直接針對(duì)HTML,通過調(diào)用應(yīng)用服務(wù)器而不是訪問后臺(tái)數(shù)據(jù)庫(kù)的方式來獲取網(wǎng)頁(yè)信息,并且轉(zhuǎn)換成為統(tǒng)一的基于XML格式。XML具有獨(dú)立于平臺(tái)和發(fā)布渠道的特點(diǎn),可以很好地用于各種不同方式的發(fā)布。
2)網(wǎng)站的重新設(shè)計(jì)。
目前HTML的固有缺點(diǎn)已經(jīng)使得原來的網(wǎng)站模式很難符合新的需求,特別是在商務(wù)之間相互通信的場(chǎng)合,XML的產(chǎn)生和相關(guān)技術(shù)的成熟,特別是基于XML的XHTML逐漸更新HTML,使得越來越多的網(wǎng)站逐漸升級(jí)到基于XML設(shè)計(jì)的網(wǎng)站。在這個(gè)過程中既要將新的內(nèi)容以XML的方式存儲(chǔ)和發(fā)布,同時(shí)也要考慮到兼容原來的數(shù)據(jù)。這就需要將原來的數(shù)據(jù)進(jìn)行組織和轉(zhuǎn)換。對(duì)于數(shù)據(jù)庫(kù),可以通過數(shù)據(jù)庫(kù)到XML的轉(zhuǎn)化來實(shí)現(xiàn)(Infoncall也提供了通用的數(shù)據(jù)庫(kù)轉(zhuǎn)換到XML的工具DB2XML)。同時(shí)許多靜態(tài)的HTML網(wǎng)頁(yè)也需要轉(zhuǎn)換,其中攙雜了許多重要的信息。Infoncall HTML2XML也提供了這樣機(jī)制,既可以將HTML轉(zhuǎn)換成的XHTML,也可以將其轉(zhuǎn)換為獨(dú)立于應(yīng)用的XML通用格式,然后通過XSL進(jìn)行網(wǎng)站的發(fā)布。這將是新一代網(wǎng)站發(fā)展中的重要環(huán)節(jié)。
穎科公司供稿 CTI論壇編輯