|
“中文新聞信息技術(shù)標(biāo)準(zhǔn)”是科技部2003年11月立項(xiàng)的國(guó)家“十五”重大科技攻關(guān)專項(xiàng),包括“中文新聞信息置標(biāo)語(yǔ)言”(簡(jiǎn)稱CNML)和“中文新聞信息分類與代碼”(簡(jiǎn)稱《分類標(biāo)準(zhǔn)》)兩個(gè)標(biāo)準(zhǔn)。CNML是基于XML技術(shù)制定的,既要參照國(guó)際上相關(guān)的通行標(biāo)準(zhǔn),又要體現(xiàn)我國(guó)國(guó)情和中文特點(diǎn),并兼有跨媒體、簡(jiǎn)潔靈活、擴(kuò)展性好的優(yōu)點(diǎn)!斗诸悩(biāo)準(zhǔn)》是在深入研究和博采眾長(zhǎng)的基礎(chǔ)上制定的,既借鑒國(guó)際新聞同行的經(jīng)驗(yàn),又匯集國(guó)內(nèi)各新聞單位的成果,具有涵蓋面廣、新聞特點(diǎn)明顯、擴(kuò)展性好、易于推廣的特點(diǎn)!斗诸悩(biāo)準(zhǔn)》還是制定CNML中的元數(shù)據(jù)和受控詞表所依據(jù)的基礎(chǔ)資源,因此,這兩個(gè)分標(biāo)準(zhǔn)既獨(dú)立成標(biāo),又相互依存。兩個(gè)標(biāo)準(zhǔn)分別在2005年9月2日和9月29日通過(guò)了審查,形成了標(biāo)準(zhǔn)報(bào)批稿。2005年11月7日,國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)組織了對(duì)該課題的驗(yàn)收會(huì),課題成果獲得了與會(huì)專家的高度評(píng)價(jià)。目前,這兩個(gè)標(biāo)準(zhǔn)已被國(guó)家標(biāo)準(zhǔn)委頒布(CNML:GB/T20092-2006,分類標(biāo)準(zhǔn):GB/T20093-2006),2006年5月1日開始實(shí)施。
一、“中文新聞信息置標(biāo)語(yǔ)言”標(biāo)準(zhǔn)簡(jiǎn)介
隨著我國(guó)新聞事業(yè)和信息網(wǎng)絡(luò)技術(shù)、特別是互聯(lián)網(wǎng)的飛速發(fā)展,新聞信息的數(shù)量以爆炸般的速度不斷增長(zhǎng),新聞信息的表現(xiàn)形式和發(fā)布渠道日趨多樣化,多媒體已經(jīng)成為新聞傳媒發(fā)展的新趨勢(shì),如何有效地組織和管理日益龐大的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),充分地整合、挖掘并利用豐富的新聞信息資源,拓展新聞信息服務(wù)的新領(lǐng)域、新境界,就成為新聞傳媒業(yè)界面臨的嚴(yán)峻挑戰(zhàn):中文新聞標(biāo)識(shí)語(yǔ)言標(biāo)準(zhǔn)是用于新聞信息創(chuàng)建、采集、加工、發(fā)布、評(píng)估反饋各個(gè)生命周期中使用的與國(guó)際接軌、又有中國(guó)特色的多媒體新聞信息元數(shù)據(jù)規(guī)范。該技術(shù)標(biāo)準(zhǔn)采用了XML和RDF技術(shù),支持文字、圖片、圖形、音頻、視頻等多種媒體類型以及多媒體混合的新聞信息的描述,支持對(duì)新聞信息間關(guān)系和語(yǔ)義的描述,為新聞信息的自動(dòng)解釋、交換和處理等新業(yè)務(wù)的發(fā)展留有余地。該標(biāo)準(zhǔn)具有良好的擴(kuò)展性和實(shí)用性,可用于多媒體新聞信息在通訊社、報(bào)社、廣播、電視臺(tái)、網(wǎng)站以及新聞信息用戶之間進(jìn)行交換和共享。中文新聞標(biāo)識(shí)語(yǔ)言標(biāo)準(zhǔn)有以下技術(shù)特點(diǎn):
1.總體技術(shù)路線特點(diǎn)
“中文新聞信息置標(biāo)語(yǔ)言”CNML總體技術(shù)路線涵蓋了四方面內(nèi)容。第一,標(biāo)準(zhǔn)突出體現(xiàn)了CNML的兩個(gè)重要主體,一為用于交換的數(shù)據(jù),二為數(shù)據(jù)之間的語(yǔ)義關(guān)系;第二,通過(guò)建模方法構(gòu)建了統(tǒng)一的標(biāo)準(zhǔn)概念模型,在此概念模型的基礎(chǔ)上,采用XML和RDF兩種技術(shù)方法設(shè)計(jì)兩套標(biāo)準(zhǔn)Schema;第三,CNML中的通用新聞對(duì)象采用了一種抽象的表示形式,真正的新聞對(duì)象只在實(shí)例化時(shí)才進(jìn)行替代,以實(shí)現(xiàn)標(biāo)準(zhǔn)良好的擴(kuò)展性;第四,在標(biāo)準(zhǔn)中充分定義了標(biāo)準(zhǔn)中可能出現(xiàn)的信息結(jié)構(gòu)和語(yǔ)義邏輯關(guān)系。
2.標(biāo)準(zhǔn)概念模型
課題組通過(guò)對(duì)國(guó)際、國(guó)內(nèi)各種已有新聞交換標(biāo)準(zhǔn)和其概念模型的研究分析,發(fā)現(xiàn)了已有標(biāo)準(zhǔn)及概念模型存在的不足,按照新的技術(shù)路線,設(shè)計(jì)出了新的新聞交換的概念模型,解決了國(guó)際IPTC組織NewsML1.2概念模型存在的不足。
3.元數(shù)據(jù)模型的建立
在基于XMLSchema的元數(shù)據(jù)項(xiàng)設(shè)計(jì)中,課題組特別注重了標(biāo)準(zhǔn)設(shè)計(jì)概念的整體統(tǒng)一,以利于使用者可以清晰地理解標(biāo)準(zhǔn)的設(shè)計(jì)思想。
4.面向?qū)ο蟮脑O(shè)計(jì)
在CNML標(biāo)準(zhǔn)設(shè)計(jì)中,采用了數(shù)據(jù)建模思想和面向?qū)ο蟮脑O(shè)計(jì)方法,有效地確立了標(biāo)準(zhǔn)的基礎(chǔ)研究方法。首先,對(duì)標(biāo)準(zhǔn)中涉及到新聞對(duì)象進(jìn)行建模,然后,通過(guò)面向?qū)ο蟮脑O(shè)計(jì)方法定義標(biāo)準(zhǔn)中新聞對(duì)象的基本類和擴(kuò)展類,通過(guò)類的繼承方法逐步從基本類擴(kuò)展出新的子類。
5.易用性強(qiáng)的新聞元數(shù)據(jù)組設(shè)計(jì)
元數(shù)據(jù)在CNML標(biāo)準(zhǔn)中至關(guān)重要。在研制過(guò)程中,課題組對(duì)收集到的大量的元數(shù)據(jù)進(jìn)行了多次討論,去重補(bǔ)遺,對(duì)標(biāo)準(zhǔn)基礎(chǔ)元數(shù)據(jù)的分類規(guī)則進(jìn)行了研究,保證了元數(shù)據(jù)的完備性。
6.關(guān)系模型的設(shè)計(jì)
標(biāo)準(zhǔn)概念模型中引入了新的關(guān)系邏輯,以對(duì)新聞對(duì)象之間的關(guān)系進(jìn)行表達(dá)。在Schema設(shè)計(jì)中關(guān)系元素可以表達(dá)新聞稿件之間、新聞稿件包含的多個(gè)不同內(nèi)容實(shí)體之間的結(jié)構(gòu)和組合關(guān)系,也能表達(dá)受控詞表中受控詞之間的各種類型的關(guān)系,豐富了稿件、內(nèi)容項(xiàng)、受控詞表的關(guān)系表達(dá)。
7.標(biāo)準(zhǔn)擴(kuò)展機(jī)制
CNML在滿足現(xiàn)有新聞數(shù)據(jù)交換的基礎(chǔ)上,為滿足未來(lái)可能出現(xiàn)的數(shù)據(jù)交換的新需求提供了良好的擴(kuò)展機(jī)制。
8.引入新聞信息的數(shù)字簽名功能、智能內(nèi)聯(lián)標(biāo)記等擴(kuò)展機(jī)制 新聞信息的安全性非常重要,考慮到新聞的具體情況,CNML標(biāo)準(zhǔn)中引入了數(shù)字簽名機(jī)制。CNML除了可以在稿件或者內(nèi)容項(xiàng)的元數(shù)據(jù)描述部分提供對(duì)稿件中的各類主題信息的描述以外,還提供了一組可以內(nèi)嵌在稿件正文內(nèi)容中標(biāo)識(shí)主題詞的標(biāo)記,我們稱這組標(biāo)記為內(nèi)聯(lián)智能標(biāo)記。
在以上創(chuàng)新性設(shè)計(jì)的基礎(chǔ)上,CNML同國(guó)際上IPTC組織目前正式發(fā)布的最新的NewsML1.2版本的標(biāo)準(zhǔn)相比,主要有如下特點(diǎn):
(1)CNML的三層概念模型避免了概念和結(jié)構(gòu)的二義性,也不會(huì)像NewsML的二層模型那樣容易陷入嵌套,可避免文件結(jié)構(gòu)因而變得繁復(fù)、可讀性和易用性也相應(yīng)減低的缺陷。
(2)CNML的“稿件關(guān)系集合”結(jié)構(gòu),透過(guò)一組獨(dú)立元素來(lái)描述稿件間的關(guān)系,表達(dá)清晰,簡(jiǎn)單易用。簡(jiǎn)化了聯(lián)系相關(guān)新聞內(nèi)容所需步驟,大大彌補(bǔ)了NewsML在這方面欠缺的靈活性。
(3)CNML在結(jié)構(gòu)上通過(guò)必選元素實(shí)現(xiàn)了“標(biāo)準(zhǔn)必選集”;通過(guò)可選元素實(shí)現(xiàn)了“標(biāo)準(zhǔn)擴(kuò)展集”,通過(guò)規(guī)范的擴(kuò)展機(jī)制實(shí)現(xiàn)了“自定義擴(kuò)展集”,這樣可以滿足不同用戶在不同層次采用統(tǒng)一標(biāo)準(zhǔn)進(jìn)行新聞信息的交換。通過(guò)部分面向?qū)ο蟮脑O(shè)計(jì)技術(shù)引入“抽象類”,解決了標(biāo)準(zhǔn)元數(shù)據(jù)設(shè)計(jì)上的共性和特性對(duì)立與統(tǒng)一的問(wèn)題。
二、“中文新聞信息分類與代碼”標(biāo)準(zhǔn)簡(jiǎn)介
中文新聞信息作為社會(huì)信息的重要組成部分,迫切需要通過(guò)標(biāo)準(zhǔn)化進(jìn)行規(guī)范,以便實(shí)現(xiàn)新聞行業(yè)之間、新聞行業(yè)和廣大用戶之間的新聞信息交換、存儲(chǔ)、處理和共享。實(shí)現(xiàn)新聞信息分類體系的統(tǒng)一和規(guī)范,是中文新聞信息標(biāo)準(zhǔn)化的重要組成部分!吨形男侣勑畔⒎诸惔a》國(guó)家標(biāo)準(zhǔn)有利于進(jìn)一步開發(fā)和整合全社會(huì)的中文新聞信息資源;不僅為新聞信息分類工作人員提供分類標(biāo)引的依據(jù),也為實(shí)現(xiàn)中文新聞信息分類自動(dòng)化打下一個(gè)可靠的基礎(chǔ)!吨形男侣勑畔⒎诸惔a標(biāo)準(zhǔn)》(以下簡(jiǎn)稱《分類標(biāo)準(zhǔn)》)有以下技術(shù)特色:
1.立類原則,堅(jiān)持主題立類為主,學(xué)科立類為輔 新聞信息綜合性強(qiáng),容易形成專題的特點(diǎn),決定了新聞分類法適宜按“主題內(nèi)容”聚類。按主題立類的方法,不但符合新聞信息的特點(diǎn),而且還能打破體系分類法嚴(yán)格的隸屬關(guān)系,不受學(xué)科系統(tǒng)性約束,將一些新聞信息量大,在學(xué)科分類中處于較低地位的類目,提升為基本大類或二級(jí)類目!斗诸悩(biāo)準(zhǔn)》的一、二級(jí)類較明顯地體現(xiàn)了主題立類的原則。《分類標(biāo)準(zhǔn)》在堅(jiān)持突出新聞信息個(gè)性的同時(shí),也遵循分類法從總到分、從一般到具體揭示客體對(duì)象的邏輯性、系統(tǒng)性的共性!斗诸悩(biāo)準(zhǔn)》中較低層的類目,往往涉及更為細(xì)致、深入的專業(yè)問(wèn)題,采用專業(yè)和學(xué)科輔助立類,有助于提高類目間的層次性和系統(tǒng)性。
2.類目設(shè)置,兼顧科學(xué)性、實(shí)用性、穩(wěn)定性和可擴(kuò)展性
《分類標(biāo)準(zhǔn)》類目的設(shè)置兼顧了科學(xué)性和系統(tǒng)性、實(shí)用性和服務(wù)性、穩(wěn)定性和兼容性、前瞻性和可擴(kuò)展性的原則。
《分類標(biāo)準(zhǔn)》將政治、經(jīng)濟(jì)、文化確立為三大部類,作為劃分一級(jí)類目的基礎(chǔ)。采用新聞主題與學(xué)科相結(jié)合的立類方法,使分類體系具有主題的直接性和學(xué)科的科學(xué)性。在類目劃分上,《分類標(biāo)準(zhǔn)》采取從總到分、從一般到具體的層級(jí)分類方法,并根據(jù)新聞信息的本質(zhì)屬性或特征予以系統(tǒng)化,形成了包括主表、復(fù)分表以及編制原則等在內(nèi)的科學(xué)、完整、系統(tǒng)的分類法體系。《分類標(biāo)準(zhǔn)》在保證分類體系科學(xué)性、邏輯性的同時(shí),從實(shí)用性、服務(wù)性角度出發(fā),把一些新聞信息量大、社會(huì)廣泛關(guān)注的內(nèi)容跨越邏輯層次,作為一級(jí)類列出。《分類標(biāo)準(zhǔn)》利用類目說(shuō)明,對(duì)某些不易理解的類目進(jìn)行內(nèi)容說(shuō)明,以便使用者理解;通過(guò)設(shè)立“參見”類目,為用戶查詢相關(guān)主題信息提供向?qū)А?/P>
《分類標(biāo)準(zhǔn)》在一、二級(jí)類目的設(shè)置上,充分考慮到與國(guó)計(jì)民生、社會(huì)發(fā)展息息相關(guān)的各個(gè)重要領(lǐng)域,總結(jié)我國(guó)主要新聞媒體數(shù)十年分類工作的經(jīng)驗(yàn),借鑒國(guó)外的相關(guān)標(biāo)準(zhǔn),力求使其具有相對(duì)的穩(wěn)定性;三級(jí)及其以下類目的設(shè)置,難以完全滿足各類媒體的所有需求,特別是某些專業(yè)性強(qiáng)的小類。因此《分類標(biāo)準(zhǔn)》采用分類與主題詞標(biāo)引來(lái)解決。另外,鑒于各新聞媒體都有自己的特點(diǎn)和新聞信息收集重點(diǎn),對(duì)《分類標(biāo)準(zhǔn)》的使用要求不盡一致,《分類標(biāo)準(zhǔn)》規(guī)定,“(各媒體機(jī)構(gòu))可在統(tǒng)一的分類結(jié)構(gòu)下,根據(jù)實(shí)際需要,制定自己適用的分類細(xì)則或合適的使用本!被谛侣勑畔(dòng)態(tài)性強(qiáng)的特點(diǎn),《分類標(biāo)準(zhǔn)》采用了開放性分類體系結(jié)構(gòu),為隨著社會(huì)發(fā)展不斷涌現(xiàn)的新事物預(yù)留類目擴(kuò)展空間。《分類標(biāo)準(zhǔn)》采用與國(guó)際接軌的純阿拉伯?dāng)?shù)字編碼制度,各級(jí)類目均采用2位數(shù)編碼,從“00”到“99”,為今后類目的進(jìn)一步擴(kuò)充留有充分余地。
3.類名確定,注意用詞的規(guī)范性和靈活性相結(jié)合 事物因類而聚,類目名稱需要科學(xué)規(guī)范,尤其是在一級(jí)基本大類層面上要盡量使用比較穩(wěn)定、明確,且通用性強(qiáng)的受控語(yǔ)言,以準(zhǔn)確體現(xiàn)該類事物的共同特征,使大多數(shù)綜合性新聞信息在一級(jí)類目層次上都有處可歸。但是,由于新聞信息是客觀世界的反映,不斷有新概念、新主題出現(xiàn)。為了體現(xiàn)時(shí)代特色,提高新聞信息的查準(zhǔn)率和查全率,《分類標(biāo)準(zhǔn)》在確定類目名稱時(shí)采取了相對(duì)靈活的辦法:一級(jí)類目名稱基本上采用規(guī)范的受控語(yǔ)言,二級(jí)及二級(jí)以下類目名稱,有些采用了通用、內(nèi)涵外延清晰的自然語(yǔ)言,有些采用了新聞報(bào)道習(xí)慣用語(yǔ),及已經(jīng)約定俗成的詞匯作為類名。類名中性化也是《分類標(biāo)準(zhǔn)》的一個(gè)重要特點(diǎn)?紤]到《分類標(biāo)準(zhǔn)》的推廣不僅面對(duì)國(guó)內(nèi),還包括全球華文媒體,因此,《分類標(biāo)準(zhǔn)》在類目命名上,盡可能減少使用政治色彩濃的詞匯。
制定中文新聞信息技術(shù)標(biāo)準(zhǔn),是促進(jìn)中文信息交換、實(shí)現(xiàn)全球中文新聞信息資源共享和進(jìn)一步開發(fā)利用的需要,是中國(guó)影響世界輿論的需要,也是我國(guó)應(yīng)對(duì)經(jīng)濟(jì)全球化新挑戰(zhàn)的需要。制定這個(gè)標(biāo)準(zhǔn),是我國(guó)幾代新聞工作者的期盼,也是我國(guó)新聞行業(yè)乃至全球華文傳媒的一件大事,必將促進(jìn)中國(guó)及華文地區(qū)新聞傳播和信息咨詢服務(wù)業(yè)的發(fā)展。但是,制定標(biāo)準(zhǔn)的目的在于應(yīng)用,標(biāo)準(zhǔn)的制定只是萬(wàn)里長(zhǎng)征的第一步,我們要在國(guó)家標(biāo)準(zhǔn)委的領(lǐng)導(dǎo)下,繼續(xù)做好標(biāo)準(zhǔn)的培訓(xùn)、應(yīng)用、推廣、維護(hù)、完善工作,為全國(guó)和全世界的華文媒體用戶服好務(wù),力求發(fā)揮更好的作用。
|