建設工程教育網(wǎng) > 建筑文苑 > 工程管理 > 正文
2010-09-21 09:33 來(lái)源網(wǎng)絡(luò ) 【大 中 小】【打印】【我要糾錯】
摘要:
隨著(zhù)以信息化為的新技術(shù)革命的到來(lái),計算機的廣泛應用,使檔案領(lǐng)域進(jìn)入電子時(shí)代。全國檔案信息化建設正在掀起新的熱潮,為檔案管理建設注入了新的活力,加快了檔案帶入信息社會(huì )的腳步。檔案信息網(wǎng)絡(luò )化是在加強檔案信息數字化管理基礎上,逐步向網(wǎng)絡(luò )化發(fā)展。通過(guò)網(wǎng)絡(luò )最大限度的開(kāi)發(fā)利用已開(kāi)放檔案資源,使之更好地為經(jīng)濟和社會(huì )發(fā)展服務(wù)。
漢字識別技術(shù)(簡(jiǎn)稱(chēng)OCR)可以理解為是讓計算機認字的技術(shù)。它通過(guò)光電信號轉換,即文本數據。
1漢字識別技術(shù)的應用價(jià)值漢字識別技術(shù)的應用價(jià)值主要體現在兩個(gè)方面:
一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數據管理技術(shù)提供豐富的數據源。
首先,從庫存檔案的情況來(lái)看,近幾十年來(lái)形成的大量印刷漢字檔案記載了我們黨和國家的重要歷史,對我國現代化事業(yè)的發(fā)展,對精神文明和物質(zhì)文明的建設都有著(zhù)非常重要的利用價(jià)值。但這部分檔案的內容都沒(méi)有文本數據,或者說(shuō)都只是固定在紙質(zhì)載體上的死信息。既使通過(guò)掃描以圖像方式存儲于計算機中,檢索利用也有不便之處,難于滿(mǎn)足現代社會(huì )對檔案信息的多種利用需求。其次,從辦公自動(dòng)化的發(fā)展情況來(lái)看,每年接收的檔案中仍然會(huì )有相當數量的檔案沒(méi)有文本文件,或為外單位來(lái)文,或為丟失損壞等。漢字識別技術(shù)的應用價(jià)值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數據,使深層次的開(kāi)發(fā)利用成為可能,更好地為現代化建設事業(yè)服務(wù)。
另一方面,提供了一種新的檔案目錄數據的錄入方式。
應用計算機以來(lái),漢字錄入只有一種方式,即健盤(pán)錄入。雖然目前漢字鍵盤(pán)錄入的方法有許多種,而且日趨簡(jiǎn)便快捷,已是年輕人必備的職業(yè)技能,但是它畢竟屬于一種技能,不僅需要反應靈敏,手指靈活,而且要熟記錄入的原則、方法和要領(lǐng)。這對于在檔案部門(mén)占有相當比例的中老年同志來(lái)說(shuō),掌握起來(lái)確有難度。因此,鍵盤(pán)錄入方式仍然是影響一些檔案部門(mén)建立檔案目錄信息數據庫的因素之一。OCR軟件為我們提供了一條新的途徑。它通過(guò)“拖拉”的方式,將屏幕上文件的目錄項如標題、文號、責任者等直接移植到檔案目錄數據庫的相應字段中去,簡(jiǎn)單易學(xué),一看就會(huì )。遺憾的是手工“拖拉”速度較慢,而且需要即時(shí)掃描或調用圖像數據,所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數據庫提供了一條前所未有的途徑。而且,如果利用OCR軟件同時(shí)建立新型的綜合檔案信息數據庫,例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。
2漢字識別后生成的文本數據的屬性問(wèn)題
原始性是檔案的基本屬性。漢字識別后生成的文本數據是根據檔案的本源信息,即固定在紙質(zhì)載體上的漢字信息進(jìn)行加工處理:掃描、識別、校對、修改等工序后形成的復制加工品,因此不具有檔案的原始性。
知識性是檔案的又一個(gè)屬性。漢字識別后生成的文本數據如果不計算人工校對后仍然可能存在的微小誤差,應該說(shuō)具有與檔案原件同等的內容,因此具有檔案的知識性。
漢字識別后生成的文本數據是將檔案的內容以特殊的物理方式重新記錄在特殊的載體之上,比以文字的方式記錄在紙質(zhì)載體之上更具有便于傳遞、接收、存儲、利用以及不磨損、不丟失等屬性。因此具有更強的信息性。
漢字識別后生成的文本數據應該說(shuō),它是一種新型的檔案一次信息的復制品或編研開(kāi)發(fā)成果.但作為一種新型的復制品或編研開(kāi)發(fā)成果,因其生成的目的不同,又具有兩種不同的屬性:當以提供利用為目的通過(guò)漢字識別建立文本數據庫時(shí),其文本數據具有類(lèi)似于匯編類(lèi)檔案編研成果的屬性;當以編輯出版紙質(zhì)的檔案編研材料如大事記、組織機構沿革、文件匯編等為目的進(jìn)行漢字識別時(shí),其文本數據不僅具有類(lèi)似于檔案編研成果的屬性,而且具有檔案原始性的基本屬性,因為它們是印刷品或出版物的本源信息。
由此可見(jiàn),漢字識別后生成的文本數據是一種不同于傳統檔案屬性的新型檔案信息。
3漢字識別技術(shù)的應用方式
漢字識別技術(shù)在檔案管理工作中的應用,根據其目前的技術(shù)水平主要適用于近幾十年來(lái)印刷漢字檔案內容的識別,圖像、文本數據的形成、存儲和目錄數據的錄入等項工作。主要的應用方式有:
3.1利用者閱讀紙質(zhì)檔案的內容之后,對其所需要的內容進(jìn)行掃描和漢字識別,或打印出統一格式的利用摘錄,或直接提供文本拷貝。
這種利用方式的優(yōu)點(diǎn)主要有:方便用戶(hù),可減少信息利用過(guò)程中的重復勞動(dòng);不給檔案人員增加建庫的工作負擔;節省建庫所需的經(jīng)費開(kāi)支。
其缺點(diǎn)主要有:不能為全文檢索提供數據,實(shí)現深層次開(kāi)發(fā)檔案信息資源的目的;存在對同一檔案內容重復進(jìn)行掃描和漢字識別的可能性。
3.2輸入檔案目錄這是加快檔案目錄信息數據庫建設的一條新路,能夠使更多的人員從事輸入工作,但輸入速度不甚理想,而且成本費用相對較高。
3.3掃描、保存圖像并提供利用,只針對利用者需要的圖像內容進(jìn)行漢字識別等利用服務(wù)。
這種方式必須在已有文件目錄的前提下使用。其優(yōu)點(diǎn)主要有:
a.具有提供原件和提高信息利用效率的雙重優(yōu)勢;
b.檔案人員不承擔漢字識別后生成的文本數據的維護工作。
其缺點(diǎn)主要有:
a.同第一種利用方式的缺點(diǎn)。
b.漢字識別技術(shù)要求圖像的光學(xué)分辨率較高,一般為3000dpi,而一般圖像的分辨率僅為150dpi,因此所需的存儲空間較大,約是一般圖像的2~3倍,那么,所需的存儲成本也要高得多。這種高代價(jià)的圖像存儲僅用來(lái)滿(mǎn)足用戶(hù)利用識別的需要似乎有點(diǎn)得不償失。因此低分辨率的圖像也能進(jìn)行漢字識別,只是識別率相對較低而已。我們也曾做過(guò)對比實(shí)驗,同一頁(yè)印刷質(zhì)量良好的B5紙型文件約500字,以300dpi進(jìn)行掃描,識別率為100%;以150dpi進(jìn)行掃描,識別率為99.4%(誤識3字)。這對于一般用戶(hù)而言無(wú)所謂的。
3.4建立文本數據庫這種方式也應在已有文件目錄的條件下使用。其優(yōu)點(diǎn)主要有:
節省存儲空間和存儲成本。仍以一頁(yè)B5型紙約500漢字的文件為例,以文本方式存儲約需1000字節;以圖像方式存儲約需25000字節。因此,同量漢字的文本方式存儲比圖像方式存儲成本低得多。
為全文檢索提供數據,能夠實(shí)現深層次開(kāi)發(fā)利用檔案信息資源的目的。
其缺點(diǎn)主要有:建立文本數據庫的工作量較大;不能滿(mǎn)足用戶(hù)閱讀檔案原件的需求;由于沒(méi)有圖像隨時(shí)提供依據,不便于對文本數據的準確性進(jìn)行核實(shí);輸入目錄并保存圖像;輸入目錄、建立文本數據庫;保存圖像、建立文本件數據;輸入目錄、保存圖像并建立文本數據庫。
這是充分發(fā)揮OCR軟件功能,深層次開(kāi)發(fā)利用檔案信息資源的應用方式。但工程量較大,人力、資金需求較多,建庫周期較長(cháng)。
隨著(zhù)漢字識別技術(shù)水平的提高和應用的普及,可能還會(huì )產(chǎn)生新的應用方式,但無(wú)論使用哪一種方式,都必須符合本單位檔案管理工作的實(shí)際,統籌考慮檔案狀況、人員配備、經(jīng)費能力、辦公自動(dòng)化水平、檔案現代化建設發(fā)展規劃等方面的因素,以切實(shí)提高檔案信息資源開(kāi)發(fā)利用能力為目的,這樣才能收到事半功倍的效果。
1、凡本網(wǎng)注明“來(lái)源:建設工程教育網(wǎng)”的所有作品,版權均屬建設工程教育網(wǎng)所有,未經(jīng)本網(wǎng)授權不得轉載、鏈接、轉貼或以其他方式使用;已經(jīng)本網(wǎng)授權的,應在授權范圍內使用,且必須注明“來(lái)源:建設工程教育網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其法律責任。
2、本網(wǎng)部分資料為網(wǎng)上搜集轉載,均盡力標明作者和出處。對于本網(wǎng)刊載作品涉及版權等問(wèn)題的,請作者與本網(wǎng)站聯(lián)系,本網(wǎng)站核實(shí)確認后會(huì )盡快予以處理。
本網(wǎng)轉載之作品,并不意味著(zhù)認同該作品的觀(guān)點(diǎn)或真實(shí)性。如其他媒體、網(wǎng)站或個(gè)人轉載使用,請與著(zhù)作權人聯(lián)系,并自負法律責任。
3、本網(wǎng)站歡迎積極投稿。