高效能的佛典研究資料管理模式——試論超文件標記語言(HTML)及HTML Help在佛典研究資料庫上之應用
指導老師:維習安博士 研 究 生 :張 瓊 夫 口試委員:惠敏法師、廣淨法師 中 華 民 國 八 十 八 年 八 月
目 次
第四章 以HTML及HTML Help建構與管理佛典研究資料庫
隨著電腦的普及與其功能的日益提昇,再加上由於現代社會中資訊的急速膨脹所造成資料量的大增,導致傳統管理資料的方式產生瓶頸的情況下,資料庫[1]的使用就成了當務之急。藉著資料庫管理系統處理數位化資料的超高能力來大幅提昇整體的效率,在社會上早就行之有年。即使在佛學界也有一些成果發表,如:印順文教基金會的「印順法師佛學著作集」、中華電子佛典協會(CBETA)所發行的大正藏光碟版等[2]。 然而,當我們稍為觀察一下周遭的佛典研究者找尋、整理、使用研究資料的方式時,不禁感到訝異與納悶:為何他們仍舊停留在傳統那種沒有效率的方法上,而沒有絲毫的改進?是他們不知道有高效能的管理方式[3]可以應用在佛典研究資料上?如使用資料庫[4]等。或是覺得太難了,需要花很多時間來學習?還是有其他的因素就不得而知。總之,如何將佛典研究資料以資料庫的模式來管理這方面的研究似乎還處於真空狀態,本文就試著以自身建構「阿毘達磨研究資料庫」[5]的經驗與心得為基礎,及在佛研所三年對佛典研究的認識,來闡述如何藉由這種高效能的管理的模式大幅提昇佛典研究資料的使用效率,並希望能透過對佛典研究資料庫性質上的分析以及建構與維護此一資料庫的探討,讓更多的佛典研究者能善用這項工具,並期能發揮拋磚引玉的功效,讓更多的佛典研究者重視資料庫的應用。 此外,須特別說明的是:本論文所提及有關資料庫在建構與管理佛典研究資料的方法上是以超文件標記語言(HyperText Markup Language, HTML)[6]及HTML Help[7]這兩項工具的使用為限,而不廣泛的論及所有建構、管理資料庫的方法。主要的原因,除了筆者本身能力不足的因素外,實用、易學、經濟是最大的因素。 由於佛典研究資料包括了經、論、疏等之一手資料,以及近代學者的研究成果,如書籍、期刊等所組成,可以說從經(論、疏)名、書(刊)名到目錄、內文等都是資料庫所要管理的對象,因此佛典研究資料庫很難將其視為一「關連式系統」(relational system)[8]來建構與管理,同時也使得一些時下常用的資料庫軟體,如:Access、Delphi、Visual Basic、Visual Foxpro、Power Builder等可能也派不上用場。至於SGML(Standard Generalized Markup Language)[9] 雖然在歐美某些大學的電子文件與人類學科計算中心(electronic text and humanities computing center)中是最常被使用到的工具,究其原因主要還是由於它能讓使用者自行定義所需的標記語言(markup language)之故,這一點對漢譯佛典(如大正藏等)電子化的工作者來說尤其重要。然而對一般的佛典研究者來說,除非他對格式的要求很嚴格,否則所需要的資料庫大體上使用HTML來建構就已足夠[10]。至於HTML Help 的使用主要是為了彌補以HTML建構成的資料庫無法檢索的缺憾,讓此佛典研究資料庫的功能更加完備[11]。此外,HTML與HTML Help 易學的特質對佛典研究者來說應是更重要的考量,因為這項特質使得佛典研究者自行建構資料庫的想法變成可能。換言之,藉著HTML與HTML Help之助,佛典研究者已經有能力擺脫傳統上沒有效率的管理方式,走向高效能的管理時代。不但如此,使用HTML與HTML Help來建構、管理資料庫還是免費的,不需額外花錢[12]。 就是因為HTML與HTML Help的實用、易學、經濟這三項特點,才使得本論文會以它們作為高效能管理佛典研究資料的工具。
本研究所採用的方法迥異於一般的佛學研究法,如:語言文獻、思想比較、歷史考證、宗教社會學、宗教人類學等等的研究法,而是較類似於自然科學如:物理、化學的實驗方法。「阿毘達磨研究資料庫」的建構可說是實驗的結果,而論文的部份算是實驗報告,兩者間有密切的關連性。亦即論文的部份是將自身建構「阿毘達磨研究資料庫」的經驗與心得加以分析、歸納、整理後結合了對佛典研究資料的認識與了解的情況下,才逐步來完成的。由於資料庫的建構與論文本身屬不同的模式,有不同的性質,因此以下就將這兩個部份分開來探討。 (一) 資料庫的建構方面: 在資料庫的建構上,整個作業流程可簡述如下: 資料蒐集 分類 數位化 除錯 修飾 加入檢索功能
【資料蒐集】 本資料庫是以近代學者對阿毘達磨的研究成果為蒐集的範圍,主要是以阿毘達磨的語言、文獻、思想這三方面的研究為重點,分別就中文、日文、英文這三種語言的書籍、期刊加以收錄。期能藉由地毯式的搜索,完整的呈現出目前的研究現況。為使此工作能更有效率的進行,我使用了三種工具。第一種為本所網資室所製作的「中華佛學研究所專輯」光碟,裡面有整個圖書館藏,方便我尋找所要的資料。第二種為厚觀法師在《諦觀雜誌》所發表的一篇文章:「日本的阿毘達磨佛教研究」[13]。在這篇文章中分門別類的蒐集了當代日本的研究成果,讓我省下了不少摸索的時間。至於第三種為本所副所長惠敏法師從日本帶回來的日文佛學期刊目錄,裡面收錄了一百多種日文佛學期刊的目錄,而且它還是個電子檔,可透過 Word或漢書這一類的文書處理系統所提供的「尋找」功能,輕鬆找出所需要的期刊資料。此外,南投的「德妙佛學資料中心」的館藏有以書籍的方式出版[14],且在其網站上也可看到全部藏書[15],可惜完全沒有分類,使用者只能一本一本的從頭看到尾,甚為不便。
【分類】 本資料庫的分類方式是基於筆者本身研究的領域並考察當今佛學界在阿毘達磨的研究上常用的三種佛學研究法:文獻、語言文字、思想而將所有資料先分為這三大類和一個包含指引與解題的阿毘達磨入門以及無法用這四類來涵蓋的其他類。接著,再根據每一筆資料的性質下去細分,如文獻研究可分為北(藏)傳之文獻研究與南傳之文獻研究,思想研究可分為單一論書的思想研究、單一部派的思想研究…等。在細目分類中的資料若同時有書籍與期刊,則又再分為書籍類與期刊類。如此分類的好處在於完全以近代學者們研究的問題、主題為導向,可以快速的了解、掌握近代學者的研究動向與成果。至於為何不採用像圖書館常用的佛教圖書分類法,如李世傑、香光尼眾佛學院圖書館所提出的[16],原因是那種分類法是站在圖書館員的角度來分的,而不是專為佛學研究者來分的,因此可能較難滿足佛學研究者的需求。
【數位化】 數位化的工作是整個資料庫製作的核心,它不單只是資料的輸入,更重要的是將原本書面格式的資料轉變成具有多功能性質[17]的電子文件(Electronic Document)以提昇整體的使用效率。而在這轉變的過程中,電腦軟體的使用扮演著關鍵性的角色。建構資料庫的軟體不少,但在考量本資料庫的形式、軟體學習的難易、經費等因素後,決定以製作首頁(Home Page)的超文件標記語言(HTML) 為使用的工具。
【除錯】 在數位化的過程中,輸入錯誤或分類錯誤是常有的事,因此在數位化的工作告一段落後,重新檢視一遍作最後的修正是重要而必要的。如此,才能減少資料誤用的可能性並提高使用的效率。
【修飾】 修飾是希望能提供使用者一個更具親和力的介面,不但能享受電腦高速處理資料的成果,而且在每次使用時都能很愉快。
【加入檢索功能】 由於本資料庫是以超文件標記語言(HTML)所寫成,所以資料庫本身並不具備檢索功能,為使此資料庫發揮更大的功效,指導老師推薦我使用微軟(Microsoft)公司所發展出來的線上輔助說明系統——HTML Help來彌補這方面的不足。
(二) 論文方面: 論文本身的撰寫是在資料庫的建構幾乎告一段落之後才開始進行的。由於尚未有直接相關的論文可供參考,所以只能憑自己粗淺的認識及與老師們的討論,並參閱少數幾篇較有關係的論文、報告[18]及歐美一些電子文件與人類學科計算中心(electronic text and humanities computing centers)的網站上的資料[19]以及一些線上檢索系統的相關說明[20]等,來做出一個簡要性的論述。
幾乎每個研究都有其局限性,因此也就有其適用範圍,自然本研究也不例外。本研究適合於具有下列特質的佛典研究者: A具有前瞻性,且願意學習、嘗試新的事物: 學習一項新的東西總會有短暫的陣痛期,學習建構資料庫也是一樣。但是,若能了解到資訊科技的運用是必然的趨勢以及善用它所能帶來的便利後,學習過程中的不愉快或許可以減少許多,而且也不會有那麼大的排斥感。這一項特質最為重要,它是進入資料庫領域的關鍵。 B 不滿足於傳統處理資料的方式: 傳統的資料不但佔空間、保存不易,處理起來更是速度慢、效率低,如果有這種感覺者,不妨換個方式,試試資料庫的管理模式,說不定過去所有的困擾都會一掃而空。 以上這兩點特質是基本的要求,如果自己想嘗試建構一個資料庫的話,最好還能具備以下這兩點特質: A 具有固定的研究領域: 不可諱言的,建構一個資料庫隨其簡單或繁複或多或少都需要花點時間。因此,有著固定的研究範疇,或是一部經、一部論,或是一個學派[21]、部派[22]或宗派[23],甚至是佛教史上的一個分期,如原始佛教、部派佛教、初期大乘佛教等都好。否則,好不容易建成的資料庫卻只用過一、二次,那豈不可惜? B對電腦的使用有一定程度的了解: 建一個資料庫雖不難,但至少要熟悉作業系統(如:Windows 95, 98等)的基本操作,及文書處理器(如Word, 漢書等)的使用,否則恐怕很難進行下去。
目前可見到的佛學資料電子化的成果主要可分為三類:第一類即所謂的「電子佛典」,一開始尚未以光碟的形式發行時,許多發心的人士便將電子化後的經典掛在網站[24]上供人免費下載(Download),然而或許是限於人力與技術等等的問題使得品質一直無法突破。此種情況終於在中華電子佛典學會(CBETA)成立後獲得改善。此單位目前正致力於《大正藏》電子化的工作,已發行第五至第十冊的光碟版[25]。此光碟版不但包涵校對嚴謹的藏經原文,亦提供完善的檢索功能,以品質而言,可算是目前所見過最好的漢文電子大藏經。除了漢文佛典外,梵文、巴利文、藏文、蒙古文、泰文、越南文等佛典的電子化也在世界各地正方興未艾的展開,甚至有的已有成品出來[26],以上是屬於電子佛典的部分。 相對於第一類的佛典(一手資料)的電子化,第二類為近代佛教學者著作集(二手資料)的電子化,最有名的當屬「印順法師佛學著作集」[27]。此著作集有網路版與光碟版,網路版只有普及版而光碟版則包含了學術版與普及版兩種版本。這兩種版本同樣都包含了印老的全部著作,且能顯現中文、梵文、巴利文等不同字體,只不過在檢索系統方面學術版的功能較強而已。整體而言,具有很高的價值,能帶給許多佛教學者相當大的方便。 第三類是屬於工具書的電子化,值得一提的是「佛光大辭典光碟版」[28]。佛光大辭典是目前漢文的佛教辭典中編的最好的一部,不但收錄的辭彙多,且有梵、巴原文,在其光碟版中亦保留了這些特色,並加入了良好的搜尋引擎,可讓使用者快速找到其所要的資料。不過,此光碟版有些小小的瑕疵,如只能在桌上型電腦640*480、筆記型電腦800*600的解析度下正常顯示,其他的解析度下畫面會變得有點難以操作,且查詢到的資料無法單筆列印等。 以上這三類大致上是目前佛學界可見的電子化成果[29],很明顯的在佛典研究資料的電子化工作上還急待努力。
在提論文審核之前與指導老師有多次的會面,第一次主要是請教老師有關於資料庫這個領域的研究方法、研究方向等問題,以便對這方面的研究有一概括性的認識,同時老師也希望我回去思考建構一個資料庫的可能性。起初,我想到的是有關於俱舍論的資料庫,此資料庫包含梵、藏、漢三種語文,方便自己作對讀之用。但不久我就放棄了,因為我覺得這種資料庫的建構需要花相當多的時間,但對自己而言用處有限,且能利益的人也少。後來,我想到既然對阿毘達磨有興趣,而且將來可能會到國外繼續作這方面的研究,那何不利用這個機會先將資料蒐集、整理後做作成一個資料庫呢?經過一段時間的摸索、思考後,在第二次與老師會面時便向老師提出「阿毘達磨研究資料庫」的建構計畫,老師聽完之後表示贊同,但覺得此計畫太大,不妨先作其中一部分,其他的日後再說,徵得老師的同意後便開始動工。第三次為數個月後此資料庫大體完工之時(當然在這其間有多次短暫性的會晤,主要是向老師請教一些技術性的問題,如:漢文的缺字如何解決、梵、巴、藏文如何在瀏覽器中顯現、資料庫如何具有檢索的功能等。),向老師展示成果並尋求其意見,同時也向老師表明先提論文計劃審核的想法,在老師的應允下,便將資料庫最後的潤飾、美化等工作先行擱下,開始著手論文審核計畫書的撰寫。 原本我的想法很單純,以為只要把自己建構資料庫的方法、步驟以論文的寫作方式來表達就可輕鬆過關,沒想到卻碰到了軟釘子:老師覺得我應該把它當作一篇學術論文來撰寫,而不是一本建構資料庫的參考手冊。重新調整好心態並將整個內容大幅度修訂後再與老師約談,老師覺得已有論文的味道出來,但章節的編排與內容的充實上可再加強。如此又經過了幾次的增補、修改後老師終於應允可提論文計劃審核。 整體而言老師對我的指導是很自由、開放的,讓我有最大的發揮空間,而不會給我太多的限制。而我也只有在遇到瓶頸或做出某些成果時,才會去找他討論或尋求協助,老師完全站在一個協助者的立場,提出一些建議或是該注意的事項讓我能及時做些修正與調整。這樣的指導方式讓我能把心中的想法具體表現出來而又不會錯誤百出。我很喜歡這種方式,也很感激老師的指導。
本論文可分為本文與附錄兩部份,本文部份著重於理論上的闡述,而附錄部份則偏向於實際的操作。本文由三章所構成,旨在說明佛典研究資料庫在資料管理上與傳統模式相較其殊勝之處,同時也說明藉著超文件標記語言(HTML)與HTML Help之助,佛典研究者想建構一個高效能的資料庫變得可能。 第一章是對數位化資料的特質與管理作簡要的說明,以當作整篇論文的開場白,同時也點出數位化資料的重要性。第二章則是在第一章的基礎上進一步說明數位化的佛典研究資料為何在管理上能有高效能的表現。第三章則正式進入資料庫的討論,說明佛典研究資料庫的定位與及其價值。第四章是要讓佛典研究者知道如何自行建構這樣一個高效能的佛典研究資料庫,有何該注意的事項及可使用的方法? 至於附錄的部份,附錄一是說明使用HTML及HTML Help這兩樣工具來建構佛典研究資料庫的具體步驟及資料庫的維護這兩個課題上。這部份的內容可視為佛典研究資料庫甚至是一般的佛學研究資料庫的建構與維護的參考手冊。附錄二是對「阿毘達磨研究資料庫」的簡介,期能讓使用者快速掌握使用的技巧,以享受其所帶來之便利。
資料數位化是走進高效能管理的第一步,因為傳統上管理資料的效能之所以低落,主要的原因就在於資料是記錄於紙等的媒介上,由於這些媒介本身性質上的限制,使得資料在管理上始終是費日損功、毫無效率。因此,想根本解決此問題,就必須從轉換媒介著手,而資料數位化正是這樣的工作。
資料庫可說是由許多的數位化資料[31]所構成,而每一個數位化資料都是透過數位化的過程才得以從原始的資料模式(如:書籍、期刊中的文字、圖表等)轉變過來。因此若想知道為何數位化資料才可能會有高效能的管理,就必須對最基本的數位化過程有一清楚的認識與了解。 所謂數位化的過程就是將原本記載於甲骨、竹簡、絹、紙…等物質上的資料,不論是文字、圖、表…等型態,透過數位化的技術將其轉變成為一連串 0與1 這種可由電腦來處理的訊號的過程。藉著數位化的過程,數位化資料也因此而產生。然而,數位化資料相較於原始資料而言有何殊勝之處呢?為何需要將資料數位化呢?想要解答此問題就必須從這兩種資料本身的性質來作分析、比較。 尚未數位化之前的原始資料不論是記錄在紙上或是其他的物質上,由於這些物質本身具有的屬性而使得原始資料的性質同樣的也受此屬性的規範。比如說殷商時代所用的甲骨文是一種記錄在牛骨、龜殼上的文字,由於牛骨、龜殼質地非常的堅硬且笨重,體積大、數量又不多,因此使得甲骨文不論是在寫作、複製、搬運、傳播、整理…等方面都會造成許多的困難與不便。隨著人類文明的進展,新的記錄文字等資料的物質,如絹、帛、竹簡等亦相繼為人們所採用,直到造紙術的發明,「紙」成了人們記錄資料最方便的東西。 儘管相較於之前記錄資料的物質而言,紙已經是最完善的了,且記錄在紙上的資料也開展出人類文明的花朵,但是在人類文明高度進展的同時,藉由紙來記錄、傳遞、保存…資料已經愈來愈不能滿足現代人的需求,人們要的是能更方便、更快速、更安全…的來處理資料的方法,而資料數位化正能滿足這樣的需求。到底用紙張來記錄的原始資料與數位化後的資料有何差異呢?我們可以從以下幾個方面來探討:
【內容的調整】 用紙張來記錄的原始資料若遇到增補、修改等需要調整內容的情況時,不論資料是手寫或是打字的形式,在處理上都會比數位化後的資料麻煩許多,相信這是任何一個熟習文書處理軟體的人都會有的感受。
【資料的整合】 記錄在紙上的資料若遇到彼此間需要整合在一起時,唯一的方法就是使用剪刀、漿糊等工具來完成,不但不美觀又很耗費時間。相反的,若所要整合的資料都已經數位化,只要懂得運用合適的軟體來處理,便能在短時間內將此工作圓滿的達成。
【資料的搜尋】 記錄在紙上的資料有個很大的缺點,就是資料的搜尋很沒有效率,不但速度慢、花費時間多、耗損的精神體力更多。但是數位化後的資料可藉由強大的搜尋引擎之助,在短時間內將符合搜尋條件的資料列出,而免除了上述的缺點。
【資料的使用】 記錄在紙上的資料其使用的方式是固定不變的,比如說報紙上的一篇文章,我們可將其剪下後影印複製、放大縮小等,但我們卻沒有辦法將這篇文章中的一段話直接插入我們的報告中當作內容的一部份,除非擦掉重寫或重新打字才行。然而,數位化後的資料其使用的方式相對的就顯得多采多姿。因為數位化後的資料可以藉著電腦中不同的應用軟體而有了多種的使用方式。比如說一段數位化後的文字,透過文書處理軟體我們可以選擇所要的字型、大小、顏色等,同時還可以拷貝、列印。透過網頁編輯軟體,如:FrontPage等可以將其轉變為網頁的內容。透過影像處理軟體,如:PhotoShop、PhotoImpact等文字特效的處理,則可產生各式各樣令人驚嘆的結果。由此可見數位化後的資料具有一個非常重要的特色,就是「多樣化的使用方式」。
【資料的傳播】 記錄在紙上的資料其傳播的方式不外乎就是藉由車、船、飛機等交通工具及人力、獸力的搬運來完成。這樣的傳播方式不但速度慢,成本也高。但是數位化後的資料便無此缺點,特別在今日網路的運用如此發達的情況下,兩者的差異更是顯而易見。
【資料的保存】 記錄在紙上的資料在保存上有許多的顧慮。除了必須防止水、火災的發生外,蟲蛀、紙張日久變黃導致資料毀損也是需要預防的。此外,當資料量大時所佔用的空間、所花的經費、人力等都是要解決的問題。相對於此,數位化後的資料在保存上就相當的容易,同時也較為安全。因為數位化後的資料體積小(從「印順法師佛學著作集」光碟中可得到最好的證明),而且保存這些資料的成本低(如一片空白的CD-R片只要數十元,但卻可以燒錄六、七百MB的資料),保存的時間長(MO片最長可以保存資料達四十年)。此外,數位化後的資料還可透過「加密」、「編碼」等方法讓其他人無法輕易取得資料內容。 此外,數位化資料還有一個獨特性,那就是資源共享。由於數位化資料複製容易且成本低廉,使得資源共享的理念更容易施行,《印順法師佛學著作集》、《CBETA電子佛典系列》便是典型的例子。此外,透過資源共享的方式也使得分工合作變得更有價值。因為佛典研究者大體上有其各自的研究領域,但有時候仍會有參考其他研究領域之資料的可能。因此,若彼此間的資料能相互分享的話,當有需要處理到自身研究領域外的資料時,便能有效率的加以解決。特別在今日台灣的佛學界,若想要迎頭趕上日本、歐美的研究成果,分工合作是唯一可行的路,單打獨鬥只會削弱整體的表現,這是台灣的佛教學者需要特別注意的。
將眾多數位化資料統合在一起便成為一資料庫。然而,光是只有資料庫是不夠的,它必須配合資料庫管理系統(DBMS)、應用程式、硬體設備等才能讓人們方便的來使用。因此,我們可以把數位化資料、軟體、硬體、使用者這四部份統稱為「資料庫系統」。從下面的簡圖[33]中讓我們可更清楚的看出它們彼此間的關係。
【軟體】 軟體部份包括最重要的資料庫管理系統(DBMS)以及其他的應用程式(application)、公用程式(utility)等。資料庫管理系統之所以重要是因為它介於實際資料庫與系統使用者之間,使用者對資料庫所有的存取要求(如增加、刪除、修改某一筆資料等)都是透過資料庫管理系統來處理。這樣做的好處是資料庫管理系統將資料庫提昇至硬體層面之上,使用者不必去了解硬體層面的細節部份,只要曉得如何使用此管理系統即可。應用程式則是讓使用者得以透過資料庫管理系統對資料庫作存取的動作。亦即使用者必須藉著應用程式向資料庫管理系統提出存取的要求,方能存取資料庫中的資料。至於公用程式是用來幫助資料庫管理員執行各種管理工作。 【硬體】 硬體部份指的是能讓使用者順利的透過資料庫管理系統對資料庫完成存取動作的所有物件。然而,隨著資料庫與資料庫管理系統在設計上的不同,所需要的硬體設備相對的也有所差異。譬如一個想放在公司內部網路上,讓各個部門的同仁都能夠存取的資料庫與一個私人的通訊錄資料庫所需的硬體設備是截然不同的。前者可能需要有伺服器(server)與多台PC才能做到,但是後者只要有一台PC就可達成。 【使用者】 使用者大體上可分成三類:程式設計師、資料庫使用者、資料庫管理員。 A程式設計師: 指的是負責撰寫應用程式以便讓資料庫使用者來使用資料庫的人。 當然這些應用程式處理資料的方式都是透過向資料庫管理系統(DBMS)提出請求才得以完成。 B資料庫使用者: 一般想要使用應用程式以便透過資料庫管理系統(DBMS)來存取資料庫中的資料者皆可稱之。 C資料庫管理員: 簡單的說,資料庫管理員就是資料庫的建構者與維護者。它常常是由一組專業人員所組成。
從第一章的論述可以知道數位化資料的特質及其管理方式,對佛典研究資料來說,想要有高效能的管理除了首先要將資料數位化之外,接著就要考慮如何將這些數位化資料作完善的整合,以及整合後的資料該如何透過檢索系統來方便使用。因為完善的整合與檢索才能把數位化資料的優點徹底的發揮。然而,想要將佛典研究資料作一完善的整合,先決條件就是要了解其性質。雖然佛典研究資料的性質很多,但值得注意的地方在第一節中會有詳細的說明。有了第一節的說明後,在第二節中將會說明「整合」的意義為何?為什麼在高效能的管理中,它會扮演如此重要的角色?最後,在第三節中將會對檢索系統作一說明。
佛典研究是佛學研究中的一環,只不過它研究的對象是以佛典為限。佛典研究資料包含了經、律、論、經疏、律疏、論疏等原典或古代祖師大德的著述以及近代歐美、日本、台灣等的研究成果。 面對如此龐大的資料體系,該如何設計一個資料庫才能有效率的來管理是個重要的課題。而第一步要做的就是先了解這些資料的性質,因為了解這些資料的性質才曉得該如何將這些資料作最完善的整合,也唯有透過最完善的整合,資料庫整體的效能才有最佳化的可能。 這麼龐雜的資料所具有的性質當然也非常的多,所幸大部分都是一般資料共通的屬性,真正值得注意、有其獨特性之處,大體上可分為以下六項:全文性、固定性、多型態性、相關性、多文字性、同本異譯及多版本(及寫本)性。
第一項 全文性 全文性的意思是說佛典研究資料不論是一手或是二手都是由一連串的文字所組成,包含了許多的章節與段落。雖說這個性質並非佛典研究資料所獨有,但是若與時下大多數的資料庫內容相較,仍可清楚顯示出其特色。目前社會上普遍存在的資料庫,特別是在公司行號中,關連式系統(relational system)可說是主流。而關連式資料庫系統的特點之一就是所有的資料都是以表格的方式來呈現。這一點對佛典研究資料來說,在處理上有其困難。正因為如此,所以佛典研究資料庫無法以關連式系統的模式來建構,連帶的一些資料庫軟體,如:DB2、ORACLE、SYBASE、ACCESS等,及 Visual Basic、Delphi等資料庫程式語言也都派不上用場。面對這樣的情況,我們該如何解決?所幸尚有一些同樣具有全文性特質的資料庫,如:某些網站上的資料庫、印順法師佛學著作集、CBETA 所發行的《大正藏》第五至第十冊光碟版等可供參考。從這些資料庫的建構工具中,我們不難發現標記語言,如:HTML、SGML、XML (Extensible Markup Language) [34]等似乎已成為非關連式系統的最愛。究其原因,以其能完善的處理文字、段落、格式,使其屬性能充分發揮是最大關鍵。標記語言不但能輕易掌控文字的變化,如字型、大小、顏色的選定,甚至如段落的編排、格式的選擇也能解決[35]。
第二項 固定性 固定性的意思是說每一筆佛典研究資料,從作者、書(刊)名、題名、出版社、出版年代、到目錄、內文等幾乎是固定不變的。原典、古代大德的著述最是明顯,而近代的研究成果中,也只有當改版時才會有些微的變動。這樣的特質使得佛典研究資料庫在維護時顯得格外的容易,因為它不必像許多的資料庫一樣,常常要從成千上萬筆的資料中找出需要更新的部份,再進行修正或是增補。它所要做的只是將新出版或發表的相關書籍、期刊增補到資料庫中的適當位置罷了。因此,在維護上與大多數的資料庫相較,佛典研究資料庫可減少許多的人力、精力與時間[36]。
第三項 多形態性 多形態性指的是佛典研究資料可能是由多種不同的形態所組成。這些不同的形態包括了梵文、巴利文原典,漢譯、藏譯等經典,中國、西藏的祖師大德們的著作,緬甸、斯里蘭卡等南傳國家的大德們所作的註釋書,以及近代的日本、歐美、台灣等的學術著作、工具書等,甚至是個人的研究成果,心得等等,只要是有利於研究工作的資料,都可透過適切的整合,使其成為資料庫內容的一部分。一旦資料庫的建構完成後,便可輕易掌握所有相關的研究資料。
第四項 相關性 所謂相關性的意思是佛典研究資料彼此間並非相互獨立而不相干,相反地,常常有密切的關連性。舉例來說:以《俱舍論》為研究的主題時,相關的資料有原典(包含梵、藏、漢文),稱友、安慧、寂靜天等論師的注釋、中國的大德們如:普光、法寶等所作的《俱舍論記》、《俱舍論疏》等,及近代日本、歐美、台灣等學者的研究等。由於資料間彼此的相關性,使得在建構資料庫時就必須考慮到如何將此相關性適切的傳達出來,以便當資料庫建構完成後的使用能輕易掌握住所有相關的資料。
第五項 多文字性 多文字性意味著佛典研究資料是由多種文字所組成。梵文、巴利文的原典,藏譯、漢譯的經典,英、日、德、法文的近代研究成果,這麼多的資料該如何整合在一起是門大學問。此外,這麼多種文字如何讓它們都能在中文的作業系統中顯示出來,也是需要克服的難題[37]。
第六項 同本異譯與多版本(及寫本)性 同本異譯與多版本(及寫本)性是佛典研究資料所具有的兩種獨特的屬性。同本異譯指的是某一部梵文經典在被翻譯成漢文或藏文後,譯本彼此間的內容有所出入。這種情況有兩個發生的可能:A不同的譯本其實是根據不同的梵本來翻譯的,所謂不同的梵本指的是經名(經典的名稱)相同,但流通的時間與地方卻不一樣。由於在古代的印度,經文是透過抄寫的方式來流通,一部經在經過數十年甚至上百年的流通之後,不同寫本間多少會有差異存在是可以理解的,而根據這些不同的梵典(有著相同的經名)所翻譯成的經典,當然在內容上或多或少會不相同。B所根據的梵典在內容上其實是大同小異,但由於譯者或是翻譯過程等因素之故,譯本的內容有了不同。 與同本異譯的情況相對的是同樣的一部經或論或疏等(有著相同的譯者或作者),但在不同的版本(及寫本)中內容就有些許的不同,如在《大正藏》的校刊欄中常會看到某一個字在其他的版本卻是作另一個字。而這種情況不單只發生在漢文的藏經中,藏文甚至巴利文原典也有相類似的情況[38]。
佛典研究資料的整合大體上可分為兩類:一類是屬於相關資料的整合,另一類則是非相關資料的整合。相關資料的整合是把原本在內容上或性質上就有關係的資料分在同一類中來處理,或是透過超連結的方式把所有相關的資料串在一起。當然這兩種方式也可以搭配著使用。常見的例子是我們可以把原本寫在卡片、記事本上有關於某個研究主題的資料以這樣的方式整合在一起。至於非相關資料的整合指的是雖然資料彼此間並無必然的關連,但卻可以將其置入一個較大的架構中,使其分別成為其中的一部分。舉例來說,在《阿毘達磨研究資料庫》中〈北(藏)傳阿毘達磨論之文獻研究〉與〈南傳阿毘達磨論之文獻研究〉這兩類資料原本並沒有什麼關係,但經過整合後卻分別成為資料庫中「文獻研究」這項的一部份。如此可讓人了解到阿毘達磨的文獻研究原來是由這兩類資料所組成的。此外,我們也可以把原本記錄於卡片、記事本上的不同研究主題的資料以這樣的方式整合在一起,整合後的資料就不單單只是某個研究主題的資料,同時還會屬於其他領域或分類上的資料。 對整合的意義有清楚的了解後,便可開始論述為何佛典研究資料的整合在高效能的管理中會有如此的重要性。這可以從「相關性」與「層次感」這兩點來作說明: 【相關性】 在上一節論述佛典研究資料的性質時,曾提到相關性這一項。由於這個性質而突顯了數位化資料在管理上的優越,同時也暴露出傳統模式在處理上的困難。當相關的資料不多時,傳統模式還可勉強藉著資料的整合(把相關的資料打字或抄寫在一起,或註明其他相關資料的所在)將其關連性表現出來。然而,隨著資料量與日俱增,相關的資料也會變得愈來愈多,但是記錄於紙上的資料其整合性本來就不太好,如此一來就會使得傳統模式下的資料變得異常混亂,資料間的關係過於複雜,使得資料不知該如何使用。 但是數位化資料的管理則較無此問題,因為數位化資料的整合能力強,且較有層次感(見下面的說明),所以即使相關的資料多且關係複雜,數位化資料的管理依舊可讓使用者有一個清楚明瞭的使用環境。
【層次感】 層次感是資料處理或表現上很重要的一環,懂得運用層次感,可以讓人對資料的整體性、架構上有清楚的認識與了解,而不會有見樹不見林的感覺。然而記錄於紙上的資料其層次感大體上是很難表現出來的,雖然可藉著特殊的安排來突顯,但效果並不理想[39]。但數位化資料就沒有這種困擾,因為數位化資料是屬於「跳躍式資料」,使用者可以很輕易的從一筆資料跳到令一筆資料,而完全不必考慮中間是否還有其他資料存在。藉著這樣的特性,在管理數位化資料時就可以根據資料的內容,而將資料作層次性的整合。佛典研究資料庫也可以藉著這種整合方式,將整個資料庫的輪廓、大綱先行點出、再一層一層的深入進去,如此便可對資料庫有個「立體」的感覺,對資料庫整體的認識絕對有正面的幫助。
佛典研究資料的檢索可說是最能看出其管理效能好壞的指標。好的管理效能就是能讓使用者很容易便找到其所要的資料。從這個角度來探討,可以比較出佛典研究資料在數位化之前與之後檢索功能的差異: 數位化之前的佛典研究資料所具有的檢索功能可說只限於某些書籍的索引(index),至於期刊資料可說完全不提供。而且在書籍最後面所附的索引只有標示出頁碼,使用者還是必須自行回到該頁把所要的部份找出。此外,索引也沒有AND、OR、NOT等布林邏輯的的檢索功能。最麻煩的是還必須一本一本的找,可說非常沒有效率。 數位化後的佛典研究資料其檢索的功能是由檢索系統來提供,不但可以布林邏輯的方式檢索,而且可以一次就把所有符合條件的資料全部找出,找出的資料還會以反白(或其他)的方式呈現,讓使用者清楚知道其位置的所在。其效率之高是可以想像的。
在上一章論述佛典研究資料的高效能管理時,曾對數位化前與數位化後的佛典研究資料的管理作一比較式的說明。從說明中不難了解數位化後的佛典研究資料才可能會有高效能的管理。本論文所提出的「佛典研究資料庫」其實就是由數位化後的佛典研究資料經完善的整合而產生。然而「佛典研究資料庫」在整個資料庫的領域中該如何定位?此外,圖書館的檢索系統同樣能提供快速的查詢,兩者有何差異?其價值為何?這些都是本章所要探討的內容。
在討論佛典研究資料庫定位的問題前,有必要先解決兩個問題: A 佛典研究資料庫的內容為何? B 資料庫有哪些類型? 解決這兩個問題後,定位的問題自然就迎刃而解了。 【佛典研究資料庫的內容】 佛典研究資料庫建構的目的並不在於取代原始文獻,而成為一個全文資料庫(fulltext database)[40]。其實是希望能扮演「指引」的角色,讓使用者能很快的得知想研究之主題或問題的相關資料[41]之所在。要達成此目的,資料庫的內容是最大的關鍵。然而,什麼樣的內容具有指標的特質,能讓人依此而找到所要的資料呢?依個人管見,書籍部份:一手資料的品名、科判等標題資料及《大正藏索引》的相關部份;二手資料的書名、序或前言、目次等。另外,自身在讀了一手資料的某一卷或品還是二手資料的某些章節時,所作的摘要、重點提示、關鍵字等也都屬於這一類的資料。至於期刊部份:論文名稱、標題、關鍵字,及個人心得、重點摘要、提示等都是。 【資料庫類型】 在分析資料庫的類型前,有必要對資料庫的定義作更明確的敘述[42]。就線上資訊檢索系統而言,廣義的資料庫乃指針對某一主題,某一資料類型的需要搜集相關的資料加以整理、分析,並將結果存入電腦可讀的媒體中,以供各方使用。若就其他學科不同角度的定義,則有: A 某特殊企業機構中為一些應用系統所用而儲存的一群作業資料。 B 是資料庫管理系統(DBMS)中的各種資料庫。 C 是一群有用而最少重複之資料單元,於適當的結構狀況下儲存,透過 資料庫管理系統,可提供各種需要資料。 給予資料庫明確的定義後,將接著說明資料庫的類型。資料庫原則上可根據收錄資料的形式,學科主題及資料形態這三種方式來分類[43]。 A 依收錄資料的形式 資料庫依收錄資料的形式大體上可分為文字資料庫、數字資料庫、文數字混合資料庫及影像與聲音資料庫四種。 A 文字資料庫 文字資料庫又可細分為書目資料庫(bibliographic database)、專利商標資料庫、名錄資料庫、全文資料庫(fulltext database)。 A 書目資料庫 書目資料庫是圖書館最早採用的線上資料庫,主要以書目記載形式指示資料出處,有些則附加摘要。讀者需進一步取得原始文獻後,才算達成資訊檢索目的。 B 專利商標資料庫 專利商標資料庫收錄全世界或某一國專利及商標公告事項。 C 名錄資料庫 名錄資料庫主要收錄簡單的事實資料,如傳記名錄、工商名錄等。 D 全文資料庫 全文資料庫即是將原始文獻的全部原文數位化後加以儲存而形成的資料庫。此種資料庫於1980年代開始呈現大幅成長的趨勢。 B 數字資料庫 數字資料庫主要收錄的是原始數據或統計資料,如:實驗數據、戶口普查資料等。 C 文數字混合資料庫 此類資料庫的內容包括文字與數字混合的資料,如:字典、手冊等。 D 多媒體資料庫 隨著電子資訊的蓬勃發展,現在可說是一個多媒體的時代。隨著多媒體被普遍的使用,自然也就有了多媒體資料庫的產生。 B 依學科主題 若依學科主題來區分,則有科學、醫學、工程、社會科學、人文學、商業經濟、新聞與一般消息及法律等。 C 依收錄資料形態 收錄資料的形態指的是所收錄的資料是書籍或是期刊、技術報告、博碩士論文、會議文獻等形態。不過,大多數資料庫所收的資料形態為混合型,不單只有一種資料形態。 對佛典研究資料庫的內容與資料庫類型有明確的了解後,便可以來探討佛典研究資料庫的定位問題,亦即佛典研究資料庫究竟是屬於何種資料庫?從上面資料庫的分類中不難看出,若從收錄資料的形式來看,屬於文字資料庫,類似其中的書目資料庫,但又不限於書目,或許可看作是「改良型書目資料庫」。若依學科主題分,屬佛學資料庫;若依收錄資料形態分,則屬混合型的資料庫。
佛典研究資料庫這樣一個「改良型書目資料庫」究竟有何價值,為何本論文如此重視它呢?以及它與圖書館的檢索系統、電子佛典這類的全文資料庫有何不同?彼此間能否搭配著使用? 藉著以下這兩方面的說明,該可清楚點出佛典研究資料庫的價值。 A佛典研究資料庫的必要性 對一個佛典研究者而言,能迅速掌握研究主題的所有相關資料是重要的第一步。然而,想藉著圖書館的線上檢索系統或是電子佛典來達成此目的都是很困難的。因為這兩者本身就不是根據此目的而設計,當然會有其困難。以線上檢索系統來說,雖然它可以「主題」、「作者」、「書名」、「關鍵詞」等方法進行檢索,但遇到像「阿毘達磨的研究中有關六因、四緣的相關資料」這類的問題時,線上檢索系統根本就無能為力。電子佛典能做的就是把所有阿毘達磨論中有出現六因、四緣這些字的地方,通通找出來。這種做法在一手資料方面的確可完全掌握,但可能需要很多時間去過濾那些不必要的部份。但在二手資料的部份,即近代的研究成果方面則一點也幫不上忙。 反觀佛典研究資料庫,雖然在一手資料方面無法像電子佛典一樣找到這麼多資料,但在二手資料上,它卻可迅速找出相關的研究成果,且從找到的二手資料中,可再繼續找出相關的一手資料。可見佛典研究資料庫有其必要的存在價值。 B 佛典研究資料庫可與線上檢索系統、電子佛典配合使用 使用佛典研究資料庫找出相關資料後,可接著使用圖書館之線上檢索系統找到該資料,或是使用電子佛典繼續找出一手資料。反過來,使用電子佛典找出的一手資料,經過濾後得到的真正相關資料,可再存入佛典研究資料庫中,或於佛典研究資料庫中標示其所在,下次再有用到這些資料時,便可直接從佛典研究資料庫中取得。 從以上兩點的說明,應不難了解佛典研究資料庫的價值所在。
第四章 以HTML及HTML Help建構與管理佛典研究資料庫
前兩章的內容著重在佛典研究資料的高效能管理之理論說明,而本章則在闡述如何將理論轉變成實際的行動,亦即如何以HTML及HTML Help來建構與管理佛典研究資料庫。在本論文一開始時便曾經說明為何要以HTML及HTML Help來建構與管理佛典研究資料庫,主要的原因有實用、易學、經濟這三項。 在使用HTML及HTML Help來建構與管理佛典研究資料庫之前,有兩點是必須要知道的:A理想的佛典研究資料庫該具備的條件為何? B可運用的方法為何? 若能對這兩點有一清楚的認識,想建構出一個理想的佛典研究資料庫相信就不會太難了。
一個理想的佛典研究資料庫該具備的條件最少可分為「內容、架構」與「操作介面」兩方面。一個是「體」,一個是「用」,唯有體用兼備才能滿足理想的佛典研究資料庫的要求。 【內容、架構方面】 一個理想的佛典研究資料庫在內容與架構上該滿足何種要求呢?答案可能莫衷一是,但有幾點或許是共同認可的: A分類明確: 資料分類是資料管理上重要的一環,分類的好壞不但會影響整個資料庫的效能,同時也是評估其價值的指標。良好的分類方式不但讓使用者能迅速找到其所要的資料,更重要的是能具體的勾勒出整個資料庫的架構,讓人清楚了解到這個資料庫的內容包含哪些方面。此外,在分類的同時若能考慮到近代的研究成果的話,相信此資料庫會有更高的價值。因為如此能讓人明白近代研究的趨勢為何?哪些領域的研究最熱門?哪些領域才剛在起步階段?這樣的認識與了解對有心想從事相關研究的人來說,可省下許多的摸索時間。因此一個理想的佛典研究資料庫其分類的考量必須是多方面的。 B層次分明: 在上一章第三節第一項中曾提到「層次感」的問題,這是資料庫管理模式的特色與優點之一。懂得善用層次感來架構內容、分類資料,將可使得資料庫的「整體性」更容易彰顯,也更有立體的感覺。因此,「層次分明」是理想的佛典研究資料庫必須具備的條件。 C內容精確: 一個資料庫不論分類的多好,層次感多佳,倘若內容不精確,終究是白忙一場。因為有問題的資料不但會誤導研究的方向,甚至因此而得到嚴重錯誤的結論。所以在建構資料庫的步驟中有一項是「檢查」[44],無非就是希望透過此方式將資料的錯誤減到最低。不過,真正的解決之道還是在於資料的輸入時能盡可能的小心謹慎,多花一分心思,將來就可以省下許多不必要的修改工作。 D相關資料之連結(單一資料庫內或與其他資料庫間): 在上一章第二節論述佛典研究資料的特質時,曾提到「相關性」這一項,這是佛典研究資料很獨特的一項屬性。然而,相關性的資料在分類上可能由於某些原因,而被分到不同的類別中。舉例來說,探討「無為法」的資料中,有些是屬於北傳的說一切有部的,有些則屬於南傳上座部及其他部派等的資料,在分類上屬於不同部派的思想。但是對想研究無為法的人而言,這些資料都必須參考到。因此,如何讓這些相關的資料彼此間的連結能夠建立,以便突破分類上的限制,形成完整的「資料網」是建構一個理想的佛典研究資料庫該正視的課題。 此外,另一個要考慮的問題是:不同資料庫間的相關資料的連結。以《俱舍論》相關的研究資料為例,若我本身所建的資料庫其內容是以梵、藏、漢三種語文的原典、註釋資料為主;某一位好友的資料庫卻是有關《俱舍論》的近代研究成果。這兩類資料雖然分屬不同的資料庫,但對我或他而言,可能都有用到對方資料的可能性,因為彼此間有相關性存在。由此可見不同資料庫間的相關資料之連結也是需要重視的問題。然而,此問題卻由於資料庫間存在著不同的建構方法,沒有一個共通的標準而變得複雜與困難。如「佛光大辭典」光碟版的資料就無法與CBETA 的《大正藏》電子資料相結合,每次使用時都得分別打開兩個資料庫,且彼此間使用不同的檢索系統也是大問題。不過,儘管佛學資料庫間的整合仍有一大段路要走,但若彼此間能慢慢凝聚共識,逐漸訂出一套共通的標準出來,相信對佛學資料的共享上能提供最直接的幫助。
【操作介面方面】 操作介面是整個資料庫中與使用者最為接近的部份,一個資料庫內容再充實、分類再好…,若操作介面吸引不了使用者的興趣,終究是乏人問津。佛典研究資料庫亦是如此,雖說不用作的太花俏,但基本的要求還是有的。 A操作簡易: 近年來軟體的設計方式已愈來愈走向人性化,簡易的操作已經是一致的要求,但操作簡易並不代表功能會因此而受影響。相反地,常常可見操作非常容易,但功能卻異常強大的應用軟體出現。同樣的,一個理想的佛典研究資料庫也要具備這樣的特質,才能讓我們在使用前不需經過長時間的學習,開始使用後也不用常常翻閱使用手冊。只要憑著直覺,並稍為閱讀一下使用說明,馬上就能夠上手。
B介面和善: 隨著圖形化介面的廣泛運用,電腦與人的距離拉近不少。從微軟(Microsoft) 所推出的Windows 95、98在世界各地被普遍使用的情況來看,和善的操作介面已經逐漸成為軟體在設計時不得不考慮的要素。佛典研究資料庫也不例外,如何透過介面的巧妙安排,將生硬的內容加以柔化,讓人能少幾分畏懼,而增添其吸引力是佛典研究資料庫的建構者該注意的課題。 完善的檢索功能: 檢索是資料庫必備的功能之一,也是資料庫能被廣泛使用的重要因素。因此檢索能力的好壞也關係著使用意願的高低與否等問題。對一個佛典研究資料庫來說,檢索的功能可以彌補分類尋找[45]的不足。所以具有完善的檢索功能[46]才能讓佛典研究資料庫的效能真正的發揮。
上一節討論的是理想的佛典研究資料庫該具備的條件,接著要探討的是想具備這些條件,可以運用哪些方法來達成。可用的方法固然很多,但若以HTML與HTML Help的使用為主的話,大體上可分成以下幾點: A 表格(table)化的資料整理 B 超連結(hyperlink)的活用 C 分割視窗(frame)的效果 D 多媒體(multimedia)的呈現 E 搜尋引擎(search engine)的使用 以下便逐一的加以論述,必要時會以「阿毘達磨研究資料庫」為例來說明。
第一項 表格(table)化的資料整理 表格是資料庫中常被使用到的工具,尤其在最近一、二十年關連式資料庫(relational database )蔚為主流,在關連式資料庫中所有資料都是以表格的方式來呈現,由此可見其重要性。雖然佛典研究資料庫並不是關連式資料庫,但表格的運用仍是建構過程中重要的一環。 因為透過表格的使用,可以將原本分類好的資料轉變成一張張的資料表。藉著資料表其獨特的性質能讓同一類的資料於其欄位中清楚的顯現。而欄位資料即是一本書或一篇論文的基本資料,因此從一張資料表便可了解到某一類資料每一筆的情況為何。接著是以「阿毘達磨研究資料庫」來作說明。 從「阿毘達磨研究資料庫」的首頁可清楚的看到整個資料庫可分成「阿毘達磨論之研究指引與解題」、「南北傳阿毘達磨論書」、「北(藏)傳阿毘達磨論之文獻研究」等共十三類。十三類中有的還可細分為「書籍」與「期刊」兩類。每一類的基本資料都是以一張資料表來作說明,如:書籍類的資料表包含了序號、作者、書名、出版社、出版年份等欄位;而期刊類的資料表則包含序號、作者、題名、關鍵詞、出處、卷期、頁次、出版年份等欄位,每一欄位均詳細記錄了某一本書或某篇論文的某項資料,使用者從這張資料表就可知道所有相關的背景資料。由此可以了解到表格化的資料整理在整個資料庫的建構過程中,是多麼重要的一項。
第二項 超連結(hyperlink)的活用 超連結是HTML中最重要的功能之一,同時也是HTML(HyperText Markup Language)之所以稱為HTML的原因[47]。它之所以重要就在於它能夠把兩份文件輕易的連結起來,即使這兩份資文件是分屬不同的電腦,只要能透過網路相連就辦的到。 在佛典研究資料庫中使用超連結的機會非常多,任何兩類或任何兩筆相關的資料都可以超連結的方式來建立彼此間的關係。甚至於只是想從某一筆資料跳到另一筆資料來閱讀,兩筆資料間並無任何關係,同樣可透過超連結來完成。在上一章第三節中曾提到「層次感」與「相關性」這兩項佛典研究資料庫的優點,而這兩項優點之所以能夠產生,主要就是由於超連結之故。 在「阿毘達磨研究資料庫」中從首頁到最後的資料內容的呈現,超連結的運用可說是無所不在。即使HTML Help在作編譯(compile)的動作時,整個資料庫也因為超連結的使用形成一階層式的樹狀結構,操作上因此而簡化許多[48]。
第三項 分割視窗(frame)的效果 分割視窗是網頁經常會運用到的一個技巧,它的特色就在於畫面被分成了幾個子視窗,每個子視窗有其各自的URL,且若在某個子視窗內按下超連結,內容還會在另一個子視窗中出現。這樣的效果當運用在佛典研究資料庫時,可讓資料庫在使用上變得更加容易。以下我們以「阿毘達磨研究資料庫」來作說明: 在前面第一項「表格化的資料整理」中曾提到資料庫中的每一分類都是以一張資料表來記錄其基本資料。而與這張資料表透過超連結相連接的深一層資料,便是以分割視窗的方式來呈現(指本資料庫中書籍類的資料內容)。這麼做的好處在於當看完某一筆資料時,不必先回到資料表才能再進到另一筆資料[49],只要在列出書名的子視窗中點一下書籍名稱,其內容就會在旁邊的子視窗中出現,不但節省時間更能提高使用效率。
第四項 多媒體(multimedia)的呈現 多媒體的呈現方式在今日已成為網頁文件的基本要求,當然對資料庫而言不見得非得如此,但若能稍為運用一下多媒體的技巧讓資料庫的操作介面「活起來」,以吸引使用者的興趣,拉近與使用者的距離,也未嘗不是件好事。 在資料庫中最常使用到的多媒體資料形態不外乎動畫與音效。這兩種資料形態均可透過HTML中簡單的標籤(tag)的使用,而將效果具體的呈現出來[50]。 此外,圖片的巧妙運用,如:按鈕、分隔線、背景圖、文字特效等都可讓資料庫更有美感,也更有活力,能使人擺脫對於資料庫的刻板印象。
第五項 搜尋引擎(search engine)的使用 一個資料庫想具有檢索的能力,就必須要有搜尋引擎這樣的檢索軟體才行。隨著搜尋引擎能力的強弱,相對的資料庫所具有的檢索功能也會有所差別。 對佛典研究資料庫來說,由於其內容包含了表格與文字,所以很難用Access等專門處理表格的資料庫軟體或是如OPEN 98的全文檢索軟體來提供檢索的功能[51]。想要徹底解決此問題,就必須以程式語言來撰寫一個專門針對佛典研究資料庫的特質而設計的搜尋引擎才行。然而,對絕大多數不懂程式設計的佛典研究者來說,這是遠遠超出其能力所及的事,於是本論文才會提出以HTML Help來充當搜尋引擎的構想。HTML Help的檢索能力雖然不是很強,但一般的情況相信還可以處理,而且在學習上也不困難,這對不會寫程式的人而言,也算是一種不錯的替代工具[52]。
隨著電腦科技的蓬勃發展,許多學科的研究已陸續與電腦的應用相結合早已是不爭的事實。佛學界最近這幾年來在這方面也開始有一些不錯的成果發表,如「佛光大辭典」光碟版、「印順法師佛學著作集」光碟、電子佛典…等,確實帶給佛學研究者不少方便。 不過,尚待開發的地方還很多,本論文所提出的「佛典研究資料庫」就是一例。儘管圖書館的線上檢索系統能方便的查詢資料,但對佛典研究者而言,仍有許多研究資料無法藉由線上檢索系統找出。至於電子佛典,則尚在起步階段,許多佛典尚未完成數位化的工作。縱使佛典已全部數位化並可直接檢索,充其量只解決了一手資料的取得問題,對於二手資料的部份仍是無能為力。換言之,在圖書館的線上檢索系統與電子佛典之外,似乎還缺少了什麼,而這樣東西是可以彌補這兩者的不足,讓佛典研究者真正有效率的來找到所有相關的研究資料,「佛典研究資料庫」正是扮演這樣的角色。 本文試著從最基本的數位化資料的特質與管理談起,接著論述佛典研究資料的高效能管理、佛典研究資料庫的定位與價值、以及如何以HTML 與HTML Help來建構與管理佛典研究資料庫,希望透過這些說明讓佛典研究者了解「佛典研究資料庫」的重要。此外,值得一提的是「佛典研究資料庫」的實用、易學、經濟這三個特性,使得此資料庫是可以由佛典研究者自行建構與管理的。自行建構與管理最大的好處是可完全依據自身的需求去做規劃,將原本使用卡片、紙、筆等工具的傳統模式轉變成具有高效能的資料庫管理模式。 本論文由於時間與筆者自身能力等因素的關係,只能提出「佛典研究資料庫」的理念及簡要的說明,不論在深度或廣度上都明顯不足。將來若有機會,希望能在線上資訊檢索的理論與應用及資料管理、資料庫理論、甚至資料庫軟體及下一代的標記語言XML等方面作加強,期能對佛典研究資料的管理在方法上做出貢獻。 下個世紀的佛學研究會有哪些轉變,目前尚不得而知。但有一點是可以確定的,那就是與資訊科技的關係會日趨於密切。當然這並不是意味著不懂的運用電腦的人就會被時代所淘汰,而是懂得運用電腦將可使其研究工作有著如虎添翼的功效。「佛典研究資料庫」正是希望秉持這樣的理念,提供佛典研究者一個好用的工具,使其真正了解資訊科技的運用所能帶來的便利。
一、 書籍類 Date,C.J. ---.1983. Database: A Primer (Reading,Mass:Addison-Wesley) Jakob Nielsen ---.1990. Hypertext & Hypermedia (San Diego: Academic) Nigel Woodhead ---.1990. Hypertext & Hypermedia Theory and Applications (Wilmslow: Sigma) Charles F. Goldfarb ---.1992. The SGML Handbook (Oxford:Clarendon) David Crystal ---.1994. THE CAMBRIDGE ENCYCLOPEDIA (Cambridge:Cambridge University Press, 2nd edn) Richard Light ---.1997. Presenting XML (Indianapolis:Sams.net) 李世傑 ---.1962.《佛教圖書分類法》(台北:台灣佛教月刊社) 蔡明月 ---.1991.《線上資訊檢索——理論與應用》(台北:學生) 陳惠珍編 ---.1993.《德妙佛學資料中心圖書目錄》第一輯(南投:正觀) 陳昭珍 ---.1994.《古籍超文件全文資料庫模式之探討》(台北:臺灣大學圖書館學研 究所博士學位論文) 陳攸華 ---.1995.《圖書資訊學研究》(台北:文華圖書館管理資訊) 香光尼眾佛學院圖書館 ---.1996.《佛教圖書分類法1996年版》(嘉義:香光書鄉) 黃慕萱 ---.1996.《資訊檢索》(台北:學生) 施威銘研究室 ---.1996.《輕鬆學會JavaScript》(台北:旗標) 王秀琴、謝添基編 ---.1997.《德妙佛學資料中心圖書目錄》第二輯 (南投:正觀) 黃加佩譯 ---.1997.《資料庫系統概論》(Date,C.J著,台北:儒林,第六版) 施威銘研究室 ---.1997.《98 HTML與HomePage設計實務》(台北:旗標) 施威銘研究室 ---.1997.《Homepage製作高手》(台北:旗標) 陳智偉編譯 ---.1997.《Java/JavaScript 最新版教戰手冊》(Loren Bandiera , Christopher Haddad 著,台北:文魁資訊) 傑利小子 ---.1997.《達文西V3.5私房學院》(台北:新人類資訊科技) 周鈞 ---.1997.《FrontPage 98實戰手冊》(台北:眳p資訊) 張寶源譯 ---. 1998.《Official Microsoft HTML Help 創作工具》(Steve Wexler 著,台北: ]資訊) 張寶源 ---.1998.《HomePage設計工具箱》(台北:眳p資訊) 孫昱譯 ---.1998.《HTML 4最新版教戰手冊》(Lois Patterson著,台北:文魁資訊) 許嘉純 ---.1998.《PhotoImpact 4中文版——影像網頁製作大師》(台北:松崗電腦圖 書資訊) 施威銘研究室 ---.1999.《IE5 DHTML設計實務》(台北:旗標) 太平洋鄰里協會祕書處總編輯 ---.1999.《太平洋鄰里協會一九九九年會論文集 (Proceedings of 1999 EBTI, ECAI,SEER&PNC Joint Meeting)》(台北:中研院計算中心)
二、 期刊類 釋厚觀 ---.1993.《日本的阿毘達磨佛教研究》(諦觀72) 莊德明 ---.1998.《漢字缺字處理與梵巴藏字母的輸入》(佛教圖書館館訊14) 維習安 ---.1998.《數位化中文佛教大藏經》(佛教圖書館館訊15) 杜正民編譯 ---.1998.《當代國際佛典電子化現況:電子佛典推進協議會(EBTI)簡介》 (佛教圖書館館訊15)
三、 網路資料類 Academic Text Service (ATS) at the University of Stanford http://www-sul.stanford.edu/depts/hasrg/ats/ats.html (7/31/1999) [53] Centre for Computing in the Humanities King's College London http://ilex.cc.kcl.ac.uk/ (7/31/1999) CETH (Center for Electronic Texts in the Humanities) http://scc01.rutgers.edu/ceth/ (7/31/1999) Electronic Text Center at the University of Virginia http://etext.lib.virginia.edu/ (7/31/1999) HTML的相關網站 07/02/1999, http://www.w3.org/MarkUp/ (8/1/1999) HTML Help 的相關網站 07/16/1999, http://msdn.microsoft.com/workshop/author/htmlhelp/ (7/31/1999) XML的相關網站 07/21/1999, http://www.w3.org/XML/ (8/1/1999) 中國文學網路研究室 http://cls.admin.yzu.edu.tw/ (7/31/1999) 台大佛學中心 07/09/1999, http://ccbs.ntu.edu.tw/ (7/31/1999)
德妙佛學資料中心 10/12/1997, http://nt.med.ncku.edu.tw/biochem/lsn/034/library.htm (7/31/1999) 謝清俊 ---.1994.《語文工作與資訊發展──從電子文件的發展談對語文研究的期盼》 (作者於國立台灣大學文學院主辦的當前「語文問題學術研討會」中發表) ---.1997.《文字、語言與數位媒介》(作者於歷史語言研究所發表) 以上兩篇文章已收錄於中研院文獻處理實驗室的網站 http://www. sinica. edu.tw/~cdp/ 之中。
四、 光碟類 佛光文化事業 ---May 1997,《佛光大辭典光碟版》 財團法人印順文教基金會 ---Jan.1999,《印順法師佛學著作集》第二版 中華佛學研究所 ---June 1999,《中華佛學研究所專輯》第二版 中華電子佛典協會(CBETA) ---June 1999,《CBETA電子佛典系列──般若部、法華部、華嚴部》
附錄一的部份是根據自身建構與維護《阿毘達磨研究資料庫》的經驗與心得,經分析、歸納、整理後而產生。主要的目的是希望能給佛典研究者一個參考的方向,減少一些摸索的時間,儘快學會建構與維護資料庫的技巧,以早日邁入高效能的管理時代。 在資料庫的建構上共有七個步驟,而在資料庫的管理上則有兩種方法。以下將這些步驟與方法先行列出,再逐一來說明。
【建構資料庫的七個步驟】 A資料的蒐集與分類整理 BHTML與HTML Help的學習 C設計資料庫的架構與呈現方式 D資料的數位化與整合 E檢查 F創造具有親和力的介面 G加入搜尋、檢索功能
【維護資料庫的兩種方法】 A資料的增補 B調整架構
一、 建構資料庫的七個步驟 A 資料的蒐集與分類整理 這是建構資料庫的第一步,也是最基礎的一步,這一步沒有做好,就不可能建構出理想的佛典研究資料庫。這個步驟其實包含了資料的蒐集與分類整理兩部份,而這兩部份的處理方式是截然不同的。因此,我們將其分開來處理。 【資料的蒐集】 資料的蒐集看似簡單,實際上卻大有學問。如何在有限的時間中找出所有的相關資料是需要方法與技巧的,光靠勇氣與毅力是行不通的。以下就提供幾點作為參考: A 使用圖書館的檢索系統: 這是最直接的方式,但一般而言,功效有限。因為圖書館的檢索系統雖然可使用許多種方法,如:書(刊)名、作者、出版社等來作查詢。但是當我們要蒐集某個主題的相關資料時,將會發覺大概只有書(刊)名的查詢可勉強派的上用場。然而,卻有許多的相關資料無法從書名看出,因為它可能只是書中內容的一小部份。至於期刊部份的相關資料可能就更加無能為力了,除非該檢索系統已經將所有期刊的目錄資料、關鍵詞等建檔管理,並可直接檢索。不過儘管如此,使用本方法來蒐集資料,仍是最基礎而不可或缺的第一步。 B 利用一些介紹性質的資料: 某些書籍的附錄或期刊論文會介紹某個研究領域截至目前為止有哪些研究資料,利用這種方法可以彌補第一種方法的不足。譬如在緒論的「研究方法及其步驟」中曾提到的「日本的阿毘達磨佛教研究」這篇期刊論文就是典型的例子。 C 參考已蒐集到的書籍或期刊論文中的「引用、參考資料」: 如果某些研究領域或主題並沒有上述的介紹性質的資料的話,則只好參考已蒐集到的書籍或期刊論文中的「引用、參考資料」,再從這些「引用、參考資料」中的「引用、參考資料」找出更多的相關資料。 D 請教相關領域之研究者: 如果方法都用盡了還是無法蒐集到所要的資料的話,那只好請教相關領域之研究者了。只是若非師長或好友,別人恐怕也不願輕易奉告。 【分類整理】 資料如何分類是重要的課題。在本文第三章第一節「理想的佛典研究資料庫該具備的條件」中曾提到「分類明確」這一項。資料庫的內容之所以能夠分類明確,有賴於建構資料庫前資料分類整理的步驟,這兩者其實是一體的兩面,密不可分。分類的方法有許多種,且可能會隨著建構者的動機與目的而有所不同,但無論如何有一點是必須謹記在心的:分類前不要預設太多的立場,盡可能根據所蒐集到的資料的性質來作分類,如此才能真正符合現況。
B HTML與HTML Help的學習 這個步驟算是使用工具的學習,資料庫能否建成這是最重要的關鍵。在本文一開始的緒論中就說明使用HTML與HTML Help的三個重要原因:實用、易學、經濟。可見想要學會這兩種工具並不困難。首先說明HTML的學習。HTML其實就是由許多的標籤(tag)所組成,標籤本身有其固定的用法,透過這些標籤的使用來產生我們想要的效果,如:超連結、分割視窗、表格、文字大小、字型等。由於HTML是標記語言(markup language),而不是程式語言(programming language),因此不需要有程式設計的經驗或是受過很嚴謹的邏輯訓練,只要能學會使用那些標籤的用法,自然就能駕輕就熟。最簡單的方法就是找一本HTML的使用說明書,按照其說明親自上機操作,相信很快就會有成果出來。另一個重要的方法就是多觀摩別人的網頁,特別是一些優秀的網站,再參閱該網頁的原始檔,必能從中學會許多實用的技巧。 此外,若是覺得HTML的學習還是很難的話,則不妨改用網頁編輯軟體,如:FrontPage等,那就連學習HTML的時間都省下來了。 至於HTML Help它原本是個線上輔助說明系統,使用它的理由是因為其「搜尋」與「檢索」這兩項功能可以彌補HTML的不足。正因為如此,所以我們不必花時間在其他不相關的部份,只需學會如何把資料編譯(compile)起來,同時具備搜尋、檢索的功能即可。因此,只要把《Official Microsoft HTML Help 創作工具》第三章的部份看懂,相信不會有什麼大問題。
C 設計資料庫的架構與呈現方式 這個步驟是在完成了資料的蒐集與分類整理,同時也學會了HTML與HTML Help這兩項工具的使用後,在真正開始著手建構資料庫之前,必要的一個過程。因為蒐集完資料也完成分類整理後,對想建構的資料庫的內容應該會有一整體性的認識,加上學會了HTML與HTML Help之後,對這兩項工具的功能也會有一定程度的了解,此時若能先對資料庫的架構與呈現方式作一規劃的話,就如同蓋房子前先把藍圖畫好一樣,將來只要按圖施工即可,縱使將來真正建構資料庫時出了狀況,也可據此架構而進行修正。否則,沒有一個整體性的規劃,想到什麼做什麼,不但浪費時間,且建成的資料庫的品質也是大有問題。
D 資料的數位化與整合 在前面三個暖身的步驟後,資料的數位化與整合這個步驟真正踏入資料庫的建構中。對一般的資料而言,數位化與整合的過程該不會有問題才是,只要按照步驟三所規劃好的架構將資料一一的加到資料庫中即可。會有問題的資料主要可分為兩類:一、梵、巴、藏文;二、中文缺字與特殊日文漢字[54]。以下分別來說明: 一、梵、巴、藏文:若只是要在瀏覽器(browser)中顯示梵、巴、藏文的轉寫的話,可使用Foreign1這個字型來解決,但若是要正確的顯示天城體(DevanAgarI)或是藏文在目前Windows 95、98的作業系統下仍有困難。或許在Windows 2000支援unicode之後,這問題可以獲得解決。 二、中文缺字與特殊日文漢字:這個問題最簡單的解決方式就是使用組字的方法,如中華電子佛典協會(CBETA)所採用的一般,如:明=[日*月]、音=[立/日]、閒=[間-日+月]等[55]。但如果堅持要在瀏覽器中顯示正確的字型,在中文缺字方面大體上可藉由「漢字庫」[56]來達成,而在特殊日文漢字的部份,或許無蝦米輸入法及向量科技所出版的「外字工坊for無蝦米輸入法」的字型軟體可幫的上忙。
E 檢查 檢查是為了提高資料庫中的資料的準確度。對佛典研究者而言,使用不正確的資料所帶來的後果是難以想像的。因此在所有資料都完成數位化之後,在進行下一步的動作之前,有必要從頭到尾好好的檢查幾遍,如此才能有效的降低使用錯誤資料的可能性,真正發揮高效能管理的功效。
F 創造具有親和力的介面 資料庫的操作介面就如同其門面一樣,擁有再好的架構、內容,若無法提供使用者一個具有親和力的介面,一定會降低其使用的意願。因此,如何創造一個具有親和力的介面也是建構資料庫的過程中一個重要的步驟。由於資料庫是以HTML與HTML Help來建構,所以想要創造具有親和力的介面一點都不困難。 HTML的標籤中本來就有提供使用圖片、動畫、音樂等的功能,若覺得不夠還可以從網路上下載一些以JavaScript、VBScript所寫成的小程式,將其加到HTML中,便可讓操作介面真的活了起來。不過在進行的過程中,可能會使用到影像處理軟體,如:Photoshop、PhotoImpact、達文西等。因為一些圖示、按鈕、文字特效等都需要透過影像處理軟體才有辦法解決。不過不用擔心,影像處理軟體的學習並不困難,而且只要學會基本的使用即可。況且有的影像處理軟體還是免費的呢![57]
G 加入搜尋、檢索功能 這個步驟是建構資料庫的最後一步,目的就是希望藉著HTML Help之助,讓辛苦建成的資料庫能具有搜尋、檢索的功能,以便讓資料庫能有更高的管理效能。
二、 維護資料庫的兩種方法 資料庫的維護與建構可說是同等的重要,不懂得維護的資料庫其效能必定低落,且提供的資料內容也無法滿足需求,最後一定會面臨被棄置的命運。不過由於佛典研究資料本身性質的關係,使得資料庫的維護與建構相較,顯得容易許多。以下就維護資料庫常用的兩種方法逐一的來加以探討。
A資料的增補 在第二章第一節中論述佛典研究資料的性質時,曾提到「固定性」這一項,也就是因為這一項性質,使得佛典研究資料庫在維護上容易許多。因為建構完資料庫後,剩下要做的工作就是不定期的把新增的資料,如:剛發表的期刊論文、剛出版的新書、及自己最近的研究成果、心得等加到資料庫中,不必考慮舊有的資料是否需要修改、刪除等問題。換言之,資料的增補是唯一要做的事。不過,當增補的資料累積到某一個程度時,原先的架構可能會變得無法負荷,而使得整個資料庫的效能降低,此時就是該調整資料庫架構的時候了。
B調整架構 資料庫架構的調整也是維護資料庫的一種方法。常見的調整方式是增加其分類的項目以符合實際的需求。不過由於架構的調整不像資料的增補那麼容易,何時才是調整架構的最佳時機是值得探討的課題。且在調整架構前也可以對新增的資料作一些處理,如可以歸類到舊有的分類中就將其歸類進去,若無法歸類的話,可先將這些資料全部都放在一個名為「新增資料」的分類中,待累積到一定程度時,再來考慮該增加何種分類項目或許會較為理想。
附錄二的部份是希望對「阿毘達磨研究資料庫」做一個概略性的介紹,以助於此資料庫的使用者能更方便的來使用。而介紹的內容包括以下幾項: A資料庫涵蓋的範圍及其內容 B資料庫的架構 C資料庫的使用
【資料庫涵蓋的範圍及其內容】 「阿毘達磨研究資料庫」所蒐集的範圍主要是以近代歐美、日本、台灣在阿毘達磨論(北傳、藏傳、南傳)的入門、文獻、語言文字、思想其他這四方面的研究之書籍、期刊資料為限。而不涉及阿毘達磨論之原典資料。其內容是由上百本的書籍與五百多篇的期刊論文所組成。 【資料庫的架構】 整個資料庫的架構可先分為入門、文獻、語言文字、思想研究、其他這五部份。入門的部份由「阿毘達磨論之研究指引與解題」、「南北傳阿毘達磨論書」兩個主題所組成。文獻研究的部份可分為「北(藏)傳阿毘達磨論之文獻研究」與「南傳阿毘達磨論之文獻研究」。語言文字方面的研究則不再細分。思想研究的部份則可細分為「部派異論研究」、「阿毘達磨思想泛論」、「阿毘達磨論之單一思想研究」、「阿毘達磨論之思想比較研究」、「阿毘達磨論之思想研究──各部派通論」、「阿毘達磨論之思想研究──單一部派」、「阿毘達磨論之思想研究──單一論書」七個主題。此外,有些獨特的資料無法適切的分到這些主題時,則將其置入「其他類」中統一管理。以下分別對各部份的主題加以說明:
A入門 A「阿毘達磨論之研究指引與解題」 這個主題是蒐集與阿毘達磨論有關的研究指引,如《佛學研究入門》、《佛學研究指南》等書,提供有關研究阿毘達磨最基本的資料。 B「南北傳阿毘達磨論書」 這個主題包含了北傳阿毘達磨論書與南傳阿毘達磨論書的背景資料,如:經號、冊數、作者、譯者、卷數等。 B文獻 A「北(藏)傳阿毘達磨論之文獻研究」 蒐集目前有關北(藏)傳阿毘達磨論在文獻研究上的資料。 B「南傳阿毘達磨論之文獻研究」 蒐集目前有關南傳阿毘達磨論在文獻研究上的資料。 C語言文字 蒐集目前有關於研究南、北傳阿毘達磨論的語言、文字方面的資料。 D思想研究 A「部派異論研究」 蒐集論述部派異論的書籍、期刊資料。 B「阿毘達磨思想泛論」 蒐集較全面性的探討阿毘達磨思想之資料。 C「阿毘達磨論之單一思想研究」 蒐集研究阿毘達磨論中之單一思想的資料。 D「阿毘達磨論之思想比較研究」 蒐集研究兩(數)個阿毘達磨思想的比較之資料。 E「阿毘達磨論之思想研究──各部派通論」 蒐集通論各個部派思想之資料。
F「阿毘達磨論之思想研究──單一部派」 蒐集論述單一部派思想之資料。 G「阿毘達磨論之思想研究──單一論書」 蒐集論述單一論書思想之資料。 E其他 無法歸類到上述主題的研究資料皆收於此。
以上的分類方式純粹是根據所蒐集到的資料,依其性質、內容去作區分,不事先預設立場。這麼做的好處可如實反映近代的研究成果,並清楚勾勒出其輪廓。
【資料庫的使用】 「阿毘達磨研究資料庫」的使用方式有兩種: 若想尋找某一類型的資料,如有關《俱舍論》思想研究方面的資料,可先點選「阿毘達磨論之思想研究──單一論書」A《俱舍論》即可。換言之,依所欲尋找的資料類型直接點選合適的主題即可。 若不知該點選哪個合適的主題,則可使用HTML Help所提供的檢索功能。此檢索系統有AND、OR、NOT、NEAR四種布林邏輯可使用,檢索到的資料會以反白的方式呈現。
|