20200924-宗教學與數位工具讀書會-文本探勘DocuSky

回覆文章
liu0317
文章: 11
註冊時間: 週一 3月 15, 2021 4:24 pm

20200924-宗教學與數位工具讀書會-文本探勘DocuSky

文章 liu0317 »

宗教學與數位工具 讀書會,第一場

主辦者:衛易萱
華人文化主體性研究中心 博士後
兼任宗教所助理教授

時間:2020年9月24日
地點:百年樓330211教室

主題:文本探勘

本讀書會的參與者政大宗教所研究生與校外宗教學者,從人文學者的角度來觀察數位工具對人文學研究的幫助。讀書會第一場次由國立台灣大學DocuSky平台所提供的文本探勘(text mining)與分析(analysis)工具討論,沒有數位學背景的人文學者怎麼可以利用這樣的工具,但對首次遇到數位工具的人文學者連DocuSky提供的工具還是有一定的使用難度。本次的討論指出數位工具的一些限制而讓我們更了解在設計數位人文學研究計畫得注意的時間與方法問題,但也讓我們期待本學期接下來將認識的數位工具而來賓將介紹的工具與平台會給我們研究的發展可能性。

首先,我們討論怎麼可以把要分析的文本上傳到DocuSky,並利用探勘與分析工具所需要的DocuXML文件格式,對宗教學者非常有幫助的事,該平台已經提供CBETA(法鼓文理學院提供)、ctext(英國數位漢學家Donald Sturgeon提供)和Wikisource(維基媒體基金會提供)等全文平台,除了與宗教學關係非常密切的佛經平台CBETA,另外兩個平台也提供歷代漢文的全文,例如神魔小說巨作《西遊記》、《封神演義》等宗教敘事。

其次,我們討論這些全文平台提供的文本與版本的問題:CBETA是根據大藏經等佛經考察而建立,但其他兩個平台可以下載的全文目前還沒有標注上面的文本是根據哪一些版本而成。如果與藏在國內外圖書館的明清版本做比較,這些全文有幾個關鍵的差別,對人文學者的研究會造成相當大的影響。想利用這些文本,人文學者要考慮到把這些全文輸入到分析工具之前可能還有安排很長時間來校對全文與原本。面對metadata,人文學這會遇到類似的問題:全文平台提供的metadata通常卻資料,需要學者自己花時間填,也可能需要學者自己先對所下載的全文做考察。

再三,我們操作了DocuSky所提供「探勘與分析」工具,如「文本對讀工具」、「文本風格分析工具」、「相關文件推薦工具」等等,最我們初步的操作雖然還沒有具體的結果,但我們已經可以了解到,如果以後設計一個文本探勘的研究計畫,可能要連續用幾個不同的分析工具,才可以得到對我們有用的統計結果或把資料視覺化。但在場的人文學者也非常清楚,這樣的分析不能當研究的全部,我們根據出來的結果得發展人文學分析。

本讀書會的第一場指出一個數位人文學的基本問題:學使用數位工具的人文學者常常花很多時間在學摸索和練習數位工具上,跟自己寫程序的數位人文學這部一樣,我們也受已經存在的數位工具與平台的限制,而在初探數位人文學的時候由於對數位工具不夠熟悉,也通常無法對工程師表達想要發展的研究或分析方向。本讀書會因此也將來回會請幾位數位人文學的專家來政大做演講,但同時也繼續數位人文學的方法論。

 
回覆文章