CBDBRegexMachine

下載CBDBRegexMachine

CBDBRegexMachine 是一個 CBDB 發展的工具(軟體), 能讓人運用圖像式的使用介面 (Graphical User Interface, GUI) 來組織、設計正規表示式 (regular expressions) ,以從全文資料中擷取具有特殊書寫形式的資訊(譬如中文史料中常見的「日期」,多以年號開始,後接年、月、日)。此工具並能將擷取結果匯出為 XML 檔,便於後續的應用。

此工具的介面包含三個部分:

(1) 欲擷取資訊的全文檔案,顯示於畫面下方的 Data View

(2) 已經設計好的正規表示式,顯示於畫面上半部、左半邊的 Active Regex。每一個正規表示式 (regex) 都對應到一個顏色,在 Data View 的全文檔中,也同時相同的顏色來顯示符合此 regex 的文字。

譬如下圖中,紫色、藍色、藍綠、與綠色代表的 regex ,分別能從全文檔中擷取出四種不同「日期」的書寫方式,金色與橘色則能節取出全文傳記中人物的「字」與「號」,紅色則擷取人物的「籍貫」。

(3) 畫面上半部、右邊的 Term List 與 Auxiliary Regex ,則收集了用來組成正規表示式的小部件。使用者可以提供詞彙清單 (term list) 匯入到此工具,來快速找出哪些詞彙出現於全文檔中。

 

Credit:

  • Elif Yamagil (主要開發者)
  • Hou Ieong Ho / 何浩洋 (開發者)
  • Sophia Huang / 黃智愛 (早期參與者)

CBDBRegexMachine_July2012.zip

下載 CBDBRegexMachine(請點選上方連結)。解壓縮後,請先閱讀 docs 子目錄下的 "Using CBDBRegexMachine.pptx" 了解如何安裝。

a_regex_machine_yamangil_chen_bol.pdf

Regular Expressions.ppt

使用正則表達式提取文本:

text extraction regex_materials.zip

text extraction regex_shihpei.ppt