模組架構圖暨專利資訊


搜尋引擎(檢索模組)

搜尋引擎在本專案中扮演儲存文字資料及資料查找的核心角色。本公司提供之搜尋引擎,則更進一步在文字探勘及雲端服務架構上提供了彈性的擴充,能將多數的分析模組整合其中並統一輸出,達到「一站式」的服務效果。主要特徵包含: 輸入輸出介面: 採Web API方式進行資料查找及存取,方便達到跨系統資訊再利用。 客製化索引建置: 一般搜尋引擎多採一資料一索引的架構,但因為索引的目的除了加速資料查找之外,也經常作為關鍵字句等探勘分析統計的基礎,因此單一一種索引通常難以兼具兩者。而本公司所採用之搜尋引擎能針對一資料建構多種索引,例如以任何中文單一字元作為索引能確保資料查找結果不遺漏;以中文分詞結果做索引能方便關鍵字詞統計;以中文分詞結果配合專業詞庫或是詞性標記結果做過濾能更精準掌握解所結果中使用者可能有興趣的主題等。此外索引檔本身之內容亦可透過輸入輸出介面做查找,方便使用者做後續的分析。 結果輸出前的客製化結果分析: 一般搜尋引擎僅能輸出查找資料的結果,而本公司所採用之搜尋引擎能對查找資料結果以模組化方式對結果進行分析後把分析結果與檢索結果一併回傳,例如多維度的統計、關鍵字句、分類、聚類、人名、地名等。 雲端化架構: 一般搜尋引擎索引多需綁定在特定機器,不僅在備份、搬遷等情況下非常麻煩,並且對於資料擴增或是存取量大時的處置方式大多也只能以換機器等方式處理。而本公司所採用之搜尋引擎不僅方便索引搬遷,甚至能放在隨身硬碟上隨插即用,且支援分散式索引,能讓索引檔分散在多臺機器上,遠遠降低資料量大或是存取量大時造成架構上的衝擊。 低投資成本: 由於分散式設計本系統並無使用人數及資料筆數限制與其他蒐尋引擎差異甚鉅,能大幅減低投資成本。


決策樹分類模組

策樹式分類法,其一方面能以機器學習機制(如上圖中ID3、C4.5/C5或random forests等)系統化整理大量的決策因子,找出適當的決策路徑,免除了單純以文件間文字的相似度作為評斷依據的武斷及難以調整的窘境 ;一方面容易視覺化呈現供專家修改調整,而產出的分類模型事實上便是專家決策的標準作業程序,因此可以較完整的將專家智慧給保存下來供後續再利用。


文句對列模組

『文句對列技術』,能夠針對裁判書間之段落、句子與詞彙進行兩兩對列,找出相似的語句進而建立起量刑因子知識庫。


中文分詞詞性標記模組

中文分詞及詞性標記模組能夠將文章進行「分詞」「標註詞性」,例如名詞、動詞、時間副詞等,然後再進一步細分為人名、地址、電話號碼等標記。文字探勘最重要的,就是要做分詞及詞性標記。


聚類模組

聚類演算法能找出文件之間共同相似的部分,而將這些具有共同相似部分的文件歸為一類。善用聚類,一方面能自動為使用者找出文件間的共通字句,一方面也能找出相近或重複資料,例如不同的新聞來源可能有收錄相同的新聞,運用此演算法能找出可能的重複文章。


混合式分類模組

混合式分類是本公司所提出的一種整合規則式及機器學習式(如決策樹)的分類手法,讓使用者能用類似檢索條件的手法,輸入關鍵字或是某種分類器的分類結果,因此能兼具兩種分類方式的優點。


關鍵字詞模組

關鍵字詞分析可以用在多篇文章的共同解析,讓使用者儘速掌握大量文章的重點。有別於單篇文章的解析,多篇文章的共同解析可以增強或降低文章間共同關鍵字的比重,藉此掌握共同關鍵或是差異化的訊息。


網頁動態圖表模組

本團隊提供豐富的動態網頁圖表套件,能依照使用者需要或是依分析結果所需在大量的圖庫樣板中快速客製所需的視覺效果。