Table of Contents

課程網頁

Chap 7

文件的前置處理

這個是把 input 的東西,轉成一個一個的 word/token

一般的商用系統是以 recall 為主,所以說會保留數字當 index,但不區分大小寫

query 中可以包含一些運算符號或者是 grouping 的東西

找出一堆字根變化的規則,然後砍掉(Porter algo),在 match 的時候可以分為 longest match 或者 partial matching(只考慮字根的前幾個字)。

successor variety 是說在一個 word 中,每一個字母後面可以接的字母的數量(只考慮現在你有的文件們),而通常在 stem 的時候,會有一個 peak 跳出來,因此找 stem 的方式有三種:cut-off(先定義好 successor variety 超過多少的時候就算是 stem)/ peak and plateau(找突然跳起來的 peak!)/ complete word

先算字跟字共用的 n-gram,算法是兩個字共用的 n-gram 數量 * 2 / 兩個字的 n-gram 個數,然後造出一個 matrix,用 single link 的方式 cluster 連起來,於是就可以找到 stem。這個比較像是 term cluster 的東西。

Chap 8

indexing

searching

Project

done

On P4 2.8G, 2G memory

not yet

目錄結構

FBIS[34]/[0-9]{2}/doc no

實驗

exp1

exp2

exp3

exp4

exp5

exp6

exp7

exp8

exp9

exp10

exp11

exp12

exp13

exp14