Home

Awesome

Multi Candidate Thai Word Segmentation

Most existing word segmentation methods output one single segmentation solution. This project provides an analysis of word segmentation performance when more than one solutions are taken into account. This code are used in this paper link

Performance of Single Candidate

BEST2009 - Evaluate on correction of boundary of text
Strick InterBEST - Strick on Name Entity that should tokenizes correctly

MeasurementPrecisionRecallF1
BEST200995.95%96.23%96.01%
Strick InterBEST90.59%94.27%92.40%

Prerequisites

Weights & Dictionaries

Weights & Dictionaries can be download from this link

Required libraries

Corpus

Text corpus from InterBEST 2009/2010

Usage

txt = 'เมื่อหนุ่มคนดังกล่าวขับ'
one_candidate(txt)
multi_candidate(txt)

Output of one candiate

เมื่อ|หนุ่ม|คน|ดัง|กล่าว|ขับ|

Output of multi-candidate

เมื่อหนุ่มคน|ดังกล่าวขับ
เมื่อหนุ่มคน|ดังกล่าว|ขับ
เมื่อหนุ่มคน|ดัง|กล่าว|ขับ
เมื่อหนุ่ม|คน|ดัง|กล่าว|ขับ
เมื่อ|หนุ่ม|คน|ดัง|กล่าว|ขับ
เมื่อ|หนุ่ม|คน|ดัง|กล่าว|ขับ|
เมื่อ|ห|นุ่ม|คน|ดัง|กล่าว|ขับ|
เมื่อ|ห|นุ่ม|คน|ดัง|ก|ล่าว|ขับ|
เมื่อ|ห|นุ่ม|คน|ดัง|ก|ล่า|ว|ขับ|
เมื่อ|ห|นุ่|ม|คน|ดัง|ก|ล่า|ว|ขับ|
เมื่อ|ห|นุ่|ม|ค|น|ดัง|ก|ล่า|ว|ขับ|

Author

License

MIT