Awesome
SEANLP: Southeast Asia Natural Language Processing
东南亚语言信息处理
SEANLP目前有以下功能:
-
泰语:
- TCC(Thai Character Cluster)切分
- 音节切分
- 层叠条件随机场分词
- 单层条件随机场分词
- 词典极速分词
- 词典正向最长匹配分词
- 词典逆向最长匹配分词
- 词典正向最短匹配分词
- 词典逆向最短匹配分词
- 词性标注
- 句子相似度计算
- 关键词抽取
- 自动摘要
-
越南语:
- 条件随机场分词
- 词典极速分词
- 词典正向最长匹配分词
- 词典逆向最长匹配分词
- 词典正向最短匹配分词
- 词典逆向最短匹配分词
- 词性标注
- 句子相似度计算
- 关键词抽取
- 自动摘要
-
柬埔寨语(高棉语):
- KCC切分
- 条件随机场分词
- 词典极速分词
- 词典正向最长匹配分词
- 词典逆向最长匹配分词
- 词典正向最短匹配分词
- 词典逆向最短匹配分词
- 词性标注
- 句子相似度计算
- 关键词抽取
- 自动摘要
-
老挝语:
- 词典极速分词
- 词典正向最长匹配分词
- 词典逆向最长匹配分词
- 词典正向最短匹配分词
- 词典逆向最短匹配分词
- 词性标注
- 句子相似度计算
- 关键词抽取
- 自动摘要
-
缅甸语:
- 音节切分
- 条件随机场分词
- 词典极速分词
- 词典正向最长匹配分词
- 词典逆向最长匹配分词
- 词典正向最短匹配分词
- 词典逆向最短匹配分词
- 句子相似度计算
说明
-
什么是TCC (Thai Character Cluster),借用Wittawat Jitkrittum的另一种TCC切分实现中的解释:proposed in Character Cluster Based Thai Information Retrieval is a group of inseparable Thai characters. This inseparability derives from Thai writing system which is independent of any context. As a result, TCC can be determined by a simple list of rules describing e.g., what characters need to follow/precede other characters.
-
泰语TCC和高棉语KCC切分使用
规则+正则表达式
实现,效率较低;泰语TCC切分可参考Wittawat Jitkrittum的另一种实现。 -
泰语单层条件随机场分词模型比层叠条件随机场分词模型大很多,需要很大的内存才能运行(
-Xmx>2G
)。 -
缅甸语音节切功能中,由于音节词典中存在不同的编码和字库,不同的编码和字库书写顺序存在区别,所用缅甸语音节切分目前基本不能用。
-
缅甸语没有词性标注功能,所有缅甸语关键词抽取也存在问题。
-
分词中层叠条件随机场效果最好,最短匹配分词效果最差。
-
停用词不够全,主要包含了泰语和越南语的停用词。
下载
方法一、直接下载源码编译
可以自己接下载本项目源码进行打包
wget https://github.com/zhaoshiyu/SEANLP/archive/master.zip
unzip master.zip
cd SEANLP-master
mvn clean package -Dmaven.test.skip=true
或者git clone本项目:
git clone https://github.com/ZhaoShiyu/SEANLP.git
cd SEANLP
mvn clean package -Dmaven.test.skip=true
注意:此处下载的源码中不包含泰语单层条件随机场分词模型,需要完整模型请用方法二。
方法二、下载jar
下载SEANLP-1.1.0.jar, 或者使用seanlp-1.1.0-sources.jar中的模型。
调用
SEANLP所有的功能都可以通过工具类SEANLP
进行调用。调用格式为SEANLP.语言.功能
。
内存要求
单层条件随机场泰语分词模型很大,需要-Xmx>2G
Demo
demo可以参考下列位置:<br> 1. 分词和词性标注<br> 2. 句子相似度计算<br> 3. 关键词抽取和自动摘要<br>
1、分词和词性标注:
package cn.edu.kmust.seanlp.demo;
import cn.edu.kmust.seanlp.SEANLP;
/**
* 分词demo
* @author Zhao Shiyu
*
*/
public class SegmentDemo {
public static void main(String[] args) {
//泰语分词
String thText = "ความสัมพันธ์ในทางเศรษฐกิจกับระบบความสัมพันธ์ทางกฎหมาย";
System.out.println(SEANLP.Thai.syllableSegment(thText));
System.out.println(SEANLP.Thai.dCRFSegment(thText));
//System.out.println(SEANLP.Thai.gCRFSegment(thText));
System.out.println(SEANLP.Thai.datSegment(thText));
System.out.println(SEANLP.Thai.maxSegment(thText));
System.out.println(SEANLP.Thai.minSegment(thText));
System.out.println(SEANLP.Thai.reMaxSegment(thText));
System.out.println(SEANLP.Thai.reMinSegment(thText));
//越南语分词
String viText = "Hệ thống tín dụng - ngân hàng cũng tăng trưởng khá, ngày càng giữ vai trò quan trọng trong cơ cấu kinh tế Thủ đô.";
System.out.println(SEANLP.Vietnamese.crfSegment(viText));
System.out.println(SEANLP.Vietnamese.datSegment(viText));
System.out.println(SEANLP.Vietnamese.maxSegment(viText));
System.out.println(SEANLP.Vietnamese.minSegment(viText));
System.out.println(SEANLP.Vietnamese.reMaxSegment(viText));
System.out.println(SEANLP.Vietnamese.reMinSegment(viText));
//柬埔寨语(高棉语)分词
String khText = "ធាតុពិតនិងការបន្ដគំរាមកំហែងមកលើអ្នកការពារសិទ្ធិមនុស្សនៅកម្ពុជា។របាយការណ៍នេះផ្អែកលើការស៊ើបអង្កេតតែ";
System.out.println(SEANLP.Khmer.crfSegment(khText));
System.out.println(SEANLP.Khmer.datSegment(khText));
System.out.println(SEANLP.Khmer.maxSegment(khText));
System.out.println(SEANLP.Khmer.minSegment(khText));
System.out.println(SEANLP.Khmer.reMaxSegment(khText));
System.out.println(SEANLP.Khmer.reMinSegment(khText));
//老挝语分词
String loText = "ທ່ານວິນເຄັນເປັນປະທານບໍລິສັດອຽວເຊີວີເອີແອນ.ວີ.ກຸ່ມບໍລິສັດການພິມຂອງຊາວດັດ.";
System.out.println(SEANLP.Lao.datSegment(loText));
System.out.println(SEANLP.Lao.maxSegment(loText));
System.out.println(SEANLP.Lao.minSegment(loText));
System.out.println(SEANLP.Lao.reMaxSegment(loText));
System.out.println(SEANLP.Lao.reMinSegment(loText));
//缅甸语分词
String buText = "ကံဆိုးကံဇာတာကံထိုက်ကံနခိုကံနှိုးဆော်";
System.out.println(SEANLP.Burmese.datSegment(buText));
System.out.println(SEANLP.Burmese.maxSegment(buText));
System.out.println(SEANLP.Burmese.minSegment(buText));
System.out.println(SEANLP.Burmese.reMaxSegment(buText));
System.out.println(SEANLP.Burmese.reMinSegment(buText));
System.out.println(SEANLP.Burmese.syllableSegment(buText));
}
}
2、句子相似度计算
package cn.edu.kmust.seanlp.demo;
import cn.edu.kmust.seanlp.SEANLP;
/**
* 句子相似度计算demo
* @author Zhao Shiyu
*
*/
public class SimilarityDemo {
public static void main(String[] args) {
String thText = "ความสัมพันธ์ในทางเศรษฐกิจกับระบบความสัมพันธ์ทางกฎหมาย";
String viText = "Hệ thống tín dụng - ngân hàng cũng tăng trưởng khá, ngày càng giữ vai trò quan trọng trong cơ cấu kinh tế Thủ đô.";
String khText = "ធាតុពិតនិងការបន្ដគំរាមកំហែងមកលើអ្នកការពារសិទ្ធិមនុស្សនៅកម្ពុជា។របាយការណ៍នេះផ្អែកលើការស៊ើបអង្កេតតែ";
String loText = "ທ່ານວິນເຄັນເປັນປະທານບໍລິສັດອຽວເຊີວີເອີແອນ.ວີ.ກຸ່ມບໍລິສັດການພິມຂອງຊາວດັດ.";
String buText = "ကံဆိုးကံဇာတာကံထိုက်ကံနခိုကံနှိုးဆော်";
System.out.println(SEANLP.Thai.sentenceSimilarity(thText, thText));
System.out.println(SEANLP.Vietnamese.sentenceSimilarity(viText, viText));
System.out.println(SEANLP.Khmer.sentenceSimilarity(khText, khText));
System.out.println(SEANLP.Lao.sentenceSimilarity(loText, loText));
System.out.println(SEANLP.Burmese.sentenceSimilarity(buText, buText));
}
}
3、关键词抽取与自动摘要
package cn.edu.kmust.seanlp.demo;
import cn.edu.kmust.seanlp.SEANLP;
/**
* 关键词抽取和自动摘要demo
* @author Zhao Shiyu
*
*/
public class ExtractDemo {
public static void main(String[] args) {
String thDocument = "ญี่ปุ่นควรระมัดระวังคำพูดและพฤติกรรมเกี่ยวกับปัญหาทะเลจีนใต้ \n"
+ "สำนักข่าวแห่งประเทศจีนรายงานว่า นายหง เหล่ย โฆษกกระทรวงการต่างประเทศจีนกล่าวเมื่อวันที่ 19 มกราคมว่า ญี่ปุ่นควรจดจำประวัติศาสตร์การรุกรานให้แม่นยำ สำนึกผิดอย่างยิ่ง และระมัดระวังคำพูดและพฤติกรรมเกี่ยวกับปัญหาทะเลจีนใต้ \n"
+ "นายชินโซ อาเบะ นายกรัฐมนตรีญี่ปุ่นกล่าวเมื่อวันที่ 18 มกราคมว่า ญี่ปุ่นสใส่ใจอย่างยิ่งต่อการที่จีนสร้างเกาะเทียมกลางทะเลจีนใต้ และทดลองบุกเบิกทรัพยากรทั้งน้ำมันและแก๊สธรรมชาติในทะเลจีนตะวันออก เรียกร้องประชาคมโลกแสดงความเห็นเกี่ยวกับเรื่องนี้มากขึ้น \n"
+ "นายหง เหล่ยกล่าวต่อการนี้ว่า การบุกเบิกน้ำมันและแก๊สธรรมชาติของจีน ล้วนกระทำในน่านน้ำทะเลที่อยู่ภายใต้การควบคุมของจีนเองโดยปราศจากข้อกังขา ทุกสิ่งทุกอย่างอยู่ในกรอบอธิปไตยของจีนเอง อนึ่ง จีนครองอธิปไตยเหนือหมู่เกาะหนานซาและน่านน้ำทะเลโดยรอบอย่างมิอาจโต้แย้งได้";
String viDocument = "Đại hội lần thứ XII của Đảng họp phiên trù bị"
+ "NDĐT- Sáng 20-1, Đại hội đại biểu toàn quốc lần thứ XII của Đảng họp phiên trù bị, hoàn tất công tác chuẩn bị cần thiết cho phiên khai mạc sẽ diễn ra vào 8 giờ sáng 21-1."
+ "Mở đầu phiên họp trù bị, đồng chí Lê Hồng Anh, Ủy viên Bộ Chính trị, Thường trực Ban Bí thư Trung ương Đảng tuyên bố lý do."
+ "Đồng chí Trương Tấn Sang, Ủy viên Bộ Chính trị, Chủ tịch nước điều khiển phiên họp. Tiếp đó, Chủ tịch nước Trương Tấn Sang xin ý kiến Đại hội thông qua chương trình phiên họp trù bị, thông qua Quy chế làm việc của Đại hội."
+ "Đại hội đã hoàn thành các phần việc quan trọng gồm: bầu Đoàn Chủ tịch, Đoàn thư ký, Ban thẩm tra tư cách đại biểu, thông qua chương trình làm việc của Đại hội, thông qua Quy chế bầu cử của Đại hội và thông qua Báo cáo thẩm tra tư cách đại biểu."
+ "Buổi chiều, các đại biểu nghiên cứu tài liệu tại đoàn."
+ "Ngày mai 21-1, Đại hội đại biểu toàn quốc lần thứ XII của Đảng khai mạc tại Trung tâm Hội nghị quốc gia, Hà Nội. Đại hội tiến hành từ ngày 21 đến 28-1-2016, có nhiệm vụ đánh giá việc thực hiện Nghị quyết Đại hội XI của Đảng và nhìn lại chặng đường 30 năm đổi mới đất nước; thảo luận, thông qua Báo cáo Chính trị của Ban Chấp hành Trung ương khóa XI; các báo cáo: đánh giá kết quả thực hiện nhiệm vụ phát triển kinh tế- xã hội năm năm 2011-2015 và phương hướng nhiệm vụ phát triển kinh tế- xã hội năm năm 2016- 2020; kiểm điểm sự lãnh đạo, chỉ đạo của Ban Chấp hành Trung ương khóa XI; tổng kết thi hành Điều lệ Đảng khóa XI và đề xuất bổ sung, sửa đổi (nếu có); việc thực hiện Nghị quyết T.Ư 4 khóa XI về xây dựng Đảng. Đại hội bầu Ban Chấp hành Trung ương khóa XII. Chủ đề của Đại hội là Tăng cường xây dựng Đảng trong sạch, vững mạnh; phát huy sức mạnh toàn dân tộc và dân chủ xã hội chủ nghĩa; đẩy mạnh toàn diện, đồng bộ công cuộc đổi mới; bảo vệ vững chắc Tổ quốc, giữ vững môi trường hòa bình, ổn định; phấn đấu sớm đưa nước ta cơ bản trở thành nước công nghiệp theo hướng hiện đại."
+ "Tham dự Đại hội XII có 1510 đại biểu, đại diện cho hơn 4,5 triệu đảng viên, trong đó đại biểu đương nhiên có 197 đồng chí là Ủy viên Trung ương chính thức và dự khuyết khóa XI; 1300 đại biểu được bầu tại các đại hội Đảng bộ trực thuộc Trung ương; 13 đại biểu chỉ định. Công tác chuẩn bị Đại hội đã được Ban Chấp hành Trung ương, trực tiếp là Bộ Chính trị, Ban Bí thư chỉ đạo chặt chẽ, đến nay đã hoàn tất.";
String loDocument = "ປະທານປະເທດຈີນເລີ່ມຢ້ຽມຢາມຊາອຸດິດອາຣັບບີ \n"
+ "ເວລາ 13:35 ໂມງຂອງວັນທີ 19 ມັງກອນນີ້ຕາມເວລາທ້ອງຖິ່ນ, ທ່ານ ສີຈີ້ນຜິງ ປະທານປະເທດຈີນໄດ້ເດີນທາງໄປຮອດສະໜາມບິນສາກົນກະສັດຄາເລັດທີ່ນະຄອນຫຼວງລີອັດດ້ວຍຍົນພິເສດ ເພື່ອຢ້ຽມຢາມຊາອຸດິດອາຣັບບີທາງລັດຖະກິດ. \n"
+ "ທ່ານ ສີຈິ້ນຜິງ ຊີ້ອອກວ່າ, ຊາອຸດິດອາຣັບບີແມ່ນປະເທດອາຣັບແລະອິສລາມທີ່ໃຫຍ່, ແລະກໍແມ່ນສະມາຊິກທີ່ສຳຄັນຂອງກຸ່ມ 20 ປະເທດ. ນັບແຕ່ຈີນກັບຊາອຸດິດອາຣັບບີສ້າງສາຍພົວພັນການທູດນຳກັນເປັນເວລາ 26 ປີມານີ້, ການພົວພັນລະຫວ່າງສອງຝ່າຍໄດ້ຮັບການພັດທະນາແບບກ້າວກະໂດດ ໂດຍມີຄວາມໄວ້ເນື້ອເຊື່ອໃຈກັນດ້ານການເມືອງນັບມື້ນັບເລິກເຊິ່ງ, ການຮ່ວມມືໃນທຸກຂົງເຂດໄດ້ຮັບໝາກຜົນທີ່ອຸດົມສົມບູນ ອັນໄດ້ນຳມາເຊິ່ງຄວາມຜາສຸກທີ່ໃຫຍ່ຫຼວງແກ່ປະຊາຊົນສອງປະເທດ. ໃນໄລຍະຢ້ຽມຢາມຄັ້ງນີ້, ຂ້າພະເຈົ້າຈະຮ່ວມກັບສົມເດັດ ໂມຮາມເມັດ ບິນ ຊາເລີມານ ເພື່ອແລກປ່ຽນຄວາມຄິດເຫັນກ່ຽວກັບການພົວພັນສອງຝ່າຍພ້ອມດ້ວຍບັນຫາສາກົນແລະພາກພື້ນທີ່ສົນໃຈຮ່ວມກັນ, ແລະເພື່ອຊຸກຍູ້ສາຍພົວພັນມິດຕະພາບແລະການຮ່ວມມືລະຫວ່າງຈີນ-ຊາອຸດິດອາຣັບບີໃຫ້ພັດທະນາວ່ອງໄວແລະໃຫຍ່ຫຼວງກວ່າເກົ່າ. ຂ້າພະເຈົ້າເຊື່ອໝັ້ນວ່າ, ການຢ້ຽມຢາມເທື່ອນີ້ ຈະເຕັມໄປດ້ວຍໄມຕີຈິດມິດຕະພາບແລະໝາກຜົນທີ່ອຸດົມສົມບູນ ເຊິ່ງຈະຊ່ວຍຊຸກຍູ້ການຮ່ວມມືລະຫວ່າງສອງຝ່າຍໃນທຸກຂົງເຂດຂຶ້ນສູ່ລະດັບໃໝ່ ທັງຈະມີຜົນດີຕໍ່ການຍົກລະດັບການຮ່ວມມືລະຫວ່າງຈີນກັບປະເທດສະມາຊິກໃນສະພາຮ່ວມມືອ່າວເປີເຊຍໃຫ້ສູງຂຶ້ນ. \n"
+ "ຫຼັງຈາກສິ້ນສຸດການຢ້ຽມຢາມຊາອຸດິດອາຣັບບີແລ້ວ, ທ່ານ ສີຈິ້ນຜິງ ຍັງຈະເດີນທາງໄປຢ້ຽມຢາມເອຢິບແລະອີຣານທາງລັດຖະກິດຕື່ມອີກ. ";
String kmDocument = "អប់រំចំណេះទូទៅ \n "
+ "កំឡុងឆ្នាំ ២០០៩-២០១៣ សកម្មភាពគោលនយោបាយមួយចំនួនត្រូវបានរៀបចំដូចជា ផែនការគោលស្តីពីការអភិវឌ្ឍមធ្យមសិក្សា និងសៀវភៅប្រតិបត្តិសម្រាប់ដំណើរការមជ្ឈមណ្ឌលធនធានសម្រាប់មធ្យម សិក្សា គោលនយោបាយស្តីពីសាលាកុមារមេត្រីនៅមធ្យមសិក្សា និងការកែលម្អកម្មវិធីសិក្សា។ប្រព័ន្ធវិក្រឹតការគ្រូបង្រៀន លើមុខវិជ្ជាគណិតវិទ្យានិងវិទ្យាសាស្ត្រត្រូវបានរៀបចំ។ កម្មវិធីបំណិនជីវិតបច្ចេកវិទ្យា ព័ត៌មាន និងទេសចរណ៍ត្រូវបានអនុម័ត និងស្តង់ដារបណ្ណាល័យនៅមធ្យមសិក្សាកំពុងរៀបចំជាសេចក្តីព្រាង។ \n"
+ "ការចូលរៀន និងគុណភាពនៅកម្រិតនេះមានការប្រែប្រួលតិចតួច។ អត្រាត្រួតថ្នាក់បានថយចុះ តិចតួច ប៉ុន្តែអត្រាបោះបង់ការសិក្សាមិនមានប្រែប្រួលទេ។ សិស្សភាគច្រើនបានជ្រើសរើសយកមុខវិជ្ជា វិទ្យាសាស្ត្រពិត។ ទោះយ៉ាងណាក៏ដោយ គុណភាពនៅកម្រិតនេះមិនទាន់អាចវាស់វែងបាននៅឡើយ ដោយសារពុំទាន់បានធ្វើតេស្តវាយតម្លៃថ្នាក់ជាតិនៅថ្នាក់ទី ១២។ អាហារូបករណ៍បានផ្តល់ជារៀងរាល់ឆ្នាំ។ សិស្សបានទទួលមេដាយលើមុខវិជ្ជាគណិតវិទ្យានិងវិទ្យាសាស្ត្រ ពីកម្មវិធីប្រកួតស៊ីមេអូអូឡាំព្យាដ និងកម្មវិធីប្រកួតអន្តរជាតិផ្សេងៗទៀត។ \n"
+ "ប្រព័ន្ធវាយតម្លៃ ថ្នាក់ជាតិត្រូវបានដាក់ឱ្យអនុវត្តនិងមានថវិកាសម្រាប់ដំណើរការ។ ការប្រឡងថ្នាក់ជាតិនៅថ្នាក់ទី ៩ និងទី ១២ ត្រូវបានអនុវត្តជាទៀងទាត់។ \n"
+ "ចំនួនអនុវិទ្យាល័យ និងវិទ្យាល័យបានកើនឡើង។ សាលាមធ្យមសិក្សាបឋមភូមិ ៥០ ភាគរយ បានអភិវឌ្ឍទៅជាសាលាមធ្យមសិក្សាទុតិយភូមិ។ មជ្ឈមណ្ឌលធនធាននៅមធ្យមសិក្សាត្រូវបានក៏សាងនៅគ្រប់រាជធានី ខេត្ត។ សាលាមធ្យមសិក្សាបឋមភូមិចំនួន ១៤១ ក្នុងខេត្ត ៨ មានបន្ទប់កុំព្យូទ័រ។ ប្រព័ន្ធនៃការបណ្តុះបណ្តាលនិងវិក្រឹតការគ្រូបង្រៀន ជាពិសេសគ្រូបង្រៀនកម្រិតអប់រំមូលដ្ឋាននៅមជ្ឈមណ្ឌលគរុកោសល្យភូមិភាគ និងវិទ្យាស្ថានជាតិអប់រំកំពុងត្រូវបានពង្រីក។ ការងារវិក្រឹតការលើមុខវិជ្ជាគណិតវិទ្យានិងវិទ្យាសាស្ត្រ ក៏កំពុងពង្រីកផងដែរ។ នាយកសាលាមធ្យមសិក្សាទុតិយភូមិទាំងអស់ និងនាយកសាលាមធ្យមសិក្សាបឋមភូមិមួយចំនួនបានទទួលការបំប៉នស្តីពី ការគ្រប់គ្រងនិងដឹកនាំ។ ប្រធានក្រុមបច្ចេកទេសនៃមជ្ឈមណ្ឌលធនធាននៅមធ្យមសិក្សានិងបណ្តាញ ទាំងអស់បានទទួលការបំប៉ន ស្តីពីស្តង់ដារកម្មវិធីសិក្សា។ គោលនយោបាយសាលាកុមារមេត្រីត្រូវបានអនុវត្តនៅសាលាចំនួន ៨២៣ (៥០,៧៤ ភាគរយនៃសាលាមធ្យមសិក្សាបឋមភូមិ)។ \n"
+ "បញ្ហាប្រឈមពេលខាងមុខគឺ ការបង្កើនសមធម៌ក្នុងការចូលរៀននៅមធ្យមសិក្សា តាមរយៈបង្កើនចំនួនសាលាមធ្យមសិក្សាបឋមភូមិឱ្យបានគ្រប់ឃុំ សង្កាត់និងវិទ្យាល័យនៅគ្រប់ស្រុក ខណ្ឌ។ គុណភាពរបស់សិស្សបញ្ចប់ថ្នាក់ទី ១២ ត្រូវលើកកម្ពស់ និងផ្តល់នូវចំណេះដឹងពាក់ព័ន្ធដទៃទៀត សម្រាប់ការអប់រំបច្ចេកទេស វិជ្ជាជីវៈ និងឧត្តមសិក្សា។ សាលាមធ្យមសិក្សាភាគច្រើន ជាពិសេសនៅតំបន់ជនបទខ្វះខាតធាតុចូលដែលមានគុណភាពដូចជា គ្រូបង្រៀនតាមមុខវិជ្ជា សម្ភារៈបង្រៀននិងគ្រឿងបរិក្ខារ សៀវភៅសិក្សាគោល បន្ទប់ពិសោធវិទ្យាសាស្ត្រ បន្ទប់កុំព្យូទ័រនិងភាសា និងបរិក្ខារបណ្ណាល័យ។ វិធីសាស្ត្រក្នុងការបង្រៀនក្នុងពេលបច្ចុប្បន្នអនុវត្តតាមរបៀប ជាមេរៀន ចម្លងតាម ដកស្រង់ និងការចងចាំ។ វិធីសាស្ត្រទាំងនេះគួរត្រូវបញ្ចូលនូវការគិត និងជំនាញវិភាគ។ ស្តង់ដារគ្រូបង្រៀនគួរត្រូវពិនិត្យតាមដាន វាយតម្លៃ និងអភិវឌ្ឍជាប្រចាំ។ \n"
+ "ការអប់រំបច្ចេកទេសជាមុខងារថ្មីមួយក្នុង ក្រសួង និងទើបតែបានអនុម័តគោលនយោបាយស្តីពី ការអប់រំបច្ចេកទេស។ ក្នុងគោលនយោបាយនេះបានលើកឡើងពី ការបង្កើតវិទ្យាល័យចំណេះទូទៅនិង បច្ចេកទេសនៅគ្រប់រាជធានី ខេត្ត។ នាពេលបច្ចុប្បន្ន សាលាមធ្យមសិក្សាចំណេះទូទៅនិងបច្ចេកទេសចំនួនពីរកំពុងដំណើរការ និងផ្តល់នូវមុខវិជ្ជាសំខាន់បួន។ សិស្សដែលបញ្ចប់ការសិក្សានៅសាលាទាំងនេះ អាចរកការងារបាន។ \n"
+ "កម្មវិធី អប់រំបច្ចេកទេសដែលកំពុងអនុវត្តនាពេលបច្ចុប្បន្ន មានកង្វះខាតទាំងក្របខណ្ឌគុណភាពដ៏រឹងមាំ និងធាតុចូលដែលមានគុណភាព។ ប្រព័ន្ធទទួលស្គាល់និងប្រព័ន្ធធានាគុណភាពសាលារៀនមិនទាន់បានបង្កើត ព្រមទាំងទំនាក់ទំនងរវាងប្រព័ន្ធអប់រំនិងទីផ្សារការងារនៅមានកម្រិត ។ ប្រព័ន្ធគ្រប់គ្រង រដ្ឋបាលនិងហិរញ្ញវត្ថុសាលារៀនមិនទាន់បង្កើត។ ការងារអប់រំបច្ចេកទេសត្រូវដកបទពិសោធពីប្រទេសដទៃ។ ដៃគូអភិវឌ្ឍជាច្រើនបានចាប់អារម្មណ៍គាំទ្រដល់កម្មវិធីនេះ។";
String buDocument = "ဂ်ာကာတာ-ဘန္ေဒါင္း ျမန္နွုုန္းျမင္႔ရထားလမ္း ေဖါက္လုပ္မည္\n"
+ "တရုတ္နုိင္ငံေတာ္ေကာင္စီဝင္ ဝမ္ယုံသည္ တရုတ္-အင္ဒုိနီးရွား ပူးေပါင္း ေဆာက္လုပ္ေသာ ဂ်ာကာတာ-ဘန္ေဒါင္း ျမန္နွုန္းျမင္႔ရထား စတင္ ေဖါက္လုပ္ေရး အလမ္းအနားသုိ႔ တက္ေရာက္ရန္ ၂၀- ရက္ေန႔မွ ၂၂ ရက္ေန႔အထိ အင္ဒုိနီးရွားသုိ႔ ခရီးထြက္သြားမည္ ျဖစ္ေၾကာင္း၊ အင္ဒုိနီးရွား သမၼတ က်ိဳကုိသည္လည္း အခမ္းအနားသုိ႔ တက္ေရာက္မည္ ျဖစ္ေၾကာင္း၊ ယင္းရထားလမ္းသည္ အင္ဒုိနီးရွား၌ ပထမဦးဆုံး ျမန္နွုန္းျမင္႔ရထားလမ္း ျဖစ္ျပီး အင္ဒုိနီးရွား၏ အေျခခံ အေဆာက္အအုံ ေကာင္းမြန္ ေစေရးနွင္႔ အျပန္အလွန္ ဆက္သြယ္မွု အဆင္႔အတန္း တုိးျမွင္႔ေရးအတြက္ အက်ိဳးရွိမည္ ျဖစ္ေၾကာင္း တရုတ္ျပည္သူ႔ေန႔စဥ္သတင္းစာမွ သတင္းအရ သိရပါသည္။"
+ "ဂ်ာကာတာ-ဘန္ေဒါင္း ျမန္နွုုန္းျမင္႔ရထားလမ္းသည္ စုစုေပါင္း အရွည္ ကီလုိမီတာ ၁၅၀ ရွိျပီး တစ္နာရီလွ်င္ အျမန္ဆုံး ကီလုိမီတာ ၃၀၀ ခုတ္ေမာင္းနုိင္မည္ ျဖစ္ကာ ရထားလမ္း ေဖါက္လုပ္ျပီးေနာက္ ဂ်ာကာတာမွ ဘန္ေဒါင္းသုိ႔ ေပါက္ေရာက္ရန္ အခ်ိန္မွာ လက္ရွိ သုံးနာရီမွေန၍ အာနဂတ္ မိနစ္ ၄၀ မေက်ာ္ေအာင္ ျဖစ္သြားမည္ ျဖစ္ေၾကာင္း၊ ဂ်ာကာတာ-ဘန္ေဒါင္း ျမန္နွုုန္းျမင္႔ရထားလမ္းသည္ အင္ဒုိနီးရွားနုိင္ငံသာ မက အေရွ႔ေတာင္အာရွေဒသတြင္ ပထမဦးဆုံး ျမန္နွုန္းျမင္႔ရထားလည္း ျဖစ္မည္ ျဖစ္ေၾကာင္း၊ ျမန္နွုန္းျမင္႔ရထားလမ္း ေဖါက္လုပ္ျခင္းသည္ အင္ဒုိနီးရွားနုိင္ငံအတြက္ နွစ္စဥ္ အလုပ္အကုိင္ေနရာ ၄ ေသာင္းေက်ာ္ကုိ အသစ္ ဖန္တီးေပးမည္ ျဖစ္ျပီး ရထားလမ္း တေလွ်ာက္က ေဒသမ်ားတြင္ စီးပြါးေရး တဆင္႔တုိး ဖြံ႔ျဖိဳးသြားမည္ ျဖစ္ေၾကာင္း သိရပါသည္။"
+ "ဂ်ာကာတာ-ဘန္ေဒါင္း ျမန္နွုုန္းျမင္႔ရထားလမ္းသည္ တရုတ္ျပည္၏ နုိင္ငံျခား၌ ဒီဇုိင္းေရးဆဲြျခင္း၊ ေဆာက္လုပ္ျခင္း၊ လည္ပတ္ျခင္းနွင္႔ စီမံခန္႔ခဲြျခင္း ျဖစ္စဥ္ တစ္ရပ္လုံးတြင္ ပါဝင္ေဆာင္ရြက္ေသာ ပထမဆုံးေသာ ျမန္နွုန္းျမင္႔ရထားလမ္း ျဖစ္ေၾကာင္း၊ တရုတ္နုိင္ငံတြင္ ကမၻာေပၚတြင္ အတုိင္းအတာ အၾကီးမားဆုံး၊ ျမန္နွုန္း အျမင္႔ဆုံး၊ အေခတ္မီဆုံး၊ စီမံခန္႔ခဲြမွု အေတြ႔အၾကံဳ အရင္႔က်က္ဆုံးေသာ ျမန္နွုန္းျမင္႔ရထားလမ္း ကြန္ရက္ ရွိျပီး တရုတ္ျပည္၏ ျမန္နွုန္းျမင္႔ရထားလမ္းမ်ားသည္ နုိင္ငံတကာ စံခ်ိန္စံနွုန္း ကုိက္မီေရးအဖဲြ႔၊ နုိင္ငံတကာ မီးရထားလုပ္ငန္း အဖဲြ႔ခ်ဳပ္တုိ႔၏ နည္းပညာ စံခ်ိန္စံနွုန္းနွင္႔ လည္း ကုိက္ညီေၾကာင္း ျပည္သူ႔ေန႔စဥ္သတင္းစာတြင္ ေရးသားထားသည္။";
//关键词提取
System.out.println(SEANLP.Thai.extractKeyword(thDocument, 6));
//自动摘要
System.out.println(SEANLP.Thai.extractSummary(thDocument, 3));
System.out.println(SEANLP.Lao.extractKeyword(loDocument, 6));
System.out.println(SEANLP.Lao.extractSummary(loDocument, 3));
System.out.println(SEANLP.Khmer.extractKeyword(kmDocument, 6));
System.out.println(SEANLP.Khmer.extractSummary(kmDocument, 3));
System.out.println(SEANLP.Vietnamese.extractKeyword(viDocument, 6));
System.out.println(SEANLP.Vietnamese.extractSummary(viDocument, 3));
System.out.println(SEANLP.Burmese.extractKeyword(buDocument, 6));
System.out.println(SEANLP.Burmese.extractSummary(buDocument, 3));
}
}
版权
鸣谢
本项目参考和借鉴了优秀开源项目HanLP。在此表示感谢!
感谢昆明理工大学智能信息处理重点实验室各位老师的指导,感谢给我提供帮助的所有人,谢谢!
作者 @Zhao Shiyu