WordSenseDisambiguation

THUCC 文言文词义消歧软件

内容

软件简介

文言文词义消歧是THUCC的一项功能，用于自动判断文言文中多义词的义项。该功能有以下两种实现：

基于卷积神经网络的词义消歧系统，需要监督学习
基于词对齐的词义消歧系统，无监督学习

由于词义消歧相关的标注语料稀少，第二种实现的效果显著好于第一种实现。

在线演示

http://166.111.5.245:6789/cnn

运行环境

本软件在如下环境经过测试，但应能在兼容的环境下运行：

64位Linux
Python 2.7

使用说明

基于卷积神经网络的词义消歧系统：

下载文言文词义消歧数据集，使用训练语料为各个字训练模型：python traincnnmulti.py --train [训练集路径] --dev [开发集路径] --dic [词典文件路径]
在测试语料上测试准确率：python test_dataset.py --test [测试集路径] --dic [词典文件路径]
如果想要使用文言文单语语料重新训练词向量模型，请参考Gensim

基于词对齐的词义消歧系统：

使用对齐模型进行词义消歧：python wsd_align.py --wenyan [文言文] --baihua [白话文] --index [待消歧字的位置]

例如，使用如下命令对文言文中的第一个字“乃”进行消歧：python wsd_align.py --wenyan 乃不知有汉 --baihua 竟然不知道有汉朝 --index 0
如果想要使用平行语料重新训练对齐模型，请参考TsinghuaAligner

数据下载

请到这个页面下载数据和模型

开发人员

贡献者：张嘉成

开源协议

我们面向国内外大学、研究所、企业以及个人用于研究目的免费开放源代码。
如有机构或个人拟将改软件包用于商业目的，请发邮件至[email protected]洽谈技术许可协议。
欢迎对该软件包提出任何宝贵意见和建议。请发邮件至[email protected]。

Name		Name	Last commit message	Last commit date
parent directory ..
CNN_based		CNN_based
align_based		align_based
readme.md		readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

WordSenseDisambiguation

WordSenseDisambiguation

readme.md

THUCC 文言文词义消歧软件

内容

软件简介

在线演示

运行环境

使用说明

数据下载

开发人员

开源协议

Files

WordSenseDisambiguation

Directory actions

More options

Directory actions

More options

Latest commit

History

WordSenseDisambiguation

Folders and files

parent directory

readme.md

THUCC 文言文词义消歧软件

内容

软件简介

在线演示

运行环境

使用说明

数据下载

开发人员

开源协议