设为首页收藏本站

NLP Code Studio

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 2393|回复: 6

WordNet 与HowNet 之关系研究

[复制链接]

该用户从未签到

600

主题

669

帖子

1万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
15406
发表于 2014-8-10 00:21:47 | 显示全部楼层 |阅读模式
WordNet 与HowNet 之关系研究

唐旭日

(武汉科技学院  外语系,湖北  武汉  430073)
[内容提要]  WordNet 与 HowNet 在表征论的语义理论框架下对词汇所携带的概念框架信息采用了不同的描述方式。WordNet 采用区别性语义表征,给出了词汇的各种语义关系;HowNet 则采用建构性语义表征,给出了概念及概念关系的义原解释。HowNet的义原能够系统解释WordNet中的各种语义关系。
[关键词]  WordNet;HowNet;语义表征;语义关系;义原
[中图分类号]  H033      [文献标识码]  A      [文章编号]  1008-7427(2007)07-0124-02

一、前言
HowNet(知网)和 WordNet 是在自然语言处理中受到广泛重视和使用的在线知识资源库。HowNet是由中国科学院董振东先生开发的。按照董先生的说法(杜飞龙,1999),“《知网》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。”知网涉及了英语和汉语两种语言的词汇。WordNet则是由 Princeton 大学认知科学实验室George A. Miller等开发的英语词汇知识库。WordNet试图建立一个模仿人脑词汇组织原则的词汇网络,在构建中利用心理学的发现和心理词典的研究成果。目前与WordNet相关的研究已经涉及到了德语、法语等其他多种语言的研究中。

HowNet WordNet 都已应用于自然语言处理的各个领域,如句法歧义消除、语义歧义化解、信息检索、机器翻译等。但是以词汇为载体的知识资源库,两者之间的关系还需要进一步明确。为此,需要回答一系列问题:两者是同一种词汇语义资源吗?如果不是,两者的联系和区别又何在?两者能否综合起来为句法、语义分析提供更丰富的知识资源?而如果能,其理论依据又何在?因此,探讨两者之间的关系,能够为明确两者的关系,为综合应用两种知识资源提供理论框架。而且,还能有助于深入认识词汇知识的内在结构和表示方法。
回复

使用道具 举报

该用户从未签到

600

主题

669

帖子

1万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
15406
 楼主| 发表于 2014-8-10 00:23:10 | 显示全部楼层
二、相同的表征论语义观
语言学范畴内的语义学,其总体目标是认识语言本身的概念和结构。具体而言,包括两个方面的意义:句子意义和词汇意义。根据不同语义学理论对语言、现实和思维之间的关系看法的不同, 语义学的理论研究可以分为两大类(Saeed, 1997):指称论(referential theory)和表征论(representational theory)。指称论认为语言中的词和句子与现实世界相连,词汇和句子的意义来自于它们与现实世界的相互联系,这种联系是一种指称关系,例如名词的意义来自于其对客观世界的个体的指称关系。表征论则认为语言在表达现实世界时受到人大脑中的概念结构所影响,而且这种概念结构是以语言的形式所表现,概念结构的习俗化也是以语言的形式所表现的。  

WordNet和HowNet 都是关于词汇概念的研究,因此在这个意义上,两者在语义本质的看法上是一致的,都立足于表征论的语义观。HowNet建立的是一个汉语和英语词汇知识库。创立者的目的是通过揭示概念与概念之间的关系,以及概念属性之间的关系建立一个常识知识库。虽然HowNet所关心的是概念及其关系, 但在系统中仍然将词汇作为概念的基本表示单位。WordNet从心理语言学的研究出发,希望能在心理学和心理词典的研究成果基础之上建立模仿人脑心理辞典的词汇网络。WordNet关心词与词之间的联系,认为词的意义来自于这种词与词之间的区别性和关联性,而词与词之间的组织方式表示了概念的之间的区别和关联性。共同的表征论的语义观是这两种系统存在联系的理论基础。
回复 支持 反对

使用道具 举报

该用户从未签到

600

主题

669

帖子

1万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
15406
 楼主| 发表于 2014-8-10 00:25:54 | 显示全部楼层
三、相异的表征方式
3.1   区别性概念表征和构建性概念表征
WordNet和HowNet在如何表征概念及词汇意义方面存在方法论上的区别。词汇化的概念可以通过两种途径建立。一种是区别性的方法(Differential Approach) ,一种是构建性的方法(Constructive Approach)。WordNet采用的是区别性的概念表征,而HowNet采用的是构建性的概念表征。

WordNet 中所采用的区别性概念表征认为意义是通过区别来实现的。一个符号的语义与另一个符号的语义之间的如果能够得以区分,那么这个符号本身就是语义,而不需要更多的循环解释。这种语义观也被认为是一种源自索绪尔的结构主义语义观(骆峰,2005) 。结构主义的语义观认为语言本身是一个价值系统,在特定的语言中,每一个要素都由于它同其他各项要素的对立而获得它的价值,要素的意义,来自于其在系统中的组合和聚合关系。朱德熙先生在《语法问答》中谈到形式和意义的关系时认为“讲形式的时候能够得到语义方面的验证,讲意义的时候能够得到形式方面的验证。”这种验证关系,尤其是语义关系需要形式的验证的观点,应该是这种结构主义的语义观。只有通过形式的对比表现出来的语义关系才能是这一语言的意义关系,否则不是。故WordNet在确定了使用同义词集(Synset)表示一个语言符号之后,将主要精力其中在确定名词、动词、形容词和复词所形成的语义关系上,构建了诸如层级系统、N 维空间关系、蕴含关系等关系系统,期望通过这些关系来表征语言的意义。

HowNet采用的是构建性的概念表征方式,即通过对概念进行充分而精确地描述来完成的。这种方法面临两个问题:其一,采用什么来对概念进行描述;其二,如何保证概念描述的充分性和精确性。
解决第一个问题的方法是采用语义成分分析 (或称之为“义原”,或“义素”)。语义成分分析已从采用临时创造或发明语义成分转向了语言元语言制定的研究。语言学家已认识到对概念进行充分和系统地描写需要建立一整套用来描写语义的特殊语言(封宗信,2005)。HowNet 建立了形式化的概念描述元语言,称为“知网知识系统描述语言(KDML)”。这一语言采用了1500个用汉字来表达的义原,分属 10个不同的类别,包括事件、实体、属性等。此外,该语言系统还采用“,”、“#”、“%”、“¥”等来表示概念之间的组合、部分等关系。知网知识系统描述语言保证了知网系统在概念描述方面的系统性和一致性,这也是该知识系统能够在自然语言处理中广泛应用的一个重要原因。

第二个问题的解决并非易事。HowNet认为目前可靠的方法是依赖于人脑的智慧,通过人的自省和分析来获得。但是这仍然无法保证概念描述的充分性和精确性。而且,不同语言对于同一概念的理解可能会不一样。在这种情况下,这个问题似乎永远是一个近似的结果。

回复 支持 反对

使用道具 举报

该用户从未签到

600

主题

669

帖子

1万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
15406
 楼主| 发表于 2014-8-10 00:27:52 | 显示全部楼层
3.2   组织结构

在组织结构上,HowNet与WordNet也存在较大的不同。WordNet认为词性反映了词汇所包含的概念的类别,因此,在组织中按照名词、动词、形容词和副词的形式组织词汇的意义关系。而HowNet则按照义原分类进行组织。 WordNet认为在人的心理词汇中, 名词是按照这种层级系统排列的。因此,WordNet 依据的方式是词汇的上下位关系,即所谓的“ISA”关系,将名词的组织成树型结构,名词按照 Hymonymy 关系构成词汇层级系统。层级系统往往假设所有的名词都包含在一个系统中, 而事实上并非所有的抽象概念都在语言中有相对应的词汇,因此,WordNet将名词按照语义来进行划分,选择了 25 个一般概念作为起始概念,这些概念是:{动作、行为、行动},自然现象,{属性、特征},自然物,{动物、动物系},{人,人类},{知识,认知},{时间},{场所,位置},{形状},{食物}等。

此外,WordNet 还通过辨析特征定义了与动词、形容词以及其他名词之间的属性关系、功能关系、部件关系、反义关系、切分与总体关系等。WordNet认为动词之间的组织关系是词汇蕴涵。词汇蕴涵可能存在两种情况,一种是包含的蕴涵,如打鼾与睡觉,另一种是非包含的蕴涵,如击中与射击。故动词之间存在图一所表示的各种蕴涵关系。


WordNet将形容词分为描写形容词和关系形容词, 描写形容词的语义组织被认为是一种抽象的 N 维超空间结构,包括反义关系、分级等关系。

HowNet是一个常识知识库,其基本组织单位是概念。概念使用义原定义。概念与概念之间的关系、概念与义原之间的关系以及义原与义原之间的关系构成了知网的知识体系,这些关系主要体现在知网的词典和各个特征文件描述中 (周强,2000)。一个概念采用图二中的形式表述。



图二中分别给出了“打”和“值得称赞”两个概念中文词性(G_C),中文例句(E_C),英文对应词(W_E),英文词性(G_E),英文例句(E_E)。

然而,图二的描述中最重要的是概念定义(DEF)。通过概念定义知网给出了概念之间的关系。 这种关系主要通过两种方式给出,一种是用“关系义原”来表示。义原之间存在复杂的关系。在知网中共描述了义原之间的8种关系:上下位关系、同义关系、反义关系、对义关系、属性-宿主关系、部件-整体关系、材料-成品关系、事件-角色关系。义原之间组成的是一个复杂的网状结构(刘群等,2002)。义原之间的关系确定了概念之间的关系。

在概念定义中另一种定义概念关系的方法是使用一些特殊的符号。例如图二中“值得称赞”中的“$” 。$表示“可以被该‘V’处置,或是该‘V’的受事、对象、领有物或者内容” 。在这里就是“值得称赞”这一概念的受事。可以看出,这些概念关系符号主要表示的是题元关系。KDML解释了各种符号以及各自代表的各种概念间关系。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复 支持 反对

使用道具 举报

该用户从未签到

600

主题

669

帖子

1万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
15406
 楼主| 发表于 2014-8-10 00:29:03 | 显示全部楼层
四、现象与解释关系
WordNet与HowNet虽然在概念表征方面所采取的方法不同,但是两者的联系却是非常明显的。如同Saeed(1999)所指出的那样, 语义成分分析其实是语义关系的一种更为经济的表达方法。 语义关系事实上可以通过概念之间的义原共享、 义原包含与被包含、义原间矛盾等关系表达出来。 因此,WordNet可以被认为是一种现象, 这种现象表现了各个词汇所表达的概念之间的语义关系,而这种语义关系可以通过HowNet中有关义原的关系得到解释。换一种说法,WordNet中所描写的各种语义关系能够通过 HowNet 中的义原得到验证、推导。这一点是HowNet与WordNet在自然语言处理系统中综合应用的基础所在。而这一基础,又是建立在词汇化的概念基础之上的,需要通过词汇才能得以检索和计算。  

一个典型的例子是词汇之间的上下义关系。在WordNet,名词以 25 个一般概念为起始概念按照上下以关
系组织起来。例如在Wordnet中,plant是一种structure,而在HowNet中,plant的一种定义为:

DEF={InstitutePlace| 场所 :domain={industrial| 工 } ,{produce|制造:location={~}}}

WordNet中plant与structure之间的关系就反映在plant上述定义中的义原“场所”中。 值得注意的是,题元关系在HowNet 中也能够通过题元解释。例如在上面提及的“打”的概念中,其工具格{tool|用具:{communicate|交流:instrument={~}}}被定义为用来交流的工具。其中“工具”和“交流”两个义原用来解释其题元所应具有的语义结构。
回复 支持 反对

使用道具 举报

该用户从未签到

600

主题

669

帖子

1万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
15406
 楼主| 发表于 2014-8-10 00:29:41 | 显示全部楼层
五、结语
WordNet与HowNet 具有同样的语义观,都认为语义是人脑中概念结构对客观世界的解释。 但是两者在表征概念结构及其关系时采用的方法却不相同。WordNet使用的是区别性概念表征方式,将动词、名词、形容词、副词的语义用同义词集和同义词集之间的相互关系表示出来;而 HowNet则采用构建性的概念表征方式, 使用义原来解释概念和概念之间的各种关系。在关系上,义原可以看作是对概念关系的一种更为经济的表达法, 义原能够用来解释概念关系。因此,我们可以认为 WordNet 与 HowNet 之间是一种现象与解释之间的关系,可以使用 HowNet 中的义原对 WordNet 中的语义关系做出一般性的解释。这样,我们就确定了两个知识库之间的关系, 为自然语言处理中综合应用两个知识库提供了理论框架。
回复 支持 反对

使用道具 举报

该用户从未签到

0

主题

4

帖子

120

积分

注册会员

Rank: 2

积分
120
发表于 2016-5-20 16:48:50 | 显示全部楼层
学习了,不错
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表