信息处理用现代汉语词类标记规范_规范标准_规范标准_长春理工大学语言文字网
设为首页|加入收藏 今天是:2017年9月24日
规范标准

电话:0431——85583434   

      

邮箱:yb@cust.edu.cn

地址:吉林省长春市卫星路7989号

长春理工大学文学院语言文字工作办公室

规范标准 您当前的位置:首页 > 规范标准

信息处理用现代汉语词类标记规范

发布时间:2012-05-25    已浏览: 2352 次

信息处理用现代汉语词类标记规范

 

1、范围

 

本标准规定了信息处理中现代汉语词类及其他切分单位的标记代码。

适用于汉语信息处理,也可供现代汉语教学与研究参考。

2、术语和定义

下列术语和定义适用于本标准。

2.1汉语信息处理  Chinese Information Processing,CIP

用计算机对汉语形、音、义等信息进行输入、排序、存储、输出、统计、提取等。

2.2切分单位  Segment Unit

汉语信息处理使用的、具有确定语法功能的基本单位。它包括本标准的规则所限定的词、短语及其他单位。

2.3词类  parts of speech,POS

词的语法分类,主要是根据语法功能划分出来的类。

2.4标记  Tag

对文本中切分单位的类别进行标注的代码。

3、总则

3.1切分单位的范围

本标准的切分单位包括词、短语和其他切分单位,如习用语、缩略语、前接成分、后接成分、语素字、非语素字、标点符号、非汉字符号等。

3.2词类划分的原则

本标准的词类分类体系参考了吕叔湘、朱德熙、胡裕树等先生的语法体系和《中学教学语法系统提要》。

本标准根据汉语信息处理的特点和要求,主要依据语法功能原则划分词类。

3.3标记代码的制定原则

依据国际通常做法,标记代码主要采用英文术语的字母。例如,“名词”,采用英文术语“noun”的首字母“n”作为标记代码;“数词”,采用英文术语“numeral”的第三个字母“m”作为标记代码。

汉语独有的,或使用英文术语字母不便的,依据国内通常做法,标记代码采用汉语拼音字母。如,“缩略语”,采用汉字“简”汉语拼音的首字母“j”作为标记代码;“语素字”,采用汉字“根”汉语拼音的首字母“g”作为标记代码。

4、词类及其他切分单位分类

本标准将词类划分为13个一级类,16个二级类;其他切分单位划分为7个一级类,13个二级类。用户可根据需要自行增补。

4.1词类划分及标记代码

4.1.1名词(n),表示人或事物的名称,在句子中主要充当主语和宾语。

4.1.1.1普通名词(ng),表示事物的名称。如:

人  马  书  教师  飞机  电冰箱  阿姨  桌子  木头

道德  理论  历史  思想  文化  因素  作风  哲学

4.1.1.2时间名词(nt),包括一般所说的时量词。如:

年  月  日  分  秒

现在  过去  昨天  去年  将来  宋朝  星期一 

4.1.1.3方位名词(nd),表示位置的相对方向。如:

上  下  左  右  前  后  里  外  中  东  西  南  北

前边  左面  里头  中间  外部

4.1.1.4处所名词(nl),表示处所。如:

空中  高处  隔壁  门口  附近  边疆  一旁  野外

4.1.1.5 人名(nh),表示人的名称的专有名词。

华罗庚  阿凡提  诸葛亮  司马相如  松赞干布  卡尔·马克思

4.1.1.6地名(ns),表示地理区域名称的专有名词。如:

亚洲  大西洋  地中海  阿尔卑斯山  加拿大 

中国  北京  浙江  景德镇  呼和浩特  中关村

4.1.1.7族名(nn),表示民族或部落名称的专有名词。如:

回族  藏族  壮族  蒙古族  维吾尔族  哈萨克族

4.1.1.8机构名(ni),表示团体、组织、机构名称的专有名词。如:

联合国  教育部  北京大学  中国科学院

4.1.1.9其他专有名词(nz)。如:

五粮液  宫爆鸡丁  桑塔纳

4.1.2动词(v),表示动作、行为,心理活动、生理状态及事物的存现、变化等,在句子中主要充当谓语。

4.1.2.1及物动词(vt),能够带宾语。如:

吃  打  擦  洗  喂  借  送  买  捧  提  填

喜欢  告诉  接受 羡慕  考虑  调查  同意  发动

4.1.2.2不及物动词(vi),不能够带宾语。如:

病  休息  咳嗽  瘫痪  游泳  睡觉

4.1.2.3联系动词(vl),表示关系的判断。如:

4.1.2.4能愿动词(vu),表示可能、意愿。如:

能够  能  应该  可以  可能  情愿  愿意  要

4.1.2.5趋向动词(vd),表示趋向。如:

(走)上   (趴)下   (进)来   (回)去

(跑)上来  (掉)下去  (提)起来  (扔)过去

4.1.3形容词(a),表示性质、状态,在句中主要充当谓语、定语、状语和补语。

4.1.3.1性质形容词(aq),表示性质。如:

好  高  美  大  勇敢  危险  漂亮  干净  伟大

4.1.3.2状态形容词(as),表示状态。如:

雪白  黢黑  通红  冰凉  绿油油  亮堂堂  白花花  冷冰冰

4.1.4区别词(f),表示事物的区别性特征,在句子中只能做定语修饰名词或跟助词“的”组成“的”字结构。如:

男  女  公  母  雌  雄  微型  国产  军用

4.1.5数词(m),表示数目和次序。如:

零  一  半  百  千  百万  一百零八 

第一  第十八

4.1.6量词(q),表示人、事物或动作的单位。如:

个  条  片  匹  辆  尺  斤  两  吨  支  回  次  遍  千瓦时

4.1.7代词(r),起替代和复指作用。如:

我  你  他  这  那  谁  我们  你们  他们

这个  那个  大家  自己  什么  哪里  怎么  怎么样

4.1.8副词(d),修饰或限制动词和形容词,表示范围、程度等。在句子中做状语。如:

都  只  就  仅  很  再三  屡次  将  不  却

总共  正在  常常  重新  曾经  竟然  居然

4.1.9介词(p),引介名词性成分,不单独充当句子成分。如:

把  被  从  向  对  凭 

按照  对于  为了  自从  关于

4.1.10连词(c),连接词、短语或句子,表示两者之间所具有的某种关系。如:

和  同  与  及  并  或 

并且  而且  或者  因为  所以 

4.1.11助词(u),附着在词、短语、句子后面表示某种附加意义。如:

的  地  得  了  着  过  等等  似的  一样

4.1.12叹词(e),表示感叹、呼唤或应答,可独立成句或在句中充当独立成分。如:

啊  嗯  唉  哎  哼  哦  哎哟  哎呀

4.1.13拟声词(o),模拟自然界事物的某种声音,不能单独成句。如:

砰  滴答  扑通  咕咚  丁丁当当 

4.2其他切分单位划分及标记代码

4.2.1习用语(i),一种相沿习用的定型短语。

4.2.1.1名词性习用语(in)。如:

海市蜃楼  井底之蛙  蛛丝马迹

4.2.1.2动词性习用语(iv)。如:

跑龙套  打官腔  吃老本  与时俱进  励精图治

4.2.1.3形容词性习用语(ia)。如:

丰富多彩  艰苦朴素  光明正大

4.2.1.4连词性习用语(ic)。如:

总而言之  由此可见  综上所述

4.2.2缩略语(j),专有名词或常用语的简缩形式。

4.2.2.1名词性缩略语(jn)。如:

人大  五四  奥运 

4.2.2.2动词性缩略语(jv)。如:

调研  离退休 

4.2.2.3形容词性缩略语(ja)。如:

短平快  高精尖

4.2.3前接成分(h),词根前面的附加构词成分。如:

阿  老  初  第

4.2.4后接成分(k),词根后面的附加构词成分。如:

子  儿  头  化  们  式  性  者

4.2.5语素字(g),汉字字符集中一般不单独使用的汉字。

4.2.5.1名词性语素字(gn)。如:

民  农  材

4.2.5.2动词性语素字(gv)。如:

抒  究  涤

4.2.5.3形容词性语素字(ga)。如:

殊  遥  伟

4.2.6非语素字(x),汉字字符集中单独使用时不具有意义的汉字,如:

垃  琵  蜘  踌  鸯  蜻

4.2.7其他  (w)

4.2.7.1标点符号(wp),如:

,  。  、  ;  ?  !  :  “”  ……

4.2.7.2非汉字字符串(ws),如:

office windows

4.2.7.3其他未知的符号(wu)。

5、词类及其他切分单位标记代码表(略)

                                                  来源:中国语言文字网

长春大学理工文字网 版权所有 晋ICP备05007065号 备案证书

地址:吉林省长春市卫星路7989号长春理工大学文学院语言文字工作办公室

电话:0431——85583434

邮箱:yb@cust.edu.cn   网址:http://yywz.cust.edu.cn

技术支持:长春纲易传媒