词性标注

词性标注

4.10  词性标注

词性用来描写叙述一个词在上下文中的作用。比如描写叙述一个概念的词叫做名词,在下文引用这个名词的词叫做代词。有的词性常常会出现一些新的词,比如名词,这种词性叫做开放式词性。另外一些词性中的词比較固定,比如代词,这种词性叫做封闭式词性。由于存在一个词相应多个词性的现象,所以给词准确地标注词性并非非常easy。比方:”改革”在”中国開始对计划经济体制进行改革”这句话中是一个动词,在”医药卫生改革中的经济问题”中是一个名词。把这个问题抽象出来就是已知单词序列  ,给每一个单词标注上词性 。

不同的语言有不同的词性标注集。比方英文有反身代词,比如myself,而中文则没有反身代词。为了方便指明词的词性,能够给每一个词性编码。比如《PFR人民日报标注语料库》中把”形容词”编码成a;名词编码成n;动词编码成v等。

词性标注有小标注集和大标注集。比如小标注集把代词都归为一类,大标注集能够把代词进一步分成三类。

人称代词:你 我 他 它 你们 我们 他们

疑问代词:哪里  什么  怎么

指示代词:这里 那里  这些  那些

採用小标注集比較easy实现,可是太小的标注集可能会导致类型区分度不够。比如在黑白两色世界中,能够通过颜色的深浅来分辨出物体,可是通过七彩颜色能够分辨出很多其它的物体。

參考《PFR人民日报标注语料库》的词性编码表,如表4-4所看到的:

表4-4  词性编码表

代码

名称

举例

a

形容词

最/d  大/a  的/u 

ad

副形词

一定/d  可以/v  顺利/ad  实现/v  。/w 

ag

形语素

喜/v  煞/ag  人/n 

an

名形词

人民/n  的/u  根本/a  利益/n  和/c 

国家/n  的/u  安稳/an  。/w 

B

差别词

副/b  书记/n  王/nr  思齐/nr 

c

连词

全军/n  和/c  武警/n  先进/a  典型/n  代表/n 

d

副词

两側/f  台柱/n  上/f  分别/d  雄踞/v  着/u 

dg

副语素

用/v  不/d  甚/dg  流利/a  的/u  中文/nz  主持/v  节目/n  。/w 

e

叹词

嗬/e  !/w 

f

方位词

从/p  一/m  大/a  堆/q  档案/n  中/f  发现/v  了/u 

g

语素 

比如dg或ag

h

前接成分 

眼下/t  各种/r  非/h  合作制/n  的/u  农产品/n

i

成语

提高/v  农民/n  讨价还价/i  的/u  能力/n  。/w

j

简称略语 

民主/ad  选举/v  村委会/j  的/u  工作/vn 

k

后接成分

权责/n  明白/a  的/u  逐级/d  授权/v  制/k

l

习用语 

是/v  建立/v  社会主义/n  市场经济/n 

体制/n  的/u  重要/a  组成部分/l  。/w

m

数词 

科学技术/n  是/v  第一/m  生产力/n 

n

名词

希望/v  两方/n  在/p  市政/n  规划/vn 

ng

名语素 

就此/d  分析/v  时/Ng  觉得/v 

nr

人名

建设部/nt  部长/n  侯/nr  捷/nr 

续表

代码

名称

举例

ns

地名

北京/ns  经济/n  执行/vn  态势/n  喜人/a 

nt

机构团体

[冶金/n  工业部/n  洛阳/ns  耐火材料/l  研究院/n]nt

nx

字母专名

ATM/nx  交换机/n

nz

其它专名 

德士古/nz  公司/n

o

拟声词 

汩汩/o  地/u  流/v  出来/v

p

介词

往/p  基层/n  跑/v  。/w

q

量词

不止/v  一/m  次/q  地/u  听到/v  ,/w

r  

代词 

有些/r  部门/n 

s  

处所词 

移居/v  海外/s  。/w

t

时间词 

当前/t  经济/n  社会/n  情况/n

tg

时语素 

秋/Tg  冬/tg  连/d  旱/a 

u

助词 

工作/vn  的/u  政策/n 

ud

结构助词

有/v  心/n  栽/v  得/ud  梧桐树/n

ug

时态助词

你/r  想/v  过/ug  没有/v 

uj

结构助词的

迈向/v  充满/v  希望/n  的/uj  新/a  世纪/n

ul

时态助词了

完毕/v  了/ ul 

uv

结构助词地

满怀信心/l  地/uv  开创/v  新/a  的/u  业绩/n

uz

时态助词着

眼看/v  着/uz 

v

动词

举行/v  老/a  干部/n  迎春/vn  团拜会/n

vd

副动词

强调/vd  指出/v 

vg

动语素 

做好/v  尊/vg  干/j  爱/v  兵/n  工作/vn

vn  

名动词 

股份制/n  这样的/r  企业/n  组织/vn  形式/n  ,/w

w

标点符号

生产/v  的/u  5G/nx  、/w  8G/nx 

型/k  燃气/n  热水器/n

x  

非语素字 

生产/v  的/u  5G/nx  、/w  8G/nx 

 型/k  燃气/n  热水器/n

y

语气词 

已经/d  30/m  多/m  年/q  了/y  。/w

z  

状态词 

势头/n  依旧/z  强劲/a  ;/w

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/109666.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 关系数据库基础理论[通俗易懂]

    关系数据库基础理论[通俗易懂]mysql系列之一关系数据库基础理论正是数据库管理的需要催生了数据库管理系统DBMS,而关系型数据库管理系统为RDBMS常见的数据模型有三种:-层次模型-网状模型-关系模型一、关系数据库的产生在DBMS出现之前,人们用文件来管理数据,但存在很多缺陷:1.数据冗余和不一致性。数据冗余表示在每个shell脚本中基本上都是/bin/bash,但很多用户使用…

    2022年10月16日
  • Docker实践(二):容器的管理(创建、查看、启动、终止、删除)

    Docker实践(二):容器的管理(创建、查看、启动、终止、删除)

  • H3C交换机配置命令大全

    H3C交换机配置命令大全H3C交换机配置命令大全H3C交换机################################################ 1、system-view  进入系统视图模式 2、sysname  为设备命名 3、displaycurrent-configuration当前配置情况 4、language-modeChinese|English…

  • dex文件详解

    dex文件详解1、基本概念能被DVM虚拟机识别,加载并执行的文件格式2、生成dex文件1、通过IDE自动帮我们build生成2、手动通过dx命令去生成dex文件3、在手机上手动运行dex文件3、使用dx命令来生成dex文件首先得要先配置dx环境变量,这个环境变量怎么配呢?找到的sdk的安装目录,然后进入build-tools目录,这里是你电脑上的所有sdk的安装目录,随便选择一个进去,就可以知道dx.b

  • 显著性分析算法的分类有哪些_显著性概率

    显著性分析算法的分类有哪些_显著性概率第一种分法第一类:基于低层视觉特征的显著性分析算法代表性算法:Itti模拟生物体视觉注意机制的选择性算法,比较适合处理自然图像第二类:不基于任何生物视觉原理的纯数学计算方法代表性算法:全分辨率的算法(AC算法)和基于空间频域分析的剩余谱算法(SR算法)第三类:将前两种进行融合的方法代表性算法:基于图论的算法(GBVS算法)这种算法在特征提取的过程中类似Itti算法去模拟视觉原理,但…

    2022年10月25日
  • SPSS 实现KMO和Bartlett的球形度检验[通俗易懂]

    SPSS 实现KMO和Bartlett的球形度检验[通俗易懂]第一步:选择“因子分析”导入数据后,按顺序选择就好:“分析”-“降维”-“因子”第二步:选择变量如果只有一个变量,选中之后,再点击一下中间向右边的那个箭头多个变量的话,比如,我这里选择x1-x8,就是选择x1变量后,按住shift键不放,再点击x8变量,就可以一下子选择8个变量。第三步:选择KMO和巴特利特球形度检验这里,先不要急着点“确定”,先选择“描述”,接着在“相关性矩阵”那里勾选“KMO和巴特利特球形度检验”输出结果KMO统计量值大于0.5,可以看出变量间的相关程度无太

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号