NLP文本标注是什么?深度图解

时间:2022-10-21 18:25:56

作者:欧陆注册科技

浏览: 次

NLP文本标注是什么?数据标注员必须了解的NLP中基础的知识点,在文本标注特点就是这几种标注需求变化最多的,也是最频繁的一种。不管是AI公司做需求的小伙伴,还是在专业文本标注公司进行标注的小伙伴都会碰到这样一个问题,就是临时定需求、临时改需求等等很让大家头痛。但是大家有没有想过其根源是什么呢?


NLP标注是什么
NLP标注是什么


1.NLP标注是什么?

NLP(Natural Langunge Possns,自然语言处理)NLP是人工智能的一个分支,用于分析、理解和生成自然语言(如中文、英文等),达到人与计算机之间进行有效通讯。所谓“自然”乃是寓意自然进化形成,是为了区分一些人造语言,类似C++、Java等人为设计的语音。 


NLP标注分析对象
NLP标注分析对象/内容思维导图


 

2.NPL标注流程

A.获取语料(即语言材料,语料是构成语料库的基本单元。)

  • 现成语料

在日常生活中的书籍、文档等等资料都可以整合处理后变成语料库来进行使用。
 

  • 网上抓取语料

网上抓取语料,在互联网上每天都会产生大量的文本,例如微博、论坛、留言等等都是可以抓取获得经过处理作为语料库的。其特点就是容易获取且是电子版可以在抓取的时候直接转换成需要的格式。难点在于网上的文本数据的用法有可能跟我实际生活中有差别需要进行进一步的处理。
 

  • 人工采集语料
    对于特殊需求的语料只能进行人工采集,例如儿童的文本对话,日常生活中的对话等等。在特殊场景上应用基本上都需要人工进行采集,采集特点会根据需求场景进行规范语料内容,在特定的规范中发挥人本身在生活中的实际对话进行采集。这类采集目前阶段需求量还是非常大。


NLP自然语言处理
NLP自然语言处理


B.语料的处理

上面提到的不管是现成的语料、网上抓取语料还是人工采集语料都需要做进一步的处理之后才能应用,那么语料的处理过程往往会占据完整的中文自然语音处理工程中的50%-70%的工作量。基本上需要经过如下4个方面数据清洗、分词、词性标注、去停用词进行语料的处理工作。而这4个方面大部分需要进行人工进行处理。

  • 语料清洗
    语料清洗一般可以从几个维度进行。
    • 数据格式清洗(不符合需求格式的数据进行清洗)
       
    • 脏数据清洗(对我们不需要的数据进行清洗)
    • 数据内容清洗(例如我们只需要文章标题,不需要作者就需要根据实际需求进行对已有的数据进行清洗)
       
  • 分词

分词是对文本分析非常重要的一步,但分词方法又有很多种,所以我们就需要根据我们项目需求,提前设定好分词的颗粒度、以及一些特殊词的分法。以免后期处理产生歧义。这一部分可以结合分词算法来加快数据标注的进度。但是分词算法也有非常多,需要大家根据大家的需求进行选择。如:正向最大匹配算法、逆向最大匹配算法、最大Ngram分值算法、全切分算法、双向最大最小匹配算法等等。
 

  • 词性标注

词性标注,就是给每个词语打标签,如形容词、动词、名词等。词性标注在大部分的处理中是非必须的,只是类似情感分析、知识推理等是需要的。但是相对其他标注词性的标注也是需要更多专业知识的。

 


语料的处理


 

  • 去停用词
    停用词一般指对文本特征没有任何贡献作用的字词,比如标点符号、语气、人称等一些词。去停用词的操作一定要根据场景进行,有些场景是需要语气词来进行判断情感。

 

3.NLP文本标注方法

所以可想而知在拿到数据的第一阶段是很头痛的,你会发现维度太多了,而且种类也太多了,每种产品的留言也有可能是不一样的。那么我们就需要从更高维度去分析提出共性和基本处理原则。所以,我们可以从三个维度去考虑。


NLP文本标注方法


1.总体原则:这个标注过程中必须遵守的基本原则。

例如:最简原则/最小原则,可以理解成在分词过程中用到的最小颗粒度的分词方法。例:和平饭店,可以分和平饭店整体,也可以分为和平/饭店,那么在这里我们就分为和平/饭店。
 

2.特殊定义:在标注过程中特殊情况的处理方法。

例如:在分词当中可以遇到的一些专有名词,就不进行拆分等。
 

3.标注需求:对具体标注过程进行说明。

标注需求部分,我们还是进行两类的区分考虑。

  a.词性的角度。

例如:标注的我们需要分为哪些,可以更好的贴切与我们的需求。在本次需求里我们要分析用户对产品的全流程的使用体验,那么能涉及到什么?留言会有什么?首先情感是必须存在的一类。那么什么可以哪些特征词可以表示出客户的情况呢?那么理解到了核心的问题点。特征词和情感词。
 

  b.事件的角度。

什么是事件的角度?本次需求当中需要点会涉及到非常多种类的产品。但是不管什么产品都需要经过一个全流程的事件,最后产生用户反馈。那么在这个全流程过程中哪些点是可以影响用户体验的。这样这个事情的逻辑就出来了,例如:物流、包装、品牌等等。就可以根据实际情况去设定对应的事件了。

上面就是以一个实际的例子去分析了文本场景分析的一个过程,当这个过程梳理完成之后,大家就会发现待处理的数据的结果就会接近唯一值了。希望不管是AI公司制定需求的小伙伴还是标注公司做标注的小伙伴可以参考理解。

做AI行业客户的数据参谋