时间:2022-11-28 10:40:35
作者:欧陆注册科技
浏览: 次
作为人机交互的主流方式之一,语音具有独特优势与魅力,看似简短的一段语音,不仅包含了说话人希望传达的文字内容,而且蕴藏着说话人的身份特征、语言类别、说话人当时的情感状态、说话时所处的环境等信息。
语音标注是数据标注行业中一种比较常见的标注类型。语音标注的就是标注员把语音中包含的文字信息、各种声音先“提取”出来,再进行转写或者合成,后的数据主要被用于人工智能机器学习,这相当于给计算机系统装上了“耳朵”,使其具备了“能听”的功能,使计算机可以实现精准的语音识别能力。
1、语音清洗
语音清洗是对语音进行重新审查和校验的过程,是语音数据预处理的第一步,也是保证后续结果正确的重要一环。
2、ASR语音转写
ASR就是自动语音识别技术,是一种将人的语音转换成文本的技术。语音转写就是将语音数据转写成文字数据的过程,是数据标注领域比较常见的一种标注形式。
3、情绪判定
语音中的情绪信息是反应人类情绪的一个非常重要的行为信号,同时识别语音中所包含的情绪信息是实现自然人机交互的重要一环。情绪判定是针对一些对话数据,对音频内的人物语言内容进行情绪意图的判定,比如:表达疑问、需求或投诉建议等等。
4、语音切割
语音切割是识别自然语言中的单词,音节或音素之间的边界的过程。语音切割是语音识别技术领域的一个重要的子问题。
5、声纹识别
声纹识别是生物识别技术中的一种,通过对一种或多种语音信号的特征分析来达到对未知声音辨别的目的,简单的说就是辨别某句话是否是某个人说的一种技术。
6、音素标注
音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。
7、音律标注
语音合成系统中的音律标注一般采用基于文本信息预测韵律的方式。以中文标注为例,基于文本信息进行音律预测,通常根据声母、韵母、词、短语、段落等信息确定的音律预测结果。
8、发音校对
发音校对就是对整个口语训练过程中的数据的采集以及对不标准的发音进行纠正的过程。