时间:2022-12-05 10:04:16
作者:欧陆注册科技
浏览: 次
数据是机器学习的基石,没有了数据,就没有模型。人工智能领域常用的三种数据:文本、图像和语音。是指对目标领域、场景的特定原始数据进行采集的过程,采集的数据以图像类、文本类、语音类、视频类等非结构化数据为主。本文主要介绍三种数据来源和采集方法,分别是文字(字)、图像(图、表)和语音。
1、本文数据采集:
本文数据采集根据采集数据的类型可以分为不同的方式,主要方式有:传感器采集、爬虫、录入。对于新闻资讯类、行业互联网和政府开放的数据,可以通过编写网络爬虫,设置好数据源后进行有目标性的爬取数据。
2、图像数据采集:
使用图像采集软件进行图像获取,需要选择支持多分辨率、多类型图像的软件。对于大图,使用大文件格式;对于小图,采用小文件格式,例如mobi、jpg等。为了保证数据质量,采集前需要对所有图像进行标注。在图片标注的过程中,一般采用简单的字符串或文本进行标注,然后将标注结果输出到采集软件中进行处理。对于小文件格式,一般可以通过加标签(如:文字、颜色、形状)的方式来实现图片压缩。如果在采集过程中发现有其他文件需要处理时,也可以使用压缩工具实现对小文件压缩处理。
3、语音数据采集:
语音数据又分为很多不同的类型,常见的类型有语音识别数据(ASR),和语音合成数据(TTS)。脚本语音识别数据采集通常包括语音命令、唤醒词采集或两者的一种组合形式。参与数据采集的人员通常被要求阅读一组已经设置好的唤醒词或者语音命令语句。