编者按:如今在各种社交网络平台上发布的视频,因拍摄便捷、可实时分享、互动交流等特点而深受大众喜爱。视频深刻影响和改变了人们观察世界、记录生活和表达情感的方式。然而,现在市面上许多视频或音频剪辑软件为了满足用户需求尽管拥有丰富的功能,但操作却很复杂,很多简单的剪辑任务都还需要在软件中逐帧对照确定剪切时间点。对于以语音为主要背景声音的视频,如线上会议录像、演示视频、vlog 等,如果我们能通过编辑文本的形式,直接编辑音视频中的语音内容,让音视频的编辑自动根据文本完成,那么将大大降低音视频的编辑难度,提高创作者的效率。为此,微软亚洲研究院的研究员们研发了一个基于文本的语音编辑系统。本文将详细介绍这个基于文本的语音编辑系统和研究员们研发的语音合成及填充词检测技术。
发布时间:2022-09-15 类型:深度文章