ヒライ シゲユキ   HIRAI SHIGEYUKI
  平井 重行
   所属   京都産業大学  情報理工学部 情報理工学科
   職種   教授
発表年月日 2024/06/13
発表テーマ 複数話者の擬音的発話音声データセットによる効果音合成の試み
会議名 音学シンポジウム2024
主催者 情報処理学会 音楽情報科学研究会&音声言語情報処理研究会
学会区分 研究会・シンポジウム等
発表形式 ポスター
単独共同区分 共同
国名 日本
開催地名 東京
開催期間 2024/06/13~2024/06/14
発表者・共同発表者 滝沢力, 平井重行
概要 メディア作品などの音響制作では,様々な知識や経験が求められる.求めている音を想像し,それら の細かなニュアンスを言語非依存な発話により表現可能であることを元に,口真似音声から効果音合成可 能な生成モデルを提案した.研究では,ひとまず,目標の効果音として多種多様なバリエーション・ニュ アンスが存在する爆発音に焦点を当て,データセット構築及びモデルの学習,爆発音合成を試みた.これ までの学習済みモデルでは,口真似のニュアンスを結果に反映させた上で,高品質な爆発音合成が可能に なっている.しかし,現状のデータセットは,一人の話者による口真似のみを録音しており,より表現の 幅を考慮した合成を可能とするために,複数話者でのデータセット構築が必要である.そこで,複数話者 による口真似録音を実施し,データセットの増強を行い,従来モデルとの比較を行った.データセットの 話者数を増やすことで,話者毎に微妙に異なるニュアンスをより反映させた合成結果も得られ,提案モデ ルのニュアンス追従性向上を示唆した.本稿では,従来モデルと新たに構築したデータセットによる学習 モデルとの比較で得られた合成音の品質差異について報告する.