ヒライ シゲユキ   HIRAI SHIGEYUKI
  平井 重行
   所属   京都産業大学  情報理工学部 情報理工学科
   職種   教授
発表年月日 2024/03/06
発表テーマ 擬音的発話のニュアンスを反映するインタラクティブ効果音合成
会議名 インタラクション2024
主催者 情報処理学会
学会区分 研究会・シンポジウム等
発表形式 その他
単独共同区分 共同
国名 日本
開催地名 東京
開催期間 2024/03/06~2024/03/08
発表者・共同発表者 滝沢力, 平井重行
概要 アニメや,映画,ゲームなどでは,場面に応じた効果音が様々に使用される.それらの音響制作に は専門的な知識・ノウハウや試行錯誤,既存の膨大な効果音ライブラリから選定する手間などが発生する. 本研究では,人が効果音を口真似することが比較的容易であることに着目し,音の細かなニュアンスまで も反映した,効果音の口真似音声(擬音的発音)を基にしたインタラクティブな効果音合成技術を提案す る.ここでは,発話表現のし易さや,多種多様なニュアンスが発音可能な爆発音を合成題材とし,データ セットおよびモデルの構築を行った.具体的には,効果音および口真似音声それぞれのメルスペクトログ ラム画像を Transformer で学習し,メルスペクトログラムを推定する前段処理と,メルスペクトログラム から波形を合成する後段処理のニューラルボコーダとして iSTFTNet を用い、2 種類の深層学習モデルを 組み合わせて合成する.本稿では,提案モデルと学習データセットについて述べ,口真似の音声入力から の高音質な効果音合成結果を報告する.