ヒライ シゲユキ
HIRAI SHIGEYUKI
平井 重行 所属 京都産業大学 情報理工学部 情報理工学科 職種 教授 |
|
発表年月日 | 2024/03/06 |
発表テーマ | 擬音的発話のニュアンスを反映するインタラクティブ効果音合成 |
会議名 | インタラクション2024 |
主催者 | 情報処理学会 |
学会区分 | 研究会・シンポジウム等 |
発表形式 | その他 |
単独共同区分 | 共同 |
国名 | 日本 |
開催地名 | 東京 |
開催期間 | 2024/03/06~2024/03/08 |
発表者・共同発表者 | 滝沢力, 平井重行 |
概要 | アニメや,映画,ゲームなどでは,場面に応じた効果音が様々に使用される.それらの音響制作に は専門的な知識・ノウハウや試行錯誤,既存の膨大な効果音ライブラリから選定する手間などが発生する. 本研究では,人が効果音を口真似することが比較的容易であることに着目し,音の細かなニュアンスまで も反映した,効果音の口真似音声(擬音的発音)を基にしたインタラクティブな効果音合成技術を提案す る.ここでは,発話表現のし易さや,多種多様なニュアンスが発音可能な爆発音を合成題材とし,データ セットおよびモデルの構築を行った.具体的には,効果音および口真似音声それぞれのメルスペクトログ ラム画像を Transformer で学習し,メルスペクトログラムを推定する前段処理と,メルスペクトログラム から波形を合成する後段処理のニューラルボコーダとして iSTFTNet を用い、2 種類の深層学習モデルを 組み合わせて合成する.本稿では,提案モデルと学習データセットについて述べ,口真似の音声入力から の高音質な効果音合成結果を報告する. |