ディープニューラルネットワークによる
舌亜全摘出者の音韻明瞭性改善の研究
科研費 基盤研究(C)平成30年度~令和3年度
概要
音声はコミュニケーションの手段としてばかりでなく,人間としての尊厳を保ち豊かな生活を送るうえで重要な役割を果たしている.不幸にして癌摘出手術や事故などにより音声発声器官の一部を失ったり,脳障害の発症で発声器官が適切に動かせなくなって音声コミュニケーションを失う患者は少なくない.2017年の国立がん研究センターの推計によれば,口腔・咽頭癌の患者数は約22,800人であり,癌患者の約2%を占める.
本研究では,患者音声の音韻明瞭性を音声信号処理で改善する方式を研究開発している.患者音声と健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を録音することが可能であれば,より本人に近い音声として復元可能となる.マイクで音声を入力するだけであるため,患者への負担も少なく,音声コミュニケーションの自由度を広げることができる.さらに,脳⾎管障害によって調⾳器官の制御に問題が生じた患者にも適応可能であり,本技術の適用領域は広い.
舌を切除するとは?
舌を切除するとハッキリした音声が発音できなくなる.
舌は母音や子音を発音する際に重要な役割を果たしている.日本語では,カ行音,サ行音,タ行音,ラ行音を発する時に,舌が歯茎や軟口蓋などに接したり接近するなどして,肺から流れる空気の流れを止めたり,狭い空間を無理やりに流すなどして,子音としての響きを特徴づけている.
舌を切除することは,左図の黄色の部分がなくなることになる.
舌が削除されると口の中の空間が広くなるばかりでなく,肺から流れる空気の流れを止めたり,狭い空間を無理やりに流すことができなくなり,子音が生成できなくなる.
従来は器具を口の中に入れることで,口の中の空間を狭くするなどの工夫が施されてきた.しかしながら,これだけでは子音がハッキリ聞こえるようにするには限界がある.また,食事中に会話ができないなどの課題があった..
音声信号処理で音声をハッキリと!
音声信号処理の研究ジャンルの1つに声質変換技術がある.この技術は,ある人の声を入力すると,あたかも他の人が喋ったかのような声質に変換して出力する.本研究では,この技術をベースに,舌摘出者の音声をハッキリ聞こえるようにすることを目指す.
学習フェースでは,AさんとBさんが同じ文や単語を発声する.両者が同じ母音や子音を発声していることをヒントに,AさんとBさんの音声的な特徴を学習する.
学習には,統計的な学習や深層学習などを用いる.
Aさんを舌摘出者患者,Bさんを健常者とすれば,舌摘出者の音声が健常者の声に変換されるため,ハッキリとした音声となる.
音声の改善は可能か?
スペクトログラムで改善効果を示す.スペクトログラムとは,俗にいう”声紋”であり,横軸が時間,縦軸が周波数を示す.ここではエネルギーの強い帯域が緑である.
赤の楕円のところを比較する.健常者の音声では,緑色となっており,エネルギーがあることが分かる.
一方,舌摘出者の音声では,この部分は,黒色であり,エネルギーが無いことが分かる.
これに対して,変換音声では,この部分に緑色が観察できる.これは,スペクトルが適切に生成されていることを示している.
参考文献
H. Murakami, S. Hara, M. Abe, “DNN-based Voice Conversion with Auxiliary Phonemic Information to Improve Intelligibility of Glossectomy Patients’ Speech,” APSIPA Annual Summit and Conference 2019, pp.138-142.(2019.11)
H. Murakami, S. Hara, M. Abe, M. Sato, S. Minagi, “Naturalness Improvement Algorithm for Reconstructed Glossectomy Patient’s Speech Using Spectral Differential Modification in Voice Conversion,” Proc. of Interspeech 2018, pp. 2464–2468. (2018.9)
K. Tanaka, S. Hara, M. Abe, M. Sato, S. Minagi, "Speaker Dependent Approach for Enhancing a Glossectomy Patient’s Speech via GMM-Based Voice Conversion," Proc. of Interspeech 2017, pp.3384–-3388. (2017.8)
K. Tanaka, S. Hara, M. Abe, M. Sato, S. Minagi, "Enhancing a Glossectomy Patient’s Speech via GMM-based Voice Conversion,’‘ APSIPA Annual Summit and Conference 2016. (2016.12)
岡山大学大学院ヘルスシステム統合科学研究科 ヒューマンセントリック情報処理研究室
教授:阿部匡伸 助教:原直
© 2019