岩手県立
大学ソフトウェア情報学部 感性情報学講座
担当教員:教授 伊藤 慶明, 講師 小嶋和徳
【研究室の概要】
感性情報学講座では音声・音・静止画・動画像を対象として以下の研究を進めています。
・長時間の録画されたビデオ中で検索語が話されている区間を検出する方式
・音声を用いてロボットやコンピュータとの対話を実現するシステム
・複雑で解決困難な問題でも,生物の進化過程を取り入れて最適な解を見つけ出す研究
【研究室の具体的なテーマ】
現在,最も力を入れている「音声中の検索語検出」の研究事例を2つ(①,②)紹介します。ビデオや講義音声などの録音された音声データの中から,指定した検索語が話されている区間を検出することを「音声中の検索語検出」と呼びます。音声認識システムを使って音声データを予め単語列に変換しておき,検索語と一致するところを見つければ良いのですが,音声認識システムの辞書に入っていない単語(Ex. AKB48)は,検索語になりやすい一方,音声認識システムでは認識不可能です。そこで音声データをひらがなや音素などで認識しておき,検索語の音素列との比較を行います。この方法の問題点は,音声データ全体との比較を行うため時間を要してしまうこと,ひらがなや音素を用いると検索精度が単語の場合より低下してしまうことです。そこで当研究室では以下の研究を進めています。
音節バイグラム(任意の2連続音節列)での事前検索による高速化
音声データをひらがな列で認識した後,全ての2連続音節で事前に検索しておき,各2連続音節にはその検索候補を保持させます。検索語中の2連続音節(例えば,「イワテ」なら「イワ」と「ワテ」)の事前検索した候補を参照し,その少数の候補の音声データに対してだけ,「イワテ」で詳細に照合することで検索精度を落とさずに高速化を実現しました。
検索結果の高い順位の候補近辺の候補優先による高精度検索方式
一般的にユーザは,指定した検索語がある特定の箇所に多く出現している,と期待しています。また,検索結果の1位や2位などの上位候補は正解していることが多いという結果が得られています。このことから,検索結果の高い順位の候補が出現している近辺や同じ文書(同じ音声/ビデオファイル)中の候補を他の候補より優先する方式を研究開発し,この方式により,検索精度を大きく改善することができました。
【研究室のPR】
約2年毎に行われる国際的な評価型のワークショップ(NTCIR-10, 11)で当研究室は「音声中の検索語検出」において検索精度で2回連続トップとなりました。