Open JTalkおーぷんじぇいとーく)は、名古屋工業大学で開発された音声合成技術および同技術を応用した、日本語向けのテキストトゥスピーチ(文章読み上げ)ソフト。日本語の文章を入力することで音声を合成し、読み上げることができる。

Open JTalk
開発元 名古屋工業大学
最新版
オンライン版:1.06, SourceForge版:1.11 / 2012年12月25日 (11年前) (2012-12-25), SourceForge版: 2018年12月25日 (5年前) (2018-12-25)
リポジトリ sourceforge.net/projects/open-jtalk/
プログラミング
言語
C
使用エンジン HTS
対応OS Linux、他
対応言語 日本語
サポート状況 開発中
種別 音声合成, Text-To-Speech
ライセンス 修正BSDライセンス
公式サイト open-jtalk.sp.nitech.ac.jp
テンプレートを表示

概要

編集
 
OpenJTalkの音声合成基礎技術は名古屋工業大学での研究が基になっており、開発と運営が続けられている。

名古屋工業大学にて開発・メンテナンスが続けられている日本語音声合成ソフトウェア。オープンソースで公開されているスタンドアロン版と、Webサイトで公開されているオンライン版の2種類がある。

合成技術にHMM(Hidden Markov Model、隠れマルコフモデル)を採用しており、少ないメモリでも動作するのが特徴[1]。その特徴からRaspberry Pi上での音声合成ライブラリとしての利用例も多い。

パラメータとしては「声質」(フォルマントシフト)、「ピッチシフト」(声の高さ)、「話速」に対応し、ボイスを切り替えることで感情表現にも対応する。

オンライン版

編集

公式サイト[2] 上でシステムを公開しており、誰でも無料で利用可能。

指定可能なボイス(音響モデル)は2種類(男性1種類、女性4感情4種類)。

オープンソース版

編集

SourceForgeにてソースコードが公開されている。利用にはビルドが必要。ビルドすることで各種OSに対応する。修正BSDライセンスで公開されている。 音声合成にはさらに辞書データとボイスデータ(音響モデル、htsvoice形式)が必要[1]。 ライセンスに従うことでライブラリとして他ソフトウェアに組み込むことも可能。

導入

編集

複数のOSに対応しているものの、OSS版はソースコードとしての公開のため導入にはビルドが必要となる。有志によって簡単に使えるように、さまざまな導入方法が用意されている。

アプリとしての導入方法

編集

一部を除き、原則コマンドラインアプリとしての入手になる。

SHABERU
Windows向けのGUIのあるフリーソフト。追加音響モデルにも対応する。[3]

パッケージマネージャを利用した導入方法

編集

辞書データや音響モデルの追加導入が必要な場合がある(APT等)。また、導入後ビルドが必要な場合もある(pyopenjtalk等)。

Docker
docker pull u6kapps/open_jtalk [4]
Homebrew
brew install open-jtalk [5]
APT
apt install open-jtalk [6]
apt install open-jtalk-mecab-naist-jdic ※辞書データ
apt install hts-voice-nitech-jp-atr503-m001 ※音響モデル
Python
pip install pyopenjtalk [7]
.NET(NuGet)
Install-Package SharpOpenJTalk [8]
Node.js (npm)
npm install openjtalk [9]


音響モデル

編集

Open JTalkで利用可能な音響モデル(ボイスライブラリ、htsvoice形式)の例。音響モデルは自作することも可能であり、SHABERU等むけにユーザーが制作した音響モデルが配布されている(規約で許可されていればOpen JTalkで利用可能)[10]

NIT ATR503 M001

編集

標準男声音響モデル。Open JTalk本体、辞書データと共に配布されている[11]クリエイティブ・コモンズ・ライセンス3.0ライセンス。

メイ

編集

メイ(HTS Voice "Mei")は名古屋工業大学のMMD Agentを用いたデジタルサイネージでキャンパス案内を行う女性キャラクター[12]。MMD Agentと共にクリエイティブ・コモンズ・ライセンスで配布されている[13]

Open JTalkで追加女声音響モデルとして利用可能。5つの感情別音響モデル(normal, happy, angry, sad, bashful)がある。

タクミ

編集

タクミ(HTS Voice "Takumi")はメイと共に名古屋工業大学のMMD Agentを用いたデジタルサイネージでキャンパス案内を行う男性キャラクター[12]。MMD Agentと共にクリエイティブ・コモンズ・ライセンスで配布されている[13]

Open JTalkで追加男声音響モデルとして利用可能。4つの感情別音響モデル(normal, happy, angry, sad)がある。

tohoku-f01

編集

東北大学 伊藤・能勢研究室[14] によって配布されている、Open JTalkで利用可能な女声音響モデル。クリエイティブ・コモンズ・ライセンス(4.0)で配布されている[15]

4つの感情別音響モデル(angry, happy, neutral, sad)がある。

ライブラリ・フレームワークとしての利用

編集

音声合成を行わず、OpenJTalkの日本語処理部分のみを利用する事例がいくつか存在する。

関連項目

編集

脚注

編集
  1. ^ a b c d 大浦圭一郎, 橋本佳, 南角吉彦, 徳田恵一「隠れマルコフモデルに基づく日本語音声合成ソフトウェア入門」『システム/制御/情報』第62巻第2号、システム制御情報学会、2018年、57-62頁、doi:10.11509/isciesci.62.2_57 
  2. ^ Open JTalk - HMM-based Text-to-Speech System- 公式サイト
  3. ^ なんかいろいろしてみます ダウンロード”. 2021年9月23日閲覧。
  4. ^ u6kapps/open_jtalk - Docker Image”. 2021年9月23日閲覧。
  5. ^ open-jtalk — Homebrew Formulae”. 2021年9月23日閲覧。
  6. ^ open-jtalk - Debian Package Tracker”. 2021年9月23日閲覧。
  7. ^ pyopenjtalk — pyopenjtalk 0.1.6 7ad3adc documentation”. 2021年9月23日閲覧。
  8. ^ NuGet Gallery”. 2021年9月23日閲覧。
  9. ^ openjtalk - npm”. 2021年9月23日閲覧。
  10. ^ なんかいろいろしてみます ダウンロード”. 2021年9月23日閲覧。
  11. ^ ダウンロードファイル一覧 - Open JTalk - OSDN”. 2021年9月23日閲覧。
  12. ^ a b メイ&タクミ公式ウェブサイト”. 2021年9月23日閲覧。
  13. ^ a b mmdagent.jp”. 名古屋工業大学. 2021年9月23日閲覧。
  14. ^ 東北大学大学院工学研究科 伊藤・能勢研究室”. 2021年9月23日閲覧。
  15. ^ icn-lab/htsvoice-tohoku-f01: Japanese female HTS voice with four emotions {angry, happy, neutral, sad}”. 2021年9月23日閲覧。
  16. ^ エンタメ活用へ向けたAIによる音声生成(Part1) · DeNA Engineers' Blog”. DeNA (March 04, 2020). 2021年9月19日閲覧。
  17. ^ 高い、使いにくい、読みにくい──音声合成研究者を悩ませるハードルを解決する“台本”、明治大学らが発表 - ITmedia NEWS” (2021年6月18日). 2021年9月19日閲覧。
  18. ^ 無料のAI音声合成ソフト「VOICEVOX」公開。商用利用も可 - PC Watch”. 2021年9月19日閲覧。
  19. ^ シロワニさんのつくよみちゃんトークソフト置き場 - シロワニさんの機械学習ブログ”. 2021年9月19日閲覧。
  20. ^ 大浦圭一郎 - 大浦准教授のプロフィール
  21. ^ Techno-Speech, Inc. / 株式会社テクノスピーチ
  22. ^ OpenJTalk の解析資料”. 2021年9月19日閲覧。

外部リンク

編集