Amazon Pollyを喋らせてみる

Amazon Polly」はAmazonの提供する、入力されたテキストデータをリアルな音声に変換するテキスト読み上げサービスです。

様々なシステムを連携することでサービス内の発声部分にPollyを活用することができますが、今回は実装など難しいことの前にまずPollyを試す意味で喋らせてみます。

AWSのアカウントはすでに持っており、マネジメントコンソールにログインできる前提で進めます。

Amazon Pollyの使い方

AWSのマネジメントコンソールから Amazon Polly にアクセスします。

Pollyは「機械学習」カテゴリの中に含まれますが、検索すればすぐにアクセスできます。

初めて使う際は以下のようなページが開きます。今すぐ始めるをクリック。

Pollyのテキスト読み上げ機能ページが開きます。

テキストを入力し、音声を聴くボタンでPollyの発声を試すことができますし、MP3でもダウンロードできます。 試しに喋らせてみるというだけならば以上で完了です。あっという間でしたね。

SSMLを使う

SSMLとはAlexaやPollyで使われている音声マークアップ言語です。文書のマークアップ言語のHTMLは文書の装飾や意味付けができますが、SSMLは同様に音声の抑揚の調整や意味付けができます。

SSMLタブをクリックすると入力欄が切り替わります。

たとえば以下のように入力します。

<speak>
<p>こんにちは。</p>
<p>簡単なSSML例です。</p>
<p>
<prosody rate="fast">早口でしゃべったり</prosody>
<amazon:effect name="whispered">ひそひそ声でしゃべったり</amazon:effect>できます。
</p>
</speak>

HTMLが分かる方ならピンとくると思いますが、HTML同じようにテキストをタグで囲むことで様々な音声装飾ができます。とくに<p>タグなどはそのままですね。

SSMLの種類やより詳しい使い方はSSML公式ドキュメントを参照してください。

WebサービスなどでPollyに喋らせる場合、こうしたSSMLをシステム側で生成してPollyに投げる形が考えられます。

さいごに

Pollyの喋り方を確認するだけならとても簡単でした。SSMLを使うことでより人間的な感情を感じさせる音声にすることができます。機会があればシステムと連携したPollyの使い方について紹介したいと思います。