Amazon Transcribeとは

「Amazon Transcribe」はAmazonの提供する、音声認識サービスです。アップロードされたMP3などの音声ファイルを文字起こししたテキストファイルを生成します。

2018年8月現在、東京リージョンには対応しておらず英語音声のみ対応しています。
残念ながら日本語にはまだ対応していません。気長に待ちましょう。

日本語対応！！

Amazon Transcribeの特徴

Transcribeには以下のような特徴があります。

TranscribeはAPI形式で提供されており、利用者は音声データをアップロードするだけで結果を得られます。API形式のため自分のネットワーク内にTranscribe用サーバーを構築するなどの作業も不要です。

文字起こしされたテキストは単語ごとに再生時間箇所のタイムスタンプが付与されたjsonファイルで生成されます。字幕などのアプリケーションに応用することができます。

一度に複数人が話している場合でも、話している人物を判別するパラメータを付与することができます。電話や会議などの文字起こしに応用できます。

AWSのアカウントを持っていれば、管理画面よりノンプログラミングでTranscribeを試すことができます。

今回は名演説と有名なスティーブ・ジョブズのスタンフォード大学での演説を文字起こししてみました。

Transcribeの管理画面から以下のように音声ファイルを指定することで文字起こしのジョブを登録できます。音声ファイルは自分のS3領域にアップロードする必要があります。

音声変換なのでジョブの登録後、変換完了までしばらく時間がかかります。今回は約15分の音声を登録したのですが、8分ほどで変換が完了しました。アルゴリズムは不明ですが再生時間より早く終るのは意外でした。

以下のような文字起こしの結果を得られました。単語ごとにタイムスタンプが付いているのが分かります。

また右上の「Download」ボタンから文字起こしのjsonデータがダウンロードできます。冒頭の「Thank you」だけでも以下のようなデータ量になっています。

Transcribeの料金は「 1秒 0.0004 USD 」とシンプルです。（2018年8月時点の公式価格）

今回試した上記の音声は以下のような料金計算になります。

15分 x 60秒 = 900秒
900秒 x 0.0004USD = 0.36USD

なんと15分の音声文字起こしが約40円程度ということになります。人が文字起こしをする工数を考えれば破格です。単なる文字起こしではなく、様々なシステムに応用できるjsonのテキストデータがこの値段です。

これが日本語対応したら、文字起こし業者は働き方やサービス体系を変える必要がありますね。

今回は Amazon Transcribe の特徴から料金についてご紹介しました。

音声の文字起こしというと一見地味ですが、音声を聞いて文字に起こす作業は再生時間以上の時間がかかりますし、クリエイティブな作業ではありません。地味な作業ほど自動化できるメリットは大きいです。

AWSは他にも音声変換サービスのPollyや翻訳サービスのTranslateもあるので、それらと連携して様々なコミュニケーションサービスに応用が期待できます。