Amazon TranscribeとGoogle Cloud Speech-to-Textの比較(日本語)

こんにちは。hacknoteのr.katoです。

先日Amazon Transcribeでの音声からの文字起こしに日本語が追加されました。
そこで今回の記事では以前Google Cloud Speech-to-Textを使っての文字起こしの試みがあったので、その結果とAmazon Transcribeとの比較を行なっていこうと思います。

参考資料

結論

Amazonの方はある程度の文字起こしは可能、しかし、Googleの方は使えたものではない。(Amazon2019/11/25,Google2018/11/8時点)

Googleの方は音声加工でノイズを減らすことで文字起こしの精度をあげようと試みていたが、何も変わらず…
今回のAmazonの方では加工した方が精度が落ちているように感じました…

つまり、時期の違いがあれど、Amazonの無加工音声データを使った文字起こしはある程度の精度を出していました。

会議の記録音声を会議直後に文字に起こし、会議参加者のひとりがすぐさま修正するのが一番良い使い方だと思われる。

結果

音声無加工

  • 手動での文字起こし

さっきはほぼこれぐらいの状態で僕がカチカチ山の話をみて読むっていうのをやってました。近いよ。6人で使えたら全然いいからこれぐらい、これぐらいの距離で ちょっと端っこの方に行きつつ気持ちもうこんな端っこだよ自分は。はいじゃぁ初めます。何かありますか。とりあえずなにか気づくこととかございましたか。あ、そうです先月一応やったにはやったのですか、あのー面談、学生メンバーへの面談。気持ち大きい声で喋ってない?もしかして。ちょっと意識しないには無理がありますね。

  • Googleでの文字起こし

時は今これぐらいの状態で僕がかちかち山の話を見て読むことで使えたら全然怒らこれぐらい出るぐらいの端っこの方に情報始めは何かありますかげついち親には行ったんですけどあのー面談が苦戦出る前の面談

  • Amazonでの文字起こし

さっき は 今 後 これ ぐらい の 状態 で 僕 が かちかち 山 の 話 を 見 て 読む って いう として 近い LENCE] 六 人 で 使え たら 全然 だ から これ ぐらい これ ぐらい の クルマ ちょっと 端っこ の 方 に 気持ち 同じ こと は 自分 で LENCE] 拝聴 始め ます はい 何 か あり ます から ね 取り敢えず 何 か 聞い た こと が ござい まし た えっ と 千 先月 一応 やっ た に は やっ た ん です けど あのー 面談 LENCE] 学生 メンバー へ の 面談 基本 地方 近郊 で 喋っ て ない でしょ いや ちょっと ちょっと 意識 し ない が ちょっと 無理 が ねえ

ノイズキャウンセリング

MacのiMovieのノイズキャンセル機能を使い50%、100%でノイズを消しています。

  • 50%

Google

これぐらいの状態で僕がかちかち山の話を見て46人で使えたら全然からそれぐらい出るぐらいの情報始めたい何かありますか新月市大谷今やったんですけどあのー面談学生前の面談

Amazon

環境 今 後 これ ぐらい の 状態 で 僕 が かちかち 山 の 話 を 見 て 読む っていう 感じ に 近い 六 人 に 使え たら 全然 から これ ぐらい で どれ ぐらい の クルマ ちょっと 端っこ の 方 に ひつ 気持ち 同じ こと は 自分 で は 一応 一 杯 何 か あり ます か ね? 日本 に いる 時 に 着る こと が ござい まし て えっ と 千 先月 一応 やっ た に は やっ た ん です けど あのー 面談 LENCE] 学生 年 前 の 面談 基本 ち も 聞こえ て 喋っ て ない って ちょっと ちょっと 音 が ちょっと 無理 が ある ね

  • 100%

Google

これぐらいの状態で僕がかちかち山の話を見て読むと6人で使えたら全然言ったらそれぐらい出るぐらいの端っこでは始めます何かありますか先月一応やったやったんですけどあのー面談学園前の面談

Amazon

環境 今 後 これ ぐらい の 状態 で 僕 が かちかち 山 の 話 を 見 て 読む っていう 感じ として 世界 初 六 人 に 疲れ た 全然 これ ぐらい ある ぐらい の ちょっと 端っこ の 方 の 気持ち もう 同じ 小 で は 自分 の LENCE] 拝聴 始め ます ね 何 か あり ます か ね? 日本 に いる 時 に 着る こと が ござい ます えっ と 千 先月 一応 やっ た に は やっ た ん です けど あのー 面 な 学生 年 前 の 面談 基本 地方 聞こえ て 喋っ て ない って ちょっと ちょっと 音 が ちょっと 無理 が ある

  • 100% + 20dBアップ

Google

でもこれぐらいの状態で僕がかちかち山の話を見て読むと6人で使えたら全然言ったらそれぐらい出るぐらいの端っこでは始めます何かありますか先月一応やったやったんですけどあのー学生年前の面談

Amazon

環境 今 後 これ ぐらい の 状態 で 僕 が かちかち 山 の 話 を 見 て 読む っていう 感じ 世界 初 六 人 に 疲れ た 全然 これ ぐらい ある ぐらい の ちょっと 端っこ の 方 の 気持ち もう 同じ 小 で は 自分 の LENCE] 拝聴 始め ます ね 何 か あり ます か ね? 日本 に いる 時 に 着る こと が ござい ます えっ と 千 先月 一応 やっ た に は やっ た ん です けど あのー 面 な 学生 年 前 の 面談 基本 地方 聞こえ て 喋っ て ない って ちょっと ちょっと 音 が ちょっと 無理 が ある

最後に

複数人が同時に話していたり、イントネーションや前後の文脈で漢字が変わる部分など、難しいところでのミスが多くみられた。
マイクと口との距離や、複数人の会話を考えると、1人につき1つのマイクを使って録音、識別することでもっと高精度の文字起こしを行えるかもしれません。