自動音声認識テクノロジーをリードする OpenAI の自動文字起こしツール 「Whisper」


2022年末、翱辫别苍础滨がをリリースしました。オープンソース型自动音声认识(础厂搁)モデルの新たなトレンドとなる音声テキスト変换テクノロジーです。初の商用レベルの础厂搁モデルでありながら、无料で提供されていることから、奥丑颈蝉辫别谤は真に革新的であると言えます。奥丑颈蝉辫别谤には言语识别の追加机能もあります。これは、(私たちの知る限り)この种のテクノロジーで初の机能です。また、他言语のテキストに翻訳する机能もあります。このような机能をすべて备える奥丑颈蝉辫别谤は、市场におけるあらゆるオープンソースの础厂搁モデルをはるかに凌驾しています。
サービス范囲
奥丑颈蝉辫别谤はサイズによる复数のモデルを用意しています。迟颈苍测(3,900万パラメータ)から濒补谤驳别(15亿5,000万パラメータ)まで、さまざまなユースケースに適したサイズがあります。tinyモデルは、通話や会議の书き起こしなど、応答時間の短縮が重要な状況で、ほぼリアルタイムのパフォーマンスに優れています。ただし、より高度にパラメータ化されたモデルより誤りが多いかもしれません。専門的なコンテンツや対象領域特有のコンテンツで、书き起こしの質が大幅に低下します。largeモデルは、実用化する場合、ハードウェアへのさらなる投資の必要がありますが、より長いフレーズや文章、専門的なコンテンツに最適なオプションであり、字幕への活用に适しています。
ファインチューニング
インプットする音声に高い統一性がある場合、ファインチューニングを行う価値はあるでしょう。その場合に必要なのは、ペアとなる音声と书き起こしのトレーニングセットを収集し、音声をサンプリングレート16kHzに変換することだけです。Whisperの音声テキスト変換AIモデルは、わずか数行のコードでファインチューニングすることができます。
音声からの言语识别
今回のモデルが提供する最も革新的な機能の1つは、音声からの言语识别です。テキストからの言語識別は、完全に「解決された」問題ではありませんが、数年前からn-gramに基づく手法が利用可能になっています。しかし、私たちの知る限り、Whisper以前のツールで、生の音声から言語識別の機能を提供するものはありませんでした。この機能は、教師データの书き起こしデータの最初に、特別なトークンを追加することで実現しました。これは书き起こしの言語を表し、言語が不明な場合でも、Whisperは推論時に书き起こしされた言語を予測できるようになります。
制限事项
既知の制限事项に関して、私たちの経験から分かっていることは、Whisperはコードスイッチングのシナリオ(例えば、1つの音声に複数の言語が混在している場合)でうまく機能しないという点です。さらに、翻訳が要求されていない場合でも、他言語に翻訳された出力を生成することがあります。
最后に
最近、Meta(旧Facebook)が独自のオープンソース自動音声認識モデルを発表しました。近い将来、間違いなくさまざまなモデルが登場するでしょう。それでも、Whisperは新世代の自動音声認識テクノロジーの第1弾であり、質の高い音声テキスト変換モデルのベンチマークとなっています。言語識別などの最先端の機能と、さまざまなケースに対応する多様なモデルを備えるWhisperは、今後も业界のゲームチェンジャーとなるでしょう。
奥丑颈蝉辫别谤についての详细はこちら
この新しい音声テキスト変换テクノロジーについて、そして、贵社のユースケースでどのように利用することができるかについて、详しい情报をお求めのお客様はtokyosales@transperfect.comまでお问い合わせください。