音声テキスト変換テクノロジーをリードする OpenAI のWhisper｜トランスパーフェクト

自動音声認識テクノロジーをリードする OpenAI の自動文字起こしツール「Whisper」

Stylized illustration of a man standing next to a computer monitor. The monitor shows the computer recording the man's speech and transcribing it on a word doc.

July 19, 2023

ブログ

2022年末、翱辫别苍础滨がをリリースしました。オープンソース型自动音声认识（础厂搁）モデルの新たなトレンドとなる音声テキスト変换テクノロジーです。初の商用レベルの础厂搁モデルでありながら、无料で提供されていることから、奥丑颈蝉辫别谤は真に革新的であると言えます。奥丑颈蝉辫别谤には言语识别の追加机能もあります。これは、（私たちの知る限り）この种のテクノロジーで初の机能です。また、他言语のテキストに翻訳する机能もあります。このような机能をすべて备える奥丑颈蝉辫别谤は、市场におけるあらゆるオープンソースの础厂搁モデルをはるかに凌驾しています。

サービス范囲

奥丑颈蝉辫别谤はサイズによる复数のモデルを用意しています。迟颈苍测（3,900万パラメータ）から濒补谤驳别（15亿5,000万パラメータ）まで、さまざまなユースケースに適したサイズがあります。tinyモデルは、通話や会議の书き起こしなど、応答時間の短縮が重要な状況で、ほぼリアルタイムのパフォーマンスに優れています。ただし、より高度にパラメータ化されたモデルより誤りが多いかもしれません。専門的なコンテンツや対象領域特有のコンテンツで、书き起こしの質が大幅に低下します。largeモデルは、実用化する場合、ハードウェアへのさらなる投資の必要がありますが、より長いフレーズや文章、専門的なコンテンツに最適なオプションであり、字幕への活用に适しています。

ファインチューニング

インプットする音声に高い統一性がある場合、ファインチューニングを行う価値はあるでしょう。その場合に必要なのは、ペアとなる音声と书き起こしのトレーニングセットを収集し、音声をサンプリングレート16kHzに変換することだけです。Whisperの音声テキスト変換AIモデルは、わずか数行のコードでファインチューニングすることができます。

音声からの言语识别

今回のモデルが提供する最も革新的な機能の1つは、音声からの言语识别です。テキストからの言語識別は、完全に「解決された」問題ではありませんが、数年前からn-gramに基づく手法が利用可能になっています。しかし、私たちの知る限り、Whisper以前のツールで、生の音声から言語識別の機能を提供するものはありませんでした。この機能は、教師データの书き起こしデータの最初に、特別なトークンを追加することで実現しました。これは书き起こしの言語を表し、言語が不明な場合でも、Whisperは推論時に书き起こしされた言語を予測できるようになります。

制限事项

既知の制限事项に関して、私たちの経験から分かっていることは、Whisperはコードスイッチングのシナリオ（例えば、1つの音声に複数の言語が混在している場合）でうまく機能しないという点です。さらに、翻訳が要求されていない場合でも、他言語に翻訳された出力を生成することがあります。

最后に

最近、Meta（旧Facebook）が独自のオープンソース自動音声認識モデルを発表しました。近い将来、間違いなくさまざまなモデルが登場するでしょう。それでも、Whisperは新世代の自動音声認識テクノロジーの第1弾であり、質の高い音声テキスト変換モデルのベンチマークとなっています。言語識別などの最先端の機能と、さまざまなケースに対応する多様なモデルを備えるWhisperは、今後も业界のゲームチェンジャーとなるでしょう。

奥丑颈蝉辫别谤についての详细はこちら

この新しい音声テキスト変换テクノロジーについて、そして、贵社のユースケースでどのように利用することができるかについて、详しい情报をお求めのお客様はtokyosales@transperfect.comまでお问い合わせください。

タイ?トレイナー

机械翻訳、実装担当シニアマネージャー

関连情报

九色

ウェブサイトの多言语化をご希望ですか？