AI はおそらくこの 10 年間のバズワードです。現在、人工知能ほど私たちの技術開発と社会的議論を形成しているイノベーションはほとんどありません。 ChatGPT のようなプログラムは非常に便利なため、このテクノロジーを利用するユーザーが増えています。しかし、Microsoft の最新の音声 AI のように、テクノロジーが高度になりすぎるとどうなるでしょうか?
人間の品質を備えたAI
VALL-E 2 プロジェクトに携わった Microsoft 開発者の声明によると、新しい言語 AI は「初めて人間と同等の性能を達成した」とプレプリント サーバー arXiv に掲載された Microsoft 開発者による記事で、わずか数秒の音声で述べられています。プログラムをトレーニングするための資料。

AI モデルは「人間のパフォーマンスに匹敵する、元の話者の正確な声で正確な自然言語を生成します」と彼らは続けています。 VALL-E 2は人間の声を模倣するのが非常に得意であるため、悪用を恐れて公開したくないと言われています。
読書のヒント: 怒っている顧客に対する初の AI

音声AIの秘密のレシピ
音声 AI の 2 つの重要な機能、いわゆる「反復認識サンプリング」と「グループ化されたコード モデリング」により、この達成が可能になります。
Repetition Aware Sampling は、VALL-E 2 がより良い音質の音声を生成できるようにすることを目的としています。単語または単語の一部が何度も繰り返されるのを防ぎ、AI がより流暢かつ自然に話すようになります。

一方、グループ化されたコード モデリングは、AI をより高速かつ効率的にします。これを行うために、同時に処理される単語または単語の一部の数が減ります。これにより、VALL-E 2 は音声をより迅速に生成し、長い音のシーケンスをより適切に処理できるようになります。
VALL-E 2 が人間の声をどの程度模倣できるかを確認するために、研究者らは LibriSpeech ライブラリと VCTK ライブラリからの音声録音を使用しました。また、より困難なタスクにおける音声 AI の結果の精度と品質を測定するスコアリング システムである ELLA-V も使用しました。研究者らは、AI VALL-E 2 が「この種のベンチマークで人間のレベルに達した初めてのロボットである」という結論に達しました。

こちらも興味深い: AI を使用した亡命手続き – ショルツ氏が物議を醸す計画を提示
危険すぎますが、実用的な応用分野はありますか?
この AI の目覚ましいパフォーマンスにもかかわらず、VALL-E は近い将来日の目を見ることはないと予想されています。 Microsoft は、言語モデルの悪用の可能性を非常に懸念しています。
「VALL-E 2 は純粋に研究プロジェクトです。現在のところ、VALL-E 2 を製品に統合したり、一般へのアクセスを拡大したりする計画はありません」と Microsoft の開発者はブログ投稿で述べています。 「音声認識の改ざんや特定の話者になりすますなど、モデルが悪用されると潜在的なリスクが生じる可能性があります。」

それにもかかわらず、開発者は音声 AI の実用的な応用分野を想像することもできます。「VALL-E 2 は、話者のアイデンティティを保持した音声を合成でき、教育学習、エンターテイメント、ジャーナリズム コンテンツ、自作コンテンツ、アクセシビリティ機能、インタラクティブな用途に使用できます。」音声応答システム、翻訳、チャットボットなどが使用できる可能性があります。」
