だからこそ、自分の声をパスワードとして使用すべきではありません

さまざまなスパイ映画やアクション映画では、虹彩や音声による識別などの保護手段が重要な役割を果たします。ほとんどの場合、王室の至宝や核発射コードに到達するには、それらを克服する必要があります。しかし、そのようなシステムを回避できるのはジェームズ・ボンドのようなトップエージェントだけなのでしょうか?どうやらそうではないようです – 少なくともセキュリティ研究者のジョン・シーモア氏とアジーム・アキル氏はそう主張しています。

人工知能が声を真似る

適切なデータを与えた後に人の声を模倣するプログラムやシステムはすでに存在します。しかし、これまでのところ、それらが人や音声ロックさえもだますことができるほど説得力があるようには見えません。しかし、専門家のシーモアとアキルは現在、まさにこれを習得しているようです。セキュリティカンファレンス「Def Con」では、模倣音声でAppleのSiriとMicrosoftのAzureスピーカーの両方を騙すことに成功した。

多くの場合、Def Con はセキュリティ問題への注意を引くために役立ちます。この安全でない音声認識システムのデモンストレーションに加えて、たとえば、11 歳のエメット君はフロリダ州の投票システムへの侵入に成功しました。このようなセキュリティ上のギャップが発見されれば、将来のテクノロジーの開発が大幅に前進する可能性があります。

音声認識を説得する方法

TTS (Text to Speech) プロセスは、Seymour と Aqil が使用する方法の基礎です。これは、テキスト入力を目的の音声に変換することを目的としています。 Heise Online が報じているように、2 人の研究者はプロジェクトで Google の TTS サービス Tcotron 2 を使用しました。望ましい結果を達成するには、まずプログラムに必要な量のデータを供給する必要があります。この場合、オーディオ形式のデータが使用されます。これには通常、約 24 時間の高音質録音が必要です。

しかし、通常、投票のハードルを超えたい人物に関するこれほどの量のデータは存在しないため、専門家は再考する必要がありました。 24 時間がわずか 10 分の音声素材になりました。さらなるステップとして、彼らはまずこれらを 10 秒のスニペットに切り出し、次にオープンソースの音声データベース Blizzard と LJ Speech のデータセットに基づいて拡張しました。最終的に、シーモアとアキルは 300 分のボーカル素材を受け取りました。

人間の耳には、その結果は実際の録音と驚くほど似ているように聞こえました。アシスタントの Siri と Azure は素材を互いに区別できず、侵入を許可しました。