テクノロジーは飛躍的に成長し続け、新しい機能を探求するためにいくつかの分野を利用しています。その一つは、声の断片を通して人の顔を「再構築」できるようにすることです。
2019年にビジョンと認識パターンの会議で発表されたSpeech2Face の研究は、人工知能(AI)が短いオーディオセグメントを通して人の外見を解読できることを示しました。
MITリサーチアンドサイエンスプログラムのテヒョン・オン、タリ・デケル、チャンギル・キム、インバー・モッセリ、ウィリアム・T・フリーマン、マイケル・ルービンスタインの研究者の目標は、人々の顔を同じように再構築することではなく、関連する身体的特徴を持つイメージを作ることであると説明しています。分析されたオーディオ。
これを実現するために、彼らは人々が話しているYouTubeから撮影された何百万もの動画を分析するディープニューラルネットワークを使用、設計、トレーニングしました。トレーニング中に、モデルは声と顔の相関を学習し、年齢、性別、民族など、話者に似た身体的属性を持つ画像を生成できるようにしました。
トレーニングは、顔の詳細な物理的特性をモデル化する必要なく、インターネットビデオの顔と声の同時性を利用して、監督下で実施されました。
彼らは、この研究にはプライバシーだけでなく民族性にも敏感な側面がある可能性があるため、顔の再現に特定の物理的側面が追加されておらず、他の機械学習システムと同様に、時間の経過とともに改善されることを保証していると詳述しました。ナレッジライブラリを増やします。
示されているテストでは、Speech2Faceには顔と声の一致が多数あることが示されていますが、民族、年齢、性別が使用された音声サンプルと一致しないという欠陥もありました。
このモデルは、顔の特徴と声の間に存在する統計的相関を示すように設計されています。AIは、世界中の人口の実際のサンプルを表していないYouTubeビデオを通じて学習したことを覚えておく必要があります。たとえば、一部の言語では、トレーニングデータとの不一致を示しています。
この意味で、研究自体は、結果の最後に、システムを調査して近代化することを決定した人が、機械学習が顔のマッチングと再作成の幅広いレパートリーを持つように、人々と声のより広いサンプルを検討することを推奨しています。
このプログラムは、分析されたオーディオの声に非常に似ている漫画の声を再現することもできました。
このテクノロジーは悪意のある目的にも使用される可能性があるため、顔の再現は人の近くにとどまり、顔全体は表示されません。これは人々のプライバシーの問題になる可能性があるためです。それでも、オーディオサンプルからテクノロジーで何ができるのかは驚くべきことです。
読み続ける: