音声から顔を再現する印象的な人工知能プログラム

テクノロジーは飛躍的に成長し続け、新しい機能を探求するためにいくつかの分野を利用しています。その一つは、声の断片を通して人の顔を""再構築""できるようにすることです。

b2019年にビジョンと認識パターンの会議で発表されたSpeech2Face の研究は、人工知能（AI）が短いオーディオセグメントを通して人の外見を解読できることを示しました。

MITリサーチアンドサイエンスプログラムのテヒョン・オン、タリ・デケル、チャンギル・キム、インバー・モッセリ、ウィリアム・T・フリーマン、マイケル・ルービンスタインの研究者の目標は、人々の顔を同じように再構築することではなく、関連する身体的特徴を持つイメージを作ることであると説明しています。分析されたオーディオ。

Read more!

これを実現するために、彼らは人々が話しているYouTubeから撮影された何百万もの動画を分析するディープニューラルネットワークを使用、設計、トレーニングしました。トレーニング中に、モデルは声と顔の相関を学習し、年齢、性別、民族など、b話者に似た身体的属性を持つ画像を生成できるようにしました。

トレーニングは、顔の詳細な物理的特性をモデル化する必要なく、インターネットビデオの顔と声の同時性を利用して、監督下で実施されました。

彼らは、この研究にはプライバシーだけでなく民族性にも敏感な側面がある可能性があるため、顔の再現に特定の物理的側面が追加されておらず、b他の機械学習システムと同様に、時間の経過とともに改善されることを保証していると詳述しました。ナレッジライブラリを増やします。

示されているテストでは、Speech2Faceには顔と声の一致が多数あることが示されていますが、民族、年齢、性別が使用された音声サンプルと一致しないという欠陥もありました。

このモデルは、顔の特徴と声の間に存在する統計的相関を示すように設計されています。AIは、世界中の人口の実際のサンプルを表していないYouTubeビデオを通じて学習したことを覚えておく必要があります。たとえば、一部の言語では、トレーニングデータとの不一致を示しています。

この意味で、研究自体は、結果の最後に、システムを調査して近代化することを決定した人が、機械学習が顔のマッチングと再作成の幅広いレパートリーを持つように、人々と声のより広いサンプルを検討することを推奨しています。

このプログラムは、分析されたオーディオの声に非常に似ている漫画の声を再現することもできました。

このテクノロジーは悪意のある目的にも使用される可能性があるため、顔の再現は人の近くにとどまり、顔全体は表示されません。これは人々のプライバシーの問題になる可能性があるためです。それでも、オーディオサンプルからテクノロジーで何ができるのかは驚くべきことです。

読み続ける:

注意：ハッカーがWeTransferになりすまして情報を盗む

eHealth、それは何で、なぜそれが医学の未来なのか

太陽がなくても機能するソーラーパネル。夜間にもエネルギーを生成するプレートを作る

WhatsAppは、メッセージの絵文字とより多くのプライバシーオプションで6つの反応を提示します

音声から顔を再現する印象的な人工知能プログラム

Speech2Faceは、声のほんの一部で人の顔がどのように見えるかを知ることができることを示した研究です

Más Noticias

Debanhi Escobar：彼らは彼女が死んでいたモーテルを貯水槽に確保した

ヌエボ・レオン特別検察庁のメンバーは、この事件の調査の一環として、ヌエバ・カスティーリャ・モーテルを確保しました。

世界で最年長の人は119歳で亡くなりました

田中ケインは日本に住んでいた。彼女はライト兄弟が最初に飛んだのと同じ年にジョージ・オーウェルより6ヶ月早く生まれ、マリー・キュリーはノーベル賞を受賞した最初の女性になりました

イーグルス・オブ・アメリカは、伝説の決闘でマンチェスター・シティと対戦します。詳細はこちら

メキシコのトップフットボールチャンピオンは、ローンスターカップでペップ・グアルディオラのチームと試合をする

CDMXで不気味な発見：彼らは体を袋に入れてタクシーに縛られたままにしました

死体は車の後部座席に残っていた。それは黒い袋で覆われ、工業用テープで結ばれていた

犬が子犬であるときに世界を知るために犬を連れ出すのが良いのはなぜですか

病気の蔓延に対するいわゆる保護は、犬の不可欠な発達を脅かす