ボイスクローンの悪用対策
ボイスクローンの悪用対策について勉強しました
何を勉強しとんねん
というわけで
最近は、
動画(映像)のディープフェイク
ってのは割と知っている人も増えてきました
今回は、声のディープフェイク
音声のボイスクローンを使った
悪いコトをどうやって見破ろうか!?
というセミナーです。
具体的に
ボイスクローンを使った悪いコトは
どう使うかというと
金融機関の人の声を採取して
その人の声で資金移動の指示を出したり
オレオレ詐欺なんかも
ボイスクローンを使えば
ターゲットは高齢者だけではなくなりますね
そんなのをどう見破るか
という話で
大きく分けて二つ
◆アーティファクト(人工的に作られたもの)由来の情報で見破る
◆生体由来の情報で見破る
◆アーティファクト(人工的に作られたもの)由来の情報で見破る
ディープフェイクの生成手法は多種多様
なので
事前に全ての生成手法を知ることはできない
※このことを強力なドメインシフトという
生成手法あれこれ
GAN、Flow、Diffusion、etc…
他にもめっちゃある
だから覚えさせてもイタチごっこ
防御側:どんどん新しいのを覚えないといけない
攻撃側:未知、派生モデルで生成したものを使う
こんな構図になります。
ただし、防御側もヤリクチはあって
複数の特徴量に着目すると
ディープフェイク音声を検知しやすいそうです
◆生体由来の見破り方
舌の動きを検知できれば
発声の音源が移動することを検知して
フェイクを見破ることができる
他にも
壁の反射による音の変化
ドップラー効果
のゆらぎは
生体特有の現象だそうです
今後、悪いボイスクローンを見つけたり防いだりする方法で
パッシブディフェンス(検知防御)
プロアクティブディフェンス(透かし防御)
話者匿名化
といったものが研究されているそうです
たまに知らない世界の話を聞くとスゲー
ってなりますね