PCでのディープフェイクの作り方を説明しただけで「教唆」扱いの可能性があるという説に反論を試みる記事

逮捕者が出たことでAIや機械学習に興味がなかった方々にまで知れ渡った「ディープフェイク」という技術。

ネットでは「どこまでが罪に問われるか」が話題になっています。

ABEMAのワイドショーでは、ある弁護士さんが「簡単に作れるような手段をセットで出して掲載した場合は違法と見做される可能性がある」と語っていました。

もちろん、これはその弁護士さんの意見であり誰が弁護士でも・誰が裁判官でも同じ結論になるとは限りません。

※そもそもこの弁護士さん自身も「可能性がある」という表現をしていました

ちなみにこの弁護士さんは「ディープフェイク（およびディープラーニング・機械学習）の技術自体は優れたものであり、これを規制するのはやりすぎだと思う」とも語っており、理性的でどの立場の人も尊重した考え方を持った人のように見えました。

なお、勘違いされては困りますが「ディープフェイク動画」はあくまで機械学習によって動画の一部を入れ替える技術であって、逮捕された人たちが販売・公開していたようなジャンルに特化された動画を指し示す言葉ではありません。

「ディープフェイク動画」＝「卑猥」「非道」と考えるのは大きな間違いです。

この技術は「スタントマンの演技に俳優の顔を合成する」だとか、「亡くなった俳優の顔を合成する」といった用途のために研究されてきました。

私には、今はもう芸能界にいない大好きな俳優や女優がたくさんいます。

この技術が発達すれば、彼ら彼女らが再びドラマ・映画に出演することができるかもしれません。

そういう夢のある技術です。

※死後も演者として酷使され続けたくないという方もいるでしょうし、ディープフェイクの技術を実際に使うのならその手のルール作りは必須です

1 「作り方を教える」とはどこまでを言うのか
2 作りたい人に知っておいて欲しいこと
3 精度の高い動画を作るのに必要なものと目安
4 最後に

「作り方を教える」とはどこまでを言うのか

ABEMAでの弁護士さんは「簡単に作れるような手段」と表現していました。

では簡単とは何でしょうか。

ディープフェイク動画を作る最もメジャーな手段はFaceSwapというプログラムです。

※2023年現在、DeepFaceLabのほうが簡単・高性能になっています

と、紹介するのはNGなのでしょうか。

おそらく、FaceSwap・DeepFaceLabというキーワードだけではほとんどの方は本物と見分けのつかない動画を作ることはできないはずです。

なぜなら・・・

そもそも道具を紹介してもプログラム初心者にはわからない

FaceSwapはpython上で動かすことのできるプログラムです。

つまり、PC上にpythonが動かせる環境を作り、python上でFaceSwapを動かせなくてはなりません。

これはプログラム経験のない人には難しいはずです。

プログラム初心者は環境設定で挫折する

私は社会人時代にプログラマとして活動し、新入社員向けの講師をしていた時期もあります。

そんな「プログラミングの先生としてお金を貰っていたプロ」である私の最も苦手な作業は「プログラミング環境を整えること」です。

パソコンはそれぞれの利用者がそれまで使ってきた状況や、そもそものOSや構成内容などによって大きく異なるため、プログラムを動かせる状況になるまでに超高確率で問題が発生します。

その際に発生するエラーは多岐に渡るため全てを網羅して説明することは事実上不可能です。

そして初心者は画面上に表示されたエラーメッセージを読むこともなく「何もしてないのに動かなくなりました」と丸投げしてきます。

プログラム初心者はボタン一つでいくらでも量産できると思っている

いまだにこの手のプログラムを「魔法」と同一視している方がいます。

ほとんどのツールは下ごしらえの作業や、使う側の熟練度、なにより「ちょっとした不具合は見てみぬフリをする勇気」が必要です。

初心者さんたちは自分をお客様だと思っているので、ちょっとでも気に入らないことが起きると「使えねーツールだな」なんて言い出します。

何が言いたいかと言うと

長々と愚痴のようなことを書き連ねましたが、何が言いたいかと言うと「どうやって作るかを紹介しても（プログラミング初心者には）簡単に作ることはできないので教唆には当たらないのではないか」ということです。

いわゆる予防線です。

作りたい人に知っておいて欲しいこと

（さらに前置きは続きます）

この手の「犯罪にも使えてしまう技術」では前口上としてよく使われるセリフがあります。

包丁は料理に使うものであり、犯罪・復讐・脅迫に使うものではないことがわかる方のみ先に進んでください

というものです。

「技術そのものが悪なのではなく、それを悪用する人間が悪い」ということを理解できない人はこの技術に触れるべきではありません。

精度の高い動画を作るのに必要なものと目安

これだけ予防線を張れば大丈夫でしょう。

必要な道具と材料を紹介します。

必要なモノ・ＰＣ

まずはＰＣです。

ネットではスマホでできないか探している人も多いようですが、それは無理です。

「スマホはＰＣ並の性能を持っている」と言う人がいますが、それはやや語弊があります。

たしかにどちらもYouTubeを見ることができますし、メールやLINEもできます。

ですがプログラミングについてはスマホ界の最先端技術が結集されているあのiPhoneですらまだまだ発展途上です。

なお、ＰＣであれば安物でも「ディープフェイクを体験したいだけ」なら動かすことはできます。

ですが高精度な動画が作りたいのなら（そこそこの）高性能ＣＰＵ・大量のメモリ・nvidia製の高性能なグラフィックボードがあったほうが作業は速いです。

とくにグラフィックボードの有無で速度が10倍近くまで変わります。

なお「nvidia製のグラボ」と名指ししているのは、性能がいいからではなくプログラムが別扱いだからです。

別メーカーのグラボは性能がよくてもその性能をフルに発揮させることができません。

具体的にどのスペックのPCがいいかという質問には「高性能なら高性能なほどいい」としか答えられませんし、「CPUとグラボとメモリ、どれが大事？」という質問には「どれも大事」としか答えられません。

ただ言えるのは、PCは一点豪華主義ではなく平均的に性能を上げたほうがいいです。

どんな高性能なCPUでもメモリが足りなければ満足に動きませんし、グラボがなければとにかく遅いです。

それでも敢えてどれか一点を挙げるならグラボです。

CPUが古すぎずメモリが十分にあり電源が必要十分な供給ができるのであれば、余ったお金はグラボにつぎ込んでください。

Mac or Windows ?

なぜか最近、プログラミングを始める人に対してMacをオススメしている人が多いですよね。

たしかにスタイリッシュなまっくぶっくぷりょをすたばぁーで広げてゆーちゅーぶーを見るのはかっこいいのかもしれません。

ですが、「ディープフェイク動画」に限ればMacは悪手中の悪手です。

特にMac bookはダメです。

Proでもダメです。

理由は「nvidia製グラボがないノートパソコン」だからです。

さらに追加で理由を挙げるなら「ノート」だからです。

ディープフェイクは長時間「トレーニング」を続ける（＝PCをフル稼働し続ける）必要があるため、排熱能力の低いノートPCはとても厳しいです。

※つまりマックだろうとwindowsだろうとノートPC自体が不向きということです

FaceSwapはnvidia製グラボに最適化されているため、nvidia製グラボがない環境で高精度の動画を作ろうとしたら10分程度の動画ですら3か月近くかかります。

40代以上の方は「映像・画像系ならマックっしょ！」と思っているかもしれませんが、それは昭和の話です。

今はwindowsも「お金を積めば」高性能なPCが用意できます。

そして最新のmac book pro程度のお金が用意できるのなら、それと同クラスのwindowsデスクトップゲーミングPCが手に入ります。

※「何を重視するか」によります。すたいりっしゅなりんごのすてっかーが何よりも重要だという方にとってはmac book pro以外の選択肢はないです

ゲーミングPCとディープフェイク作成用のPCは用途がかなり近いです。

具体的に言えば、高性能のグラボを積んでいるという点で似ています。

必要なモノ・元ネタ画像

猫の顔を自分が踊っている動画に合成して精度の高い10分ほどのニャンニャン動画を作るという場合を考えてみましょう。

猫画像・自分の踊っている画像ともに3万枚程度は必要です。

当然ながら、同じ猫でなくてはなりません。

「三毛猫だったらみんな同じでしょ？」というのは「アイドルグループはみんな同じ顔に見える」と言っているのと同じです。

また、差し替え元の猫と差し替え先の自分の髪型・輪郭もできるだけ近いものがいいでしょう。

たとえば「ポニーテールの猫」に「ロングヘアの自分」を差し替えた場合、「ロングヘアの猫が踊る動画」という違和感のある動画が出来上がります。

人の脳は「普段の髪型と違う」というだけでかなりの違和感が発生します。

できるだけ同じ髪型の猫を用意しましょう。

真正面でこっちを凝視している画像だけ大量にあってもあまり精度は上がらず、水を飲んでいる姿や寝ている姿、獲物にとびかかっている姿などたくさんの表情のたくさんの角度の写真が必要です。

差し替えようとしている元動画側と同じ角度の動画がたくさんあれば高精度の動画が作れます。

これを写真に収めるのはいくら猫好きでも大変なので、動画で撮影して分割させましょう。

1秒あたり3枚程度の写真をピックアップすれば様々な角度の写真が手に入ります。

3万枚は1万秒、つまり3時間ほどの動画があればOKです。

さらに合成先の自分が踊っている動画は、20分程度あるといいでしょう。

※10分の動画が作りたいのなら合成先は10分でよさそうに感じますが、実際にはうまくいっていない部分を修正するので長めの動画を用意するのがおすすめです

こちらの動画は猫の顔を合成したあと再び動画化するため、1秒あたり32枚の静止画に分割させます。

20分の動画は38400枚の静止画になります。

なお、これらの動画から静止画への分割は手作業でする必要はありません。

FaceSwapにその機能があります。

必要なモノ・時間

パソコンと素材が揃ってもボタンを押したらすぐに動画が完成するわけではありません。

一番時間がかかるのはプログラム自身が「学習」する工程です。

上記ABEMAニュース内では、100万回学習させると十分な精度になると語っていました。

パソコンの構成によって時間は変わりますが、高性能なゲーミングパソコンであっても100万回となると1週間近くかかります。

ちなみにnvidia製グラフィックボードのないノートパソコンでは1000回の学習に2時間かかりました。

十分な精度である「100万回」には1000倍の時間がかかるので、計算上2000時間かかります。

1日24時間フル稼働させるとすると83.3日かかります。

つまり2か月と24日です。

ディープフェイクを本格的に学びたいなら、windowsパソコンでnvidia製のグラフィックボードは必須です。

最後に

FaceSwapを使ったディープフェイクについてのお話でした。

この技術そのものは亡くなった俳優・女優の新作ドラマ・映画が見られる可能性があるという素晴らしいものです。

※繰り返しますが、亡くなった俳優・女優の意思は尊重しなくてはならず、そのあたりのルール作りは「技術そのもの」とは別に話し合われなければならない重要事項です

「包丁は料理を作るためのもの」です。

「ディープフェイク」も正しく使いましょう。

なお、当サイトに詳しい使い方を質問されても答えられません。

それは「教唆」に当たる可能性があるというだけでなく、私に遠隔先の問題を見通す千里眼的な能力がないからです。

自力で頑張ってください。