#102 防音マイクmutalk開発秘話と、画像生成AIと超える想像力の限界

#102 防音マイクmutalk開発秘話と、画像生成AIと超える想像力の限界

エピソード概要

ガジェット好きの話題をかっさらった防音Bluetoothマイク、mutalkのプロトタイプ開発に鉄塔さんが関わっていたらしいので話を聞いてみました。画像生成AIのStableDiffusionを試してみた感想について話しました。


■参考リンク

mutalk - 株式会社Shiftall
https://ja.shiftall.net/products/mutalk

叫んでも周囲に声が漏れないBluetoothマイク「mutalk」量産版公開 - AV Watch
https://av.watch.impress.co.jp/docs/news/1436949.html

TONTON展示の様子
https://twitter.com/tettou771/status/1565939731485294592

GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model
https://github.com/CompVis/stable-diffusion

話題のStable Diffusionがオープンソース化されたのでローカルで動かしてみる
https://zenn.dev/koyoarai_/articles/02f3ed864c6127bb2049

GitHub - lowfuel/progrock-stable: Stable Diffusion with some Proggy Enhancements
https://github.com/lowfuel/progrock-stable


■サポータープログラム

Image Castを持続可能なポッドキャストにするため、月3ドルからの支援を受け付けています。

サポーターの方はあずまによる近況報告や次回予告、収録のこぼれ話、特に意味のない写真などが毎週届きます。

二人を応援したい人はぜひよろしくお願いします。

https://www.patreon.com/imagecast

■だいたい読まれるおたよりはこちら

おたよりはこちらのメールフォームまで。

https://forms.gle/PbZcv4eNz5yhe86v9

メールは cast@image.club でも受け付けてます。

その他、Apple Podcastなどでレビューしてくれると大変励みになります!

Twitterのハッシュタグは #ImageCast です。エゴサしてます。

文字起こしを見る
シェア:
最近ちょっと気になってるプロダクトが出てまして ミュートークっていうんですかね なんていうのかな ミュートーク マイクなんだけど 防音ブルートゥースマイクっていう感じなのかな 口にカポッとつけるような感じになってて 外からの騒音とかが入らなくて かつこっちからめっちゃでかい音で 喋ったりとか叫んだりとかしてても 外に音が漏れないみたいな 製品が1週間前ぐらいに出てたんですよね それがねなんかめっちゃ良さげやんと思って 確かに 結構うちで例えば夜中とか子供が寝てるとか 普通に家族とかにそんなにいろいろ喋ってるの聞かれたくないとか 結構あるんで それをクリアできるめっちゃ画期的なプロダクトだなと思ってるんですけど テッドさんこれ知ってます? わざわざらしいですね えっと はい知ってますね あ知ってるんですか? はい え何で知ったんですか? えっと まあしばらく前に そのようなものを開発したいという依頼があって 試作品の段階でお手伝いしたという 関わってんなー テッドさんマジ何でも関わってんだから そんなことないですけど まあそういうのないよなとは思ってたけど 結構冗談みたいな感じはしたんで またちょっと面白いプロダクトを作る話かなっていうので 最初はちょっと取り組み始めたようなものだったんですけど 僕マジで知らなくてテッドさんがそれやってたこと はいはいはい ニュースで見てはいいなって思ってたらテッドさんが これ実は最初やってましたみたいな マジかと思ったんですけど そうですね じゃあ今日はそのミュートークのあたりの話から入ってみようと思います はい それじゃあ行きましょう 今週のイメージキャスト 9月17日土曜日の朝になりました おはようございます あずまです テッドです イメージキャストは個人で物を作る人の集まり イメージクラブとして活動している あずまとテッドが自宅からお送りするポッドキャストです 技術、デザイン、制作、表現などに 関係のあるようなないようなトピックを中心に 毎週2人が気になったもの、発見したことを それぞれ持ち寄っておしゃべりします いやーでも 量産までこぎつけられるかどうかっていうのは 初期の段階ではわからなかったので テッドさんがやったのは割と初期プロトタイムみたいな感じですかね そうですね なのでこうちゃんと日の目を見るっていうことが なかなかこう試作品で関わってても そういうことってあんまりないんですけど あそうなんだ やっぱ途中で話としてなくなっちゃったりとか とりあえず試作品で満足して なるほどこういう感じかって言って 次の試作に移るとか それがいいねって言って本当に量産にこぎつけるっていうのは本当に少数なんで そうですよね結構リスクですもんねだって 何百万とかかかるじゃないですか作るのに 作るだけでも いやもうそういうところじゃないね もう金型だけで何百万とかそういうレベルだから 実際の量産のプロセスを回していこうと思うと ちょっと想像できないけど すごいすごい金が 時間も でしかも価格19,900円っていう 意外に安い そう意外にこういうタイプのプロダクトとしては安いなっていう そうですね なんかこういう実験的で 数もめちゃくちゃ出るわけじゃないだろうなっていう 超大量生産ではなさそうなもので よくクラウドファンディングとかでお金集めて作るとかだったら こんな安くはなんない そうですよねちょっとこういうのって まあ中の構造もただのマイクじゃなくて 小音するためにいろいろ複雑な構造してるはずなので そうなんですね あの量産品を僕の目で見てはないんですけど まあリリースの写真とか見てると ちゃんと防音設計はされている状態で 量産にこぎつけているというのが分かったので なんかすごいなと思って すごいなってなんか 自分がやったのは自分がやってないような なんか一言みたいな感じで見てますけど 一言のような ちょっと自分がやったっていうのは まあ本当試作の段階なんで まあ量産に至るまでの苦労っていうのは 相当あっただろうなとは はいはいはい 思いますね すごい なんかチラッと聞いたんですけど その量産に入る前に なんでこんな複雑なんだみたいな あーもうなんか文句が出たぐらいの いやでもこれ味があってみたいな っていうちょっとこうそういう声も なんかあったり これはちゃんと防音のために こうなってる必要があるんですよっていう そうですね なんか車のマフラーとかを まあ参考にはしたりしてるんですけど まあ声を出すってことは 空気が通らないといけないから 穴があるんですけど 空気が通りやすいっていうのと 音を防ぐっていうのは 結構矛盾している 確かに それをなんとかするっていう 密閉しちゃうとね もう声出せなくなっちゃうしな そうなんですよ でも密閉はしたいんだけどな なるべく穴を小さくして でも限界まで小さくしても 結構漏れるから なんかこう部屋がたくさんあって 何個も何個も こう穴を通った部屋があって また穴を通った部屋があって みたいな構造になってて 最後にちゃんと空気は抜けるんですけど そういう感じの構造ですね すごいな 結構ちゃんとしてますね そうですね ちょっと最初のスタディで 結構小音機っていうか カラオケを家で練習できるように 口にカバーをつけれるっていうのが 実はあるんですよ でアマゾンで色々買って 結構買いまくって あるやつ全部 でデシベル系を買って 大体同じくらいの声で アーって塞いでいって あれ大してデシベル下がらないな っていうのばっかりだったんですよね そんなにちゃんと防音できてはないんだ そうそう 一つも参考にならなかったり 車のマフラーぐらいしかってことですかね そうですね 逆に言うと 参考にならないぐらいのものしかないから これは確かに競合製品はないなっていうのは その時は感じましたね 最初は冗談っぽいなと思いながらも 冗談でも割と本気でというか 真面目に作るので 結果的には いけそうなやり方が見つかったから その時は嬉しかったですね すごいな そういうところもデッド戦ってたんですね そうですね 章の仕組みに関しては いろんな形のものを作って こういうことだったらいけるのかなみたいな 理論も参考にしながら 結構実験的なアプローチに近かったですけどね そんなこともしてるんだ ある時は構造上の都合で めちゃくちゃ重たいものになったりとか これはちょっと ずっと持って使えないだろうっていう あれですよね 口にカポってつけるやつですもんね そうそう 重くなったわりに 効果がない工夫とか なんかそんな重さ変わんないけど 結構効果がある工夫とか 結構トライアンドエラーを繰り返して できてるんですね そうですね 面白かったですね なんかあれですよね その量産品の音声の比較テストみたいな動画も上がってるんですけど 結構ちゃんと音ちっちゃくなってる感じでしたね そうですね まあ音は消えますよとだけ書けば 普通はなんか製品としても 消えるって言ってもこんなもんでしょ みたいなのが多かったけど それをちゃんとね 何デシベル減るみたいなのをちゃんと書いてましたよね いやー なんか嬉しいですね ちゃんとその効果が売り込む道具になるというか うん まあ ちょっと喉から出る音とか なんか口から以外のところからも出る音があるので まあゼロにするっていう コンセプトではないんじゃないんですけど まあでも小さくなるだけでもかなり 気にならなさっていうと 気になってたものが気にならなくなるっていう くらいの効果はあるだろうなと思いますね 相当あると思いますね ただその 結構ボトルネックだなと思ったのが はいはい あの動画聞いてみて思ったのが ちょっとね どうしてもね 鼻声になっちゃうっていう とかありましたよね まあそうなんですよね そこもね 議題としてはあったんですけど うーん 悩みましたね あー本当ですか やっぱ まあちょっとあの どういう判断 口のところを 口のところはこうカポってはめて 鼻はむき出しになってるんですよね そうですね それゆえ鼻声になっちゃうんですか うん そうです 多分 であの鼻を 鼻も含めてカバーするものも まあ一応 作る可能性は まああったらあったんですけど ちょっといろいろ あって まああの形に落ち着いたというか なるほど 息しづらくなっちゃうとかね そうですね しかもめっちゃ いろいろあるんだろうな なんだろう ほとんどフルフェイスマスクじゃないけど ガバーってこう なんだろう すごい 顔の ロックマイクゼみたいになっちゃう うん ガスマスクみたいな感じになるんですよね あーはいはいはい で それでいいのかみたいな話もあったり いやもうでも見た目の話で言っちゃうと これも結構なんか 拘束されて拷問を受けてる人みたいではありますけどね まあ確かに 確かに それで 画像出てるやつなかなかどぎついのが出てますけど マイクだけだと まあそうでもないかもしれないけど 結構VR ヘッドマウントディスプレイみたいなのつけてるから 結構 インパクトが二重にこう ダブルパンチで来たんですよね そうですよね 互換を支配されてる感じの いやー でも こう自分の まあ一部でも関わったものが ちゃんと両サイに来たっていうのは いやーすごい これ初めてかな 初めてかもしれないんで おーめでたいですね だからちょっと嬉しいですね これあれでしたっけ なんか 特許とか撮ってる あ そうですね あのー まあ僕自身が文明とかには関わってないんですけど まあ特許の 中には一応名前は まあ載せてもらえたという 発明家じゃないですか 発明家ですよ 嬉しいですね いやー 街の発明おじさんへの道をまた一歩 いやーまあ 嬉しい 嬉しい いやーもし このミュートークが めちゃめちゃ今後売れて 世界中でみんな使ってるみたいな感じになったら あのー ドクター仲松がいつまでも フロッピーのことを言ってるみたいな感じで フロッピーのフタを作った人ですよね 蓋なんだ そうそう フロッピーが自動でね かばって蓋しまうじゃないですか あの部分を作ったんじゃなかったか そうなんだ 僕詳しいこと知らないですけど フロッピーずっと言ってるなと思って なんかこう フロッピーを作ったと誤解されやすいけど 違うですか なんかさせてる感じするな フロッピー作った人だと思ってるもん だいたいみんな 多分僕も まあ同じような なんかまあ部分的にね こう消音するってことに対して こうアプローチしたっていうだけなので そこを そもそものアイデアは あの パナソニックさんが作っているものだし ああ こう まあ冗談みたいだなと 正直 いやー なんだろうな それを作っちゃうっていうのは 結構 もしかしたら 勘どころがすごい 鋭どかったっていうのが 僕には見えてなかっただけだったのかもしれないですね ああ その ミュートークについてですよね そうですね 面白いものを作る 面白いものを作ろうとしているっていう スタッフだったから 作ってる本人からしても ちょっとなんか ジョークというか ちょっとこう まあ 面白よりだなって思ってたけど そうですね 実はコンセプトはちゃんと こう刺さっていたという そうですね だからちょっと いや 失礼かもしれないんで あれなんですけど まあ そのチームからは 結構面白よりのものの 制作の依頼が 結構来るんですよ はいはいはい なんかある時は すごい巨大なイヤホンを作るみたいな 話しちゃったりとか で 面白いみたいな なるほど なるほど その並びで来たら そりゃ そうですね 面白大発明 かなってなっちゃいます うーん この前も メーカーフェアの 製作物を手伝ったことも ああ はいはいはい ですね こう ロボットの手がこう トントン優しく胸を叩いて うん 眠りに誘われるっていう 和ませてくれるってこと 結構 武骨な こう ロボットアームみたいなのが出てくるんですけど はいはいはいはい その手の動きだけ 妙にこう なんか スナップを利かせて 柔らかく トントンって動くようなものを ちょっとやったんですけど なんか ワイヤーを使ってこう 人間の手が こう 筋肉とか まあ基本的に紐で 引っ張られてるような 動きをするじゃないですか それをちょっと参考にしながら バネットワイヤーの 張力のバランスで こう 手首がしなやかに ポンってこう 動くっていう おお それもテッドさん作ってるんですか そうですね それが なんか でも 言葉で言うと すごそうに聞こえるかもしれないけど 結構 メーカーフェア的な ものだから まあ メーカーフェア用に なんていうかこう 試作品的な 面白 面白いよりにして まあ 納品したものがあって こんなんどうよっていう そういう並びなんです それも実は 意外と そういうコンセプトが ああ 例えば ロボットによって 人間が介護されていく 時代が 絶対今後 訪れるわけじゃないですか はいはいはい そういう時に そのロボットアームが ガションガションってきて なんか 飲み物を顔に バッて持ってくるよりかは スーッと持ってきて うん こう なんか落ち着かせてくれるような 動きをした方が 絶対いいし あまあ そうですね そういうビジョン 実は そう 50年後とかになったら みんな鉄道さんの トントンで 眠りについてるかもしんない おお 嬉しいですね そしたらもう トントン トントン高田ですよ トントン ドクター高田 鉄道 鉄道で行きましょう ドクター鉄道で 立候補ですよ トントン高田で まあまあ というね 結構 実験的なものを 作っている フューチャーライフファクトリー というチームなんですけど 割と ご縁があって その 僕のこと ちょっと面白がってくれている とか なんか お互いが そんな変なものを 作るんですか はははって こう お互いの作ってるもの ちょっと 言える 言えるっていうのも あれですけど ちょっとこう話しながら 作れてたりするから うん 非常に暖かい いいですね なんか健康的な感じで そうですね なんか嬉しいですね 僕もなんか猫の 猫を教育するための装置です っていうか あのイメージクラブの サイト見せで いいですね って言ってくれるから 優しいんですよ いいですね それはあれですね カラクリフィーダーっていう テッドさんが前作ったやつで そうですね 回すハンドルみたいなのが ついてて 猫がそこを ちゃんと回すと 餌が出てくるっていう そうそうそう 猫は 学習しない 学習しないっていうか 物を教えても 学ばないって言うけど 自分が得だったら 学ぶはずだっていう 前提で ちゃんと強化学習をして そうそうそう そしたら結構 ちゃんと回し方も 自分が想定してた 回し方より 効率いい回し方を 発明してくれてたんで 人間に勝ってますね ちょっと嬉しかったですね 今でも使ってます 今も使ってるんだ いやいやいや 発明の日々って感じですね 相変わらず いやなんか そうですね 嬉しかったですね あれは いやちょっと気になるな このミュートーク 2万 どうしよう 買える家屋では 買って 両方鼻声で おはようございます って言って まあでも 僕もともと鼻声気味な 声な気がするんで あー あの多分 そうそう 向いてる 普段から鼻声寄りの人であれば そこまで変化量が多くないから そうですね あーいいですねそれ 向き不向きはあるんですね 特性上 あると思います 鼻のこう なんか 鼻空音っていうんですかね はいはいはい あれをこう うまく響かせて いい声を出せてる人は ちょっとこう なんかその微妙なさに こう違和感がある可能性は あるんですけど はいはいはい まあミュートークのコンセプト としては それよりもミュートするっていうことを 優先してるので なんか まあ あしからずというか あしからずっていう そんな感じですね まあもしかすると みんなもう鼻声で喋ってる 世の中になるかもしれないし そうですね リアルに会った時に こう 鼻声じゃないと こう誰だか分かってくれないから 逆に リアルで会った時用の 鼻線がこう 作られる あとは ソフトウェア的に 鼻声を 元の声に 復元するような 機械学習で できるかも いけんじゃないですかね その人の元の声を 学習させておいて で鼻声が 入ってきた時に それを元に戻すっていう はいはい いけそうな気しないですか いや 多分ね できると思いますよ お できると思う それ来たら最強 うーん 結構 待ってよ 鼻声 えーと 鼻声 普通に喋っている時と 鼻を塞いだ時で 普通に喋っているけど 鼻声にするタイミングって ほぼないですよね だから 多分大丈夫じゃないかな お なんか 元に戻しすぎると 鼻声を意図的に 出せなくなるっていう デメリットはあるけど まあ それは出さないと思うんで そうですね うん いけるんじゃないかな お なんか これは すいません AI詳しくないんですけど 仕組み的には 多分いけるだろうな って ちょっと思ってます いいですね これソフトウェアとセットで やったら これ完璧な製品になるんじゃないですか そうですね これは なるほど あ そういえば ひそひそ声も もしかしたら 普通の声に戻せるんじゃないかな へー とかちょっと思ったことがあって あの Apple Watchとかって こう 夜中に こう 横で誰か寝てる時に 命令する時 あの ひそひそ声で 結構話すんですよ はいはいはい で ひそひそ声で 朝7時に起こして とか やっぱりやめた 7時15分 とか 言うんですけど そしたら きちんと聞き取ってくれて えーそうなんだ そうそう で Apple Watchは あの ひそひそ声じゃない 普通の声で はい 7時15分に アラームを セットしました そういうとこだよな 言ってくれるんです ハキハキ 喋っちゃうんだもんな そうそう そこ合わせてほしいですね そうそう だからこう 命令がうまくいったな と思ったら 布団の中にこう 腕を入れて こうミュートさせるんですけど でも あい聞き取れてるってことは こう 同じぐらい情報量があるってことなのかな とか まあそうですよね まあいいと 復元できるかどうかは さておき 認識はできてるっていう うん 言葉としての情報量は 意外 ちゃんと こう 汲み取ってくれてるな と思って うん まあ復元するのとはまた 違う話かもしれないけど まあ ひそひそ声が実は 聞けるよっていうのは 知らない人が多い ような気がするんで うん ちょっと 試してみてください そうですね 結構 研究レベルの話だと なんか 口の中で 喋らずに その 言葉の動きを してるのを なんかで読み取って で それを 音声認識 として コンピューターに 命令するときに 使うみたいな のが確か あった気がしますね へー だから それで十分か うん ボイスで そのテキストを 打ったりとか 打つっていうの テキストを なんだ 言うっていうか うん 入力する 音声入力だ 音声入力するとか そういうのは 普通の喋りと分けて うん なんか 街中で こう 不自然にならないような形で できるようになるかもしれないですね なんか 口パクパクしてる人がいるなー っていうことですよね まあ そうですね 2010年から 20年の間は こう ずっとスマホを見て 下を向いて歩いてる人が 多かったけど 2030年からは 口をパクパクしながら 歩いてる人がたくさんいる社会になった みたいな 面白い 独身技術ってあるじゃないですか はいはいはい あれって 本当にできるんですかね なんか 結構近い技術だと思うんですけど スパイの人とかやってるじゃないですか 見たことはないけど なんか あれで まあある程度精度が高いんだったら 口の中に何か入れたりしなくても まあ 結構 分かっちゃうのかな カメラで見せて うんうんうん できそうできそう できそうですよね うん まあ あの そういう 口の動かし方っていう 新しい方言が生まれるような気もしますけど 認識されやすい 口の動かし方みたいな ああ それはあるかもな 確かに確かに 方言じゃないけど みんなね キーボード入力とか フリック入力とか みんな頑張って覚えたから それと同じような感じで そういう なんていうの 音声入力弁みたいな そうですね 自然にこう 認識率の高い方に こう だんだんシフトしていくと思うんですよね 誘導される形でね うん それは結構ありそう うん なんか やっぱその 寒いところだと 口をあんまり開かない 喋り方になるとか そうそうそう そういう流れで そういう環境による人間の なんか習慣の変化と 同じような感じで AIに分かってもらうと そのための なんかいろいろな 作法が 生まれて こう タッチとかフリックも 初めてやる人は そもそもタッチが うまくいかない人とか 結構多いんですよね そうですね おじいちゃんおばあちゃんとかね うん パッと触れて パッと話すって 結構ね 難易度高いですよね そうなんですよね で 今なんかみんな 当たり前のように やってるのも かなりトレーニングを 実はされてるはずだから そうそうそう まあいろんなところで そういう体の動きの癖が なんか AIによって 逆に すでに教育されてる そう しかもそれをまた 学習して AIが こう覚えちゃうと こう抜け出せなくなるんじゃないかな どんどん 専用化していって タコツボ状態で 50年ぐらいしたら やばいことになってるかもしれないですよ やたらと口の動きが こうはっきりした 人類になっている あと すごい逆になんか 普段は すごい感高い声で喋って AIに指示する時だけ すごい低い声で ボソボソ喋るとか それぐらいはっきりしてるかもしれないです そうですね そこまではっきりした みんなさんまさんみたいになってるかもしれない いやー どうなるんだろう ディストピアですね なんかちょっと気になってるのが バレーとか まあ最近はいろんな競技で されてると思うんですけど データを使って こう戦う チームプレイの競技が 割と増えてるみたいなんですけど データっていうのが まあ誰がどの位置から スパイクを打つ確率が 何パーセントみたいなの 全部こう計算して 次はこのフォーメーションでいこうとか こう来たらこう来る可能性が高いから こうしようとか そういうのをリアルタイムで 試合の 押しながら こう 今こうなってこうなってこうなった っていうのを入力していくと こう確率がiPadにバーッと出るみたいな システムがあるんですよ でその対策として あの背番号を試合の直前で変えたりとか すごい読みにくいフォントの背番号にしたりとか そういうトリックがあったらしいんですね 今押さえてるかどうか分かんないけど でそうするとですね あの多分 AIでこうトラッキングして この動きをしたら次こうなりがちとか っていうのが絶対 もうしてるかもしれないと思うんですけど ということはですよ 拡覧できるんだ そうそう なんか 妙なステップを踏みながら AIを騙す っていうことが必要になってくる可能性がある あるかもな なんかスパイク打つ前に 一瞬なんか変なおじさんみたいな動きしたぞみたいな そうそう そういうのをちょくちょく挟んでいくことで そうそう AIにこう動きを読まれないようにする なんかもともとバレーってそういうトリックが 割と多い競技な気がするんですけど 例えばフェイントも結構バレーって 世界選手権か何かで 日本が優勝したんだったかな だいぶ前にテレビで見た話ではあるんですけど 昔日本ってやっぱ平均身長が低いから バレーってそんなに強くなかった時期もあるみたいなんですけど フェイントでかなりいいところまで行った 時があったらしいんですよ ずっと昔です そのフェイントのやり方っていうのが バンって打つか打たないかを 2分の1を確率にすると 防御するブロッカーの数が2分の1になるから 取りやすくなるっていう ざっくり言うとそういうことだと思うんですけど フェイントをするかしないかがチームの中で共有されてないと どうしていいかわからなくて 確かに確かに確かに うまく打てないんですね だから次にフェイントをするかどうかっていうのを 一種の暗号を使って みんなでコミュニケーションして それで次はフェイントだからこう動く 次はフェイントじゃないから フェイントっぽい人も動くんだけど 実際にはフェイントしないとか そういうことをしてたらしいんですよ その暗号が 人の名前を叫ぶんですけど その名前が男の名前か女の名前かで フェイントをするかどうかを決めてたらしいですね 日本人だからわかるけど 世界で戦うときに有利なんですね 世界選手権か何か そういうところでやったらしいんですけど それでこう 花子とか言って 外国人がなんだどっちだどっちだってなって フェイントだったみたいな 面白いですねそれ そのうちもしかしたら外国人も 子がついたら お名の名前っぽいなとか 学習してるかもしれないんですけど ちょっとわかりにくいね マサヨ マサヨどっちだって そうそうそう マサヨかマサヨかみたいな 広めりとか言ったらやばい いるなどっちもいるな 日本人も あったかもしれないですね ありされそう まあなんかさておき なんかそういう あのトリックとか データとか 解析とか そういうものと 結構バレーって 割と密接な繋がりがあるっぽい 全然知らなかったな 結構昔からバレー競技の時に iPadを持って監督が データ見ながら支持するみたいなのが iPadが出た当初ぐらいから 確かあったんですよ すごい進んでるなと思ったんですけど めちゃめちゃ先進的ですね それでバレーのボールのトラッキングとかも 実は盛んにやられていたりして そういえばそういう仕事も キネクトでねちょっとやったことがあって それで調べてたんですけど いやでもバレーボールね難しいんですよ カラフルだから 回転してると色が混ざっちゃうし 止まってても特定の色だけでトラッキングができないし なんか難しいんですけど やり込んでるゆえの感想だなこれ まあ今は多分 画像解析でサクッといけちゃうと思いますけどね なんかそう思うと もしかしたらボールの柄に似た こう模様が背中に描いてやる選手だったりとか はいはいはい こうなんかそうだな こうスパイクを打つ選手じゃない選手が すごい複雑なステップを踏んでて 関係ないそうな選手が じーっとしてるけど急にポンってこう ジャンプしたりとか そういうね 対AIフェイントみたいなのが 必要になってきますよね いやちょっと楽しみというか それはディストピアかもしれないんで こう いや面白いと思いますよ そのそれ見たいっちゃ見たいもん ちょっと見たいなと思いますね いやスポーツの世界ってやっぱそういう あれですね そうですよね こう競り合いだから うん どんどん新しいこう対策法が生まれたら それをさらに上回る そうですよね ハックが出てきてみたいな ハックもある程度許されてるところが ちょっと面白いというか うん サッカーでもねこう 右に行くと見せかけて左に行くとかも もちろんね それもハックっちゃハックだから なんだろうな そういう情報戦 うん の部分だけをうまくこう 抜き出して見てみたい ちょっと思いますね そうですね そういう歴史の本とか あってほしいな 騙し合いの もしかしたらもうあるかもしれないんで 知ってたら リスナーの人教えてください そう教えてほしいですね はい はいそろそろ終わりますけど 終わりがてらに はい 最近最近っていうかもう昨日ですね 昨日ちょっとようやく ステーブルディフュージョンをローカルにインストールして おー ちょっとめんどくさそうなやつですよね そうですね ちょっとも何のことか分かんない人もたくさんいると思うんで さらに説明をすると えっと最近 ここ2週間2,3週間ぐらいで ものすごいえっと AIによる画像生成の うん ビッグウェーブが来てて マジで毎日レベルでどんどん新しい こう発明というか なんか面白い使い方だったり 作品だったり が出てるんですよね でそれの一つの えっと 縦役者というか 新現地となっているのが ステーブルディフュージョンっていう えっと汎用的な えーテキストからの画像生成 画像からの画像生成もできるんですけど まあ基本的には テキストからの画像生成 ができるっていうのの めちゃめちゃ強いやつが えっとオープン オープン化されて もう誰でも使えるようになっちゃったっていう そうですね うん なんか もうちょっと補足すると まあ例えば 例えばで言ったら なんて言いたいんだ えーツ サッカーをするピカチュウ みたいな単語を入れると サッカー 本当にサッカーをして ボールを蹴ってるような ピカチュウの絵が 自動でアウトプットされる というような そういうタイプのAIです そういうやつですね でそういうやつは えっと 最近ここ数ヶ月で えっと一応なんか ウェブから使える まあ管理されたシステムとして ダーリー2だったりとか あとなんだ ミッド ミッドジャーニー そうそうそう ミッドジャーニーとか そういうやつがあって でそういうのはまあ 一応それを管理してる 会社なり サービスなりがあって そこに対して リクエストを送る形で テキストを送ると 画像が返ってくるっていう 感じだったんですけど 今回はモデル自体が 公開されてて 誰でもその 自分のパソコンローカル上で 動かせるよっていう そうですね そんなことしちゃっていいの って感じしてますけど いいのってなっちゃうじゃないですか 思想がもう 全員に武器を配れみたいな感じの思想なので オープンの振りこそ全てみたいな そういう感じっぽいので まあ表現の自由ということで そうですね まあ一応ちょっと これからは画像を見た時に それがフェイクである可能性に 前より注意した方がいいと思うので 本当に何でもできちゃうし マジで じっくり見てもよくわからなかったりするんですよね 結構そうです クオリティが高いと ましてや変なところを フォトショップで後加工したら もう誰もフェイクだってわからないものが できちゃうので 皆さんちょっと気をつけてください 本当に あらゆる画像の信頼度が下がると思います 今後 ちょっとね まあ面白そうなんで とにかく とりあえず入れた とりあえず そうですね ちょっとあのイベントとか 一段落したら入れようと思ってたんですけど ようやく昨日夜入れて で 夜中の2時ぐらいまで いろいろいじって 寝て 朝赤ちゃんに起こされて 朝6時ぐらいに 4時間ぐらいしか寝てないですけど 大丈夫ですか いやー 面白すぎてね 夜拭かしちゃいましたね あー いやもうなんか なんていうんですかね とにかく あの時間が あのパソコンの前に座ってられる時間が短いんで どうにかして こう 他のことしてる間も 大量に生成され続けるような 仕組みを組もうみたいな感じで じゃあなんかこう 思いついたのを まあそれこそミッドジャーニーみたいに こうディスコードなり LINEなりで こうジョブを投げれば こうボンボンボンボン出るみたいな そうですね そこまで行きたいですね うん 今のところなんか あのちょっといろいろ探して見つけたのが そのステーブルディフュージョンの えっとなんていうのかな こう バリアントというか フォークというか 他の人が 使いやすくしてるバージョンで 他の人が作ってる プログロックステーブルってやつがあって うん これ使うと 入力するプロンプト まあ言葉のことをプロンプトって言うんですけど プロンプトの中の単語を えっと 組み合わせを指定することができて うん だからなんか可愛いとか楽しいとか 愉快な陽気なみたいな形容詞 英語ですけど それを その中からランダムに2個選ぶとか あーなるほど なんかこう書いてある単語のリストの中から ランダムに選ぶとか はぁはぁはぁはぁ じゃあ膨大な組み合わせを そうそうそう 投げられるんですね 1回で そうなんですよ 事前に書いてあるそのプロンプトを テキストファイルから こう 全部バーって 生成するとか うん そういうことができるようになってるんで こりゃいいやと思って 入れました うーん なるほど ちょっとその入れ方とか 参考にしたサイト 後で 了解です 送ります うちでも回したい 回しまくりましょう これねやっぱなんかその なんだろうこう なんですかね 結構すぐ はい やってみて分かるのは すぐその 自分の想像力の限界に ぶち当たるなみたいな あー なんでもできる もう 言葉書いたものが なんでもできる 夢のようなシステムが 出来上がりましたって言われたら もう大喜びになっちゃうけど 触ってみると実は 自分の作りたいものっていう 想像力の限界が明確にそこにあって はいはいはいはい それをこうどれぐらい リアルに想像できるかによって こう壁ができちゃうなっていうのがあって うーん それを超えるためには その 自分の想像力の外にあるもの に頼らないといけないっていう なるほど それがその 今言われてる なんて言うんですかね 呪文みたいな風に言われてるんですけど プロンプトの はいはいはい ルーン ルーンとかね なんかこういうテキスト入れると いい画像が出てくるだぞとか そういうのであったり とか そういう あのさっき言ったような その言葉の組み合わせの数を 膨大に試してみるとか そうやってその 自分の想像力の外にあるものを 探索していって むしろこう どんなものが入ってきたら 自分は喜ぶのかっていう 自分の中の評価関数を 探索してるような気持ちになるんですよね あーなるほど はっはっはっはっはっは それがちょっとね 面白いなと思いました へー面白いな あーでも その喜ぶところもボットになったら 便利なのにな そうですね 自分はボットの一部なのかもしれないですね 巨大な そうですね ステーブルディフュージョンが出しました それに対してイエスノーというボットが 人間というやつで でその集積によってまたこう AIというか機械学習側にフィードバックされると いやそれはありますね 我々はボットか いやーでもその想像力の限界を 1日試しただけで すぐに衝突できちゃうっていうのは それはツールの有用性が それだけすごいってことですよね そうですね はーすごいな でもやっぱその 前回またイベントの話して申し訳ないですけど あの恐れ山さんの回でも 夜中になんかいろんな言葉の組み合わせで なんか相撲っていう言葉と いろんな言葉を組み合わせて なんか土俵の中に 巨大な一つの肉の塊が出現してるのを 見て喜んでるみたいな話してましたけど そういうなんかその そんな僕とかだったら なかなか思いつかないですけど そういうのをこう 自分の想像力の限界を 拡張し続けられる人みたいな 人がやっぱすごい活躍できそうなんで 世界だなっていう気はしますね 確かにそうかもしれないですね いやーでもなんだろう 見たことあるものを結局呼び出しちゃうじゃないですか 多分 まあそうですね だからいかに 見たことないものを想像できるかなのか それともいろんなものを見ているかなのか ちょっと分かんないですけど なんかまあ 絵を描く人とか まあものを作っている人は インプットとなんか アウトプットの関係について すごい悩むと思うんですけど なんかどうしても作る技法によって 制約が自然に生まれて 例えば版画を作る人は 版画っぽい絵になるし それが良さになったりするし プログラマーだったら プログラミングで作れるような ものに当然なるけど なんかそれは そのプログラミングの面白さと アイディアの面白さっていうのが 根前一体となっていて なんかごまかされて それはめっちゃありますね そう ごまかされていったと思うんですよ それがなんか 分離抽出されたみたいな感じは ありますね その こういうものの出現によって 今のところそういう画像 絵画とか写真の世界だけかもしれないですけど その技法とか画風みたいな風にして 明確に区切られて分かれていたもの 道が分かれて その先に何かがあるみたいな感じだったものが 全部 その 1個のテーブルの上に乗せられて その そうですね やばいですね 広い空間の中の 連続的な 一点みたいな うんうん ところに過ぎないものにされた みたいな 雰囲気がありますね なんかその 呪文の唱え方の中にも こう カメラの型番を言うと 写真風になるし あー ゴッホって書いたら ゴッホが書いたみたいになるみたいな そこが連続してるっていうのが こわっこわっ おーっていうか 確かに 理屈の上では 二次元で表現できるものは つながっててもおかしくないんですけど つながってるっていうのが こんなに明確に そうそう 感じられると びっくりしますね そこがやっぱり 機械学習の面白いポイントというか うん 全部がベクトルになるっていうのは うんうん なんかこう 人間の認知とはちょっと違う 世界の捉えられ方をしてるので そうですね なんかそこになんか新しい何かがあるような気はしますね うーん 人間の認知ではこう 他人になり 他人になっていて こう想像が及んでいないけど でも実はこれとこれの間は これだよね そうそう そういう空間的にはあり得るんだけど 人間がまだたどり着いてない そうですね 人間ってその世界 あすみませんちょっと話長くなっちゃったけど そうですね これちょっと盛り上がっちゃった 第2回にします いやちょっと話し切っちゃおう 人間ってなんかその 世界を認識するために言葉で分けるってこと 使ってるじゃないですか 基本的なツールとして はい これは象 これは馬 これは田中 みたいな感じで 分ける 急に田中が 分けてて でまあ象と馬の間には 何らかの連続性を感じてるかもしれないけど うん 象と田中の間には 結構断絶があるというか うん 非連続なものとして捉えてる うん けども その全てを連続的なものとして こう 示すことができるようになってしまったっていうのが そうですね 革命だなっていう感じですね 象と田中の間があるんですからね ね まあ間の問い方も その 何ですかね ツールによって うん 出てくるものは違いますけど そうですね でもあの 今ステーブルディフュージョン使いこなしてる人たちの中では その プロンプトとプロンプトの間の あの ベクトルをつなぐというか はいはいはい なんかそういうことをしてる人も結構いて へー だからある文章と全然違う別の文章の 結果出てきた画像の間を こう行き来するんじゃなくて そのテキストが指し示すベクトルの間を うんうんうん こう行き来しながら画像を生成してるっていう ふーん ちょっと あの人間の頭では 想像しきれないことですけど はあはあはあはあ テキストってまあ機械学習の中ではベクトルになってるので そうですね まあ理屈上は確かにできるのかもしれないけど それどんな風になるんだろうな なんかね うんうん 結構その モーフィングともちょっと違うような感じの うん 不思議な感じで映像とかあったりとかしますけど へー まあ多分雪山と こうハワイの海辺の うん 間を取ると 中くらいの気温のどこかの景色が出るかもしれない まあ概念としては そういう まあまあまあそうですね まあ例えばですけど 東京と京都の間を繋いでいたりとか うん 面白いな 東京と京都の間だから 別に名古屋になるわけじゃないんだけど まあでももしかしたら そういうの出しちゃうAIもいるかもしれないですね でもよりその概念上の その テキストのベクトル感を繋いで それを画像化してるっていう うーん めっちゃ面白かったんで ちょっと見てほしいですね ちょっとどうやれ どういうツールでできるんだろう ステーブルディフュージョンとは違うツール いや ステーブルディフュージョン使ってます うーん それそのモデルに 与えてるコードをちょっと変えたりとかして 作る 唐揚げさんっていう機械学習よくやってる人が まあちょっとこの辺は 概要欄でリンク貼っておきます はい っていう感じで はい 最近かなり変化が激しくて 面白い世界なので ちょっとチラッと見ててもいいかなと思って そうですね かじりつこうとしてます ちょっとうちにも入れてみます はい じゃあちょっと長くなりましたが 今週こんなもんで終わりにしようかなと思います はい はい イメージキャストは 毎月奨学の支援をしてくださる イメージキャストサポーターの皆様のおかげで 配信を継続できています 月に1回コーヒーをおごってあげる気持ちで サンドルからの支援をお待ちしております 詳しくは概要欄をご覧ください そしてイメージキャストでは 皆さんの感想をモチベーションにして 配信を継続しています 感想要望は ハッシュタグイメージキャストをつけてツイート 質問などお便りは 概要欄のメールフォームまたは キャストアットマークイメージドットクラブまで お寄せください あとですね Apple Podcastで聞いている方は Apple Podcastの星つけたりとか レビューしてくれたりとか レビューのところに 感想を書いてくれたりとかすると かなり嬉しいです 感想を書く人は批判コメントが 書きたい人が 割合的に多くなりがちなので 普通の人が書いてくれたら嬉しいですね そうですね っていうのもあるし 結構ポッドキャスト聞いてみようかなっていう人が 見る部分ではあるので やばい 我々的にね ここにいいことが書いてあると 嬉しいというポイントですね そうですね 悪いことが書いてあると悲しいというポイントです なので聞いている方に書いてほしいなと思ってます はい という感じで 次回は9月24日土曜日の朝にお会いしましょう それではまた来週 さよなら さよなら