はじめに
ChatGPT(会話形式で答えてくれるAIチャット)は今までは画像認識の機能はなく、テキストベースを使った質問にしか答えることはできませんでした。
それが2023年9月25日に新機能として「GPT-4V」を発表しました。
今回はこのGPT-4Vとは何か、新機能の実際の使い方などをご紹介します。
GPT-4Vとは?
GPT-4VはマルチモーダルAIという「テキスト、音声、画像、動画、数字」のようなデータから複数使い、分析できるモデルのことです。
また「GPT-4V」の「V」はVision(ビジョン)を意味し、モデルに画像認識機能が追加されたことを示しています。
GPT-4Vを使う手順
ChatGPTの画像認識のGPT-4Vを使うには「ChatGPT Plus(有料版)」の加入が必要です。
ChatGPT plus 有料版とは?そもそもChatGPTとは?ChatGPTはコンピュータとの会話を楽しむためのツールです。言い換えれば、コンピュータとおしゃべりできる友達のような存在です。ChatGPTに質問をすると、[…]
①ChatGPTの画面の下にGPT-4のデフォルト機能として、「メッセージを送信」の左横に写真マークをクリック
②使いたい画像を選択して完了
GPT-4Vできることは?
さまざまな画像を使って、7つの活用例をご紹介します。
①画像からのプログラミングコードの生成
例えば、どこかのサイトの問い合わせフォームを作りたいという時にWEBサイトのスクリーンショットを添付して、「コードを教えてください」とChatGPTに伝えるとそのコードを作成してくれます。
ただし、画像と全く同じ精度には現状はならないようで、自分で修正する必要もあります。
それでもコードをゼロから書くよりは圧倒的なスピードで書くことができます。
②画像からの文字起こし
画像の資料などを文字起こししたい場合などにもChatGPTは使えます。
今回は文章のキャプチャー画像から文字を依頼しました。
結果としては日本語だと、7割は精度は合ってますが3割くらい全く関係ない文字になりました。
③画像資料からの分析報告
グラフなどの画像からChatGPTに分析させることもできます。
今回は4つのグラフ画像から内容の要約を依頼しました。
結果としは、人間がやるより分かりやすくまとめてくれましたが、やはり多少の誤記や文字違いはあります。
④株価チャートグラフからの株価予測
今回はChatGPTに株価チャートからテクニカル分析(チャートの上昇下落傾向分析)として今後の株価予測の依頼をしてみました。
その内容としては期間の範囲がうまくできているととても精度は高い情報を得られそうです。
今回はその後の株価の結果がみれるため、赤線以降の期間を見てみるとChatGPTの予測通りの動きのイメージになっている印象がありました。
人間より精度は高い印象をうけました。
⑤ペット画像からAIイラストのプロンプト生成
近年AIイラストが普及しましたが、具体的に身近なペットや人間の写真と同じようなイラストが作成できるか検証しました。
今回は「うさぎ」の写真からAIイラストを書くための命令文(プロンプト)の作成を英語※で依頼しました。
※英語の方がより精度が高くなります。
結果としてはとても写真に物体も印象も似ている精度が高いAIイラストが作成できました。
またChatGPT内で画像生成もできるDALL-E3の機能も追加されたため、ChatGPTですべてが完結できるのもとても便利です。
おまけですが、その他にも恐竜の写真でも試してみました。←AIイラスト(左)、プロンプト作成の元写真(右)→
⑥画像から小説作成
ChatGPTで作成したAIイラストを使って小説などの物語を書くこともできます。
もし自分が飼っているペットや身近な人がなくなっても思い出すことができる世の中になっていくと感じました。
⑦謎解きクイズ画像から解答作成
謎解きなど人間がやっても難易度が高い複雑なことを依頼しました。
結果としは、そもそも日本語はひらがな、感じ、カタカナが混じっていることもあり、画像認識がうまくできていないようでした。
うまくいっていない場合はFBすることでChatGPTが更なる学習ができます。
まとめ
今回、紹介したい以外にも無数の使い方ができます。
ChatGPTの画像認識のレベルとしてはまだまた未熟な印象で人間が手直しする必要はありそうですが、作業時間など効率的になることは間違えないと感じました。
また写真からAIイラストを作成するなどの精度はすでに十分高く、実際に使えるレベルでありました。
ぜひChatGPTの更なる機能にも注目していきたいです。