前回、生成AIの種類と一覧、今さら聞けない何ができるの?と言う記事を書いてからほぼ5カ月たちました。
生成AIの進化はものすごいスピードで起こっており、前回の記事の内容でさえもうすでに陳腐化しています。
そこで今回は、2024年10月版として改めて、記事にすることにしました。そうは言っても、この記事もすぐに陳腐化するでしょう。
従って、しばらくは年に3回くらいは新たに記事を書かないといけない気がします。
また自分も使えるようにという目標も全然進んでいなかったのですが、改めて進めようと思います。
生成AIの種類
生成AIは、英語ではGenerative AIと言われ、人工知能(AI)の一種です。
その中は、ディープラーニング(深層学習)とか、自然言語処理(NLP)とか難しい情報処理の世界が広がっていますが、ユーザーにとって意識する必要はほとんどありません。
では、どの様な種類の生成AIがあるのかを見ていきましょう。
大規模な言語データを学習した言語モデルを使って、文章を自動生成するタイプ
このタイプの生成AIの進歩は目覚ましく、新しいモデルやアプリケーションが次々と発表されています。
ChatGPT
このモデルで最も有名なのはChatGPTでしょう。前回の記事の時点では、ChatGPT-4とChatGPT-4 Turboのリリース情報まででしたが、現時点のChatGPTは、ChatGPT-4oが標準になっています。
ただし、無料ではChatGPT-4oとの会話量に制限があり、それを超えると、ChatGPT-3.5にダウンした状態での会話になります。これを解消するには月20$の有料プランに入るしかありません。
Claude3
Claude3(クロードスリー)は、米Anthropic(アンソロピック)社が提供するモデルでCHatGPTと同じように対話形式で、各種の処理を行うことができます。Claude3のリリースは、2024年3月です。ですが、この分野は既にほかにも色々なAIが作られ使用されており、1年たつと違う世界になっていることがこれからも続くでしょう。
Google Gemini
Geminiは、2023年12月にGoogleから発表されたモデルです。2024年2月にはそれまでBardと呼ばれていた機能がGeminiに置き換わりました。
Googleのアカウントを持っていれば誰でもすぐに使えると思います。
Microsoft Copilot
Microsoft Copilotは、Microsoftが提供する生成AIです。Copilotは、会社で使用する場合は、Microsoftのそのほかのソフト、Word、Excelなどとの親和性がいいので便利です。企業で使用する場合は、有料です。
Copilotは、言語モデルにChatGPTを使用しています。
その他の文章生成AI
上に述べた各生成AIは、いわゆる対話や文章生成だけでなく、画像生成などもシームレスにできてしまうことが多く、プラットフォーム化してきていると感じます。
しかし、その一方で、文章を書く(生成する)のに特化したAIもどんどんできてきています。
例えば、コピーライティングが得意なCatchy、長文生成に向くJasper、テンプレートが多く用意されているSAKUBUN、ブログ記事が得意なRakurinなど多種多様なものが出ています。
画像生成型の生成AI
画像生成型の生成AIは、テキストを入力すると、対応する画像を自動生成するものです。
DALL-E3
DALL-Eは、ChatGPTを開発したOpenAIが開発した画像生成AIです。現在の最新版は、DALL-E 3で他の会話型の生成AIにも組み込まれたりしています。
Stable Diffusion
Stable Diffusionは、2022年に公開されたテキストから画像を生成するAIです。テキストから高品質な画像を生成できるとされており、大部分がオープンソースで公開されています。日本語に特化されたモデルもあります。
この記事を書いている時点でのStable Diffusionは、Stable Diffusion 3 Mediumが主だと思います。
Stable Diffusionは、使い方として2通りあります。
- Hugging FaceやDream StudioなどのWebアプリケーション上の環境で生成する
- 自身が作成した環境にStable Diffusionをインストール、あるいはプログラムコードを書き込んで生成する
PCに詳しい方は、自分のPCに組み込んで使えることになります。
Midjourney
Midjourneyは、テキストから画像を作成する独自の人工知能プログラムです。発表されたのは2022年ですが、どんどんVer.upされていて、この記事を書いている最新はV6.1です。
画像のスタイルを指定することができ、写真のようなものからイラストなどポップ調なものまで各種の画像を作成できます。
CANVA
CANVAは、無料で使え各種デザインの画像を簡単に作成できるオンラインソフトです。このCANVAには、画像生成AIの機能も備えられており、手軽に画像を生成できます。
CANVAはいろいろと機能が追加されており、動画作成や各種SNSへの投稿のサポートなどができるようになっています。
著作権の問題
これらの、画像生成型の生成AIにおいては、インターネット上にある多数の画像を用いて学習をしている場合があり、著作権のある画像から同意なしに学習をさせています。このため、著作権や倫理的な点で論争が生じていることは、認識しておくべきです。
動画生成型の生成AI
動画生成型の生成AIは、2024年に入って急速に進化しており、色々なものが作られています。いくつかの物を紹介しますが、ネット検索すれば10個以上は見つかると思います。
Make-a-Video
Make-a-Videoは、2022年9月にMetaから発表されたテキストから動画を生成するAIです。画像からも動画生成可能です。
Runway Gen-3
Runway Gen-3は、Runway社が提供するテキストから動画を生成するAIです。前回の記事ではGen-2でしたが、Gen-3に進化したことにより格段に性能が上がりました。
NoLang
NoLangはテキストプロンプトを基に動画を生成することのできるAIです。また、動画編集機能や各種テンプレートも備わっています。
画像生成型の生成AIと同様、著作権など知的財産権を侵害する可能性
動画生成型の生成AIは、画像生成型の生成AIと同様、著作権などを侵害する可能性が大きくなります。特にもとになるテキストや画像が誰かの著作物である場合は、生成した動画を商業的に利用する場合は注意しなければなりません。
音声生成AI
音声生成AIは、テキストから音声を自動生成したり、音声からテキストを自動生成する生成です。低料金の代表的なものとして以下のものがあります。
- 以前紹介したCoquiはShutt downしたようです。
- ElevenLabs
- VOICEVOX
その他
それ以外にも生成AIは毎月のように発表され、リリースされていると言っても過言ではありません。
- 音楽生成AI Suno
- スケジュール管理やタスク管理や文書生成などのワークスペースサービス Notion
- 検索し内容をまとめる perplexity
その他にも文章や議事録を要約する、プレゼン資料を作成するなど多種多様な生成AIツールが発表されています。
どうやって使うの?
生成AIは、どんどん新しいものが発表され進化していますが、実際、使っても自分が意図する答えが返ってくるとは限りません。
更には、明らかに間違った回答を返してくる場合もあります。
このような生成AIにユーザーがどのような指示を出すかということは、非常に重要です。うまい指示を出さないと求めた結果とかけ離れた回答が返ってくる場合もしばしばです。
ユーザーがAIに対して入力する「指示」のことをプロンプトと言います。
そして、これを変更すると異なる回答が返ってくるため砕けた表現で『呪文』などとも呼ばれるようです。
いかに良いプロンプトを作成し目的の答えを得るかということが重要です。
このプロンプト(呪文)についてもネット上には色々な情報があふれています。こちらも、使ってみてどうなるか試したいところです。
まとめ
2024年も生成AIの普及と進歩は著しく、新たな生成AIが発表されたり、旧来のものが進化した新たなものが発表されました。
ChatGPTを代表とする対話型の文章作成などをするものだけでなく、画像生成や動画生成、さらには複合型の物やある領域に特化したものなど様々です。
また、生成AIに適切に回答させるためのプロンプト(呪文)も、急速に発展しています。
今後は、自分にとって必要そうなものから生成AIを試していきたいと思います。
自分にとっての生成AI使用の目的をはっきりさせないとドツボにはまりそうです。自分が最初に考えているのは以下の二つです。
- ブログの記事作成を行ってもらう
- ショート動画を作ってみる
コメント