生成AIの種類と一覧、今さら聞けない何ができるの？

2023年2月頃にAIツールを使いたいということで、いくつか調べた記事を書きました。あれから、1年強が経ちましたが、この1年での生成AIの普及と進歩は目覚ましいものがあります。

今回から、管理人再度の挑戦ということで、実際自分のために使えるようにしていきたいと思います。

記事では、自分が使えるようになるとともに、生成AIを使用したことがない人にも使うことができるようになることを目指します。

まずは、生成AIの種類を調べ、一覧にして何ができるのかを調べます。

生成AIの種類

生成AIは、英語ではGenerative AIと言われ、人工知能（AI）の一種です。
その中は、ディープラーニング（深層学習）とか、自然言語処理(NLP)とか難しい情報処理の世界が広がっていますが、ユーザーにとって意識する必要はほとんどありません。

では、どの様な種類の生成AIがあるのかを見ていきましょう。

大規模な言語データを学習した言語モデルを使って、文章を自動生成するタイプ

このタイプの生成AIの進歩は目覚ましく、ここ1年以内に新しいモデルやアプリケーションが次々と発表されています。

ChatGPT

このモデルで最も有名なのはChatGPTでしょう。前回の記事の時点では、ChatGPT-3まででしたが、その後、無料版のChatGPT-3.5、有料版のChatGPT-4がリリースされ、さらに、ChatGPT-4 Turboというものもリリースされています。

Claude3

Claude3(クロードスリー)は、米Anthropic(アンソロピック)社が提供するモデルでCHatGPTと同じように対話形式で、各種の処理を行うことができます。Claude3のリリースは、2024年3月でかなり直近です。このように、この分野は1年たつと違う世界になっていることがこれからも続くでしょう。

Gemini

Geminiは、2023年12月にGoogleから発表されたモデルです。2024年2月にはそれまでBardと呼ばれていた機能がGeminiに置き換わりました。

画像生成型の生成AI

画像生成型の生成AIは、テキストを入力すると、対応する画像を自動生成するものです。

DALL-E

DALL-Eは、ChatGPTを開発したOpenAIが開発した画像生成AIです。現在の最新版は、DALL-E 3で他の会話型の生成AIにも組み込まれたりしています。

Stable Diffusion

Stable Diffusionは、2022年に公開されたテキストから画像を生成するAIです。現在は、Stability AIという会社がその権利を所有しています。テキストから高品質な画像を生成できるとされており、大部分がオープンソースで公開されています。

Midjourney

Midjourneyは、テキストから画像を作成する独自の人工知能プログラムです。発表されたのは2022年で、現在は有料版しか存在しません。画像のスタイルを指定することができ、写真のようなものからイラストなどポップ調なものまで各種の画像を作成できます。

CANVA

CANVAは、無料で使え各種デザインの画像を簡単に作成できるオンラインソフトです。このCANVAには、画像生成AIの機能も備えられており、手軽に画像を生成できます。

著作権の問題

これらの、画像生成型の生成AIにおいては、インターネット上にある多数の画像を用いて学習をしている場合があり、著作権のある画像から同意なしに学習をさせています。このため、著作権や倫理的な点で論争が生じていることは、認識しておくべきです。

動画生成型の生成AI

Make-a-Video

Make-a-Videoは、2022年9月にMetaから発表されたテキストから動画を生成するAIです。現時点で、どの様な応用が可能なのか、管理人もよくわかっていません。

Runway Gen-2

こちらも、Runway社が提供するテキストから動画を生成するAIです。

画像生成型の生成AIと同様、著作権など知的財産権を侵害する可能性

動画生成型の生成AIは、画像生成型の生成AIと同様、著作権などを侵害する可能性が大きくなります。特にもとになるテキストや画像が誰かの著作物である場合は、生成した動画を商業的に利用する場合は注意しなければなりません。

その他の複合的機能を持つ生成AI

2023年は、生成AIが急速に発達、普及した1年でした。

それに伴い、各種のサービスが日進月歩でリリースされています。

上に記載した他にも沢山の生成AIが登場しています

Microsoft Copilot

マイクロソフト社が今までのBeing言っていた個人向けのアシスタントのAI機能は、2023年12月からMicrosoft Copilotという名称になりました。

マイクロソフト社はOpen AIと協力関係にあり（投資している）、Microsoft CopilotにはChatGPTとDALL-E 3が組み込まれているため、対話で文章を生成する他、画像の生成も行えます。

音声生成AI

音声生成AIは、テキストから音声を自動生成したり、音声からテキストを自動生成する生成です。代表的なものとして以下のものがあります。

Coqui
ElevenLabs

その他

それ以外にも生成AIは毎月のように発表され、リリースされていると言っても過言ではありません。

音楽生成AI　Suno
スケジュール管理やタスク管理や文書生成などのワークスペースサービス　Notion

その他にも文章や議事録を要約する、プレゼン資料を作成するなど多種多様な生成AIツールが発表されています。

どうやって使うの？

生成AIは、どんどん新しいものが発表され進化していますが、実際、使っても自分が意図する答えが返ってくるとは限りません。

更には、明らかに間違った回答を返してくる場合もあります。

このような生成AIにユーザーがどのような指示を出すかということは、非常に重要です。うまい指示を出さないと求めた結果とかけ離れた回答が返ってくる場合もしばしばです。

ユーザーがAIに対して入力する「指示」のことをプロンプトと言います。
そして、これを変更すると異なる回答が返ってくるため砕けた表現で『呪文』などとも呼ばれるようです。

いかに良いプロンプトを作成し目的の答えを得るかということが重要です。

このプロンプト（呪文）についてもネット上には色々な情報があふれています。こちらも、使ってみてどうなるか試したいところです。

まとめ

2023年は生成AIの普及と進歩は著しく、新たな生成AIが発表されたり、旧来のものが進化した新たなものが発表されました。

ChatGPTを代表とする対話型の文章作成などをするものだけでなく、画像生成や動画生成、さらには複合型の物やある領域に特化したものなど様々です。

また、生成AIに適切に回答させるためのプロンプト（呪文）も、急速に発展しています。

今後は、自分にとって必要そうなものから生成AIを試していきたいと思います。

自分にとっての生成AI使用の目的は以下の2点になります。

ブログの記事作成を行ってもらう
自分のスケジュール管理を行ってもらう

月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31