CLIP（コントラスティブ言語画像事前学習）とは？

読み方: クリップ

30秒まとめ

テキストと画像の対応関係を学習したOpenAIのマルチモーダルAIモデル。画像検索や画像生成の基盤技術。

CLIP（コントラスティブ言語画像事前学習）の意味・定義

CLIP（Contrastive Language-Image Pre-training）は、OpenAIが2021年に発表したマルチモーダルAIモデルです。インターネット上の4億組のテキストと画像のペアから、テキストと画像の意味的な対応関係を学習しています。テキストの説明と最も一致する画像を選択したり、画像の内容をテキストで分類したりする能力を持ちます。Stable DiffusionやDALL-Eなどの画像生成AIのテキスト理解部分にCLIPの技術が活用されており、プロンプトから適切な画像を生成するための基盤となっています。ゼロショット分類（学習していないカテゴリの分類）が可能な点も画期的です。

CLIP（コントラスティブ言語画像事前学習）とは？

30秒まとめ

CLIP（コントラスティブ言語画像事前学習）の意味・定義

関連するAIツール

Stable Diffusion

DALL-E 3

Midjourney

関連する用語

運営者が開発したAIマーケティングツール

MixCast

AIOPulse

UGCast