Geminiがマルチモーダル対応へ!ChatGPT Deep Researchの入門ガイドも徹底解説✨

Geminiがマルチモーダル対応へ!
さらに:ChatGPT Deep Researchの入門ガイドをゼロから学ぶ方法

⏱️ 読了目安時間:4分以内

Alphabetが「Gemma 3」を発表したばかりなのに、もう次の動き? そう、今回は「Gemini」自体がマルチモーダル画像生成機能を搭載したことで業界がざわついています。画像生成だけでなく、細かい部分編集やワードの埋め込みなども可能。
あわせて、ChatGPTの『Deep Research』をまだ使ったことがない人向けに、ゼロからリサーチを始める手順をご紹介。4分で最新のAIテクをキャッチアップしましょう!✨

今日のAI

1. Cohereが「超効率」LLMを発表しGemma 3に対抗

  • GoogleのGemma 3が出て数日、Cohereも新モデル「Command A」をリリース。

  • DeepSeekやOpenAIの最新モデル並みの性能を「わずか2枚のNvidia GPU」で実現と謳う。

  • スモールビジネス向けにコストを抑えた運用が可能に。

2. 自動生成の広告がリアルすぎる:CaptionsのMirage機能

  • NYCのCaptionsがAIインフルエンサー生成機能「Mirage」を公開。

  • 音声またはテキストをアップロードすれば、体の動きや微細な表情もリアルに再現し、まるで本物のインフルエンサーが宣伝する動画を作成できる。

  • 競合ツールと比べて自然な身体動作とマイクロ表情が特徴。

3. Nous Researchが“ハイブリッド”LLM「DeepHermes」を予告

  • 検閲フリーで知られるNousが、新モデルDeepHermesの3B/24B版をプレビューリリース。

  • チェーン・オブ・ソート(論理的思考)とクイックレスポンス(即時応答)を1つのインターフェースで切り替えられる世界初のモデルと主張。

  • 「クローズドソースのモデルと異なり、推論プロセスを完全に表示するモードも備える」とのこと。

フロンティアから

Geminiがマルチモーダル画像生成を無料開放

Alphabetが“Geminiイメージジェネレーター”を全ユーザーに提供開始
出典:Google

通常、テキスト → LLM → 画像 という変換で損失が発生しがちですが、Gemini 2.0 Flashは複数のモードをスムーズに行き来し、高速かつ高精度の生成を実現しました。

具体的に何ができる?

  • 画像内の部分だけを編集(全部再生成せずに、一部のみ変更)

  • 単語や文章を画像に直接埋め込み(雑誌の表紙に文字を自然に追加、など)

  • レシピ+写真ゲームキャラ+3Dモデルといった複合的なケースにも対応

  • サンプル事例:

    • 雑誌カバーの値札を変える

    • クロワッサンにチョコレートソースをかける演出

    • 画像スタイルの相互適用

さらにDeep Research機能が全ユーザーに解放され、**“Gems”**と呼ばれるプリセット機能(翻訳や食事プラン、数学コーチなど)を自由に活用可能。
アプリ連携や検索履歴の分析まで視野に入れた“パーソナル化”が進んでいます。

続きはこちらから → https://note.com/ai_clutch/n/n2d924d1d2588