AI 圖像生成技術再突破,Google 最新多模態模型正式開放試用
Google 在 3/13 宣布一項重要更新,原先僅向受信任測試者開放的 Gemini 2.0 Flash 原生圖像輸出功能,現已擴大開放範圍,所有 Google AI Studio 支援地區的開發者均可進行試驗。這意味著開發者現在可以透過 Google AI Studio 的實驗版 Gemini 2.0 Flash(gemini-2.0-flash-exp-image-generation)或 Gemini API 親自體驗這項創新技術。
Gemini 2.0 Flash 是 Google 最新推出的多模態 AI 模型,它不僅能理解文字與圖像輸入,還能生成圖像,大幅簡化了創作流程。
四大優勢展現 Gemini 2.0 Flash 的獨特實力
Google 在發布時特別強調了 Gemini 2.0 Flash 在圖像生成方面的四大特色功能,每一項都針對現有技術痛點提供了創新解決方案:
一、融合文字與圖像的敘事體驗
Gemini 2.0 Flash 能夠在講述故事時自動生成配圖,且整個過程中保持角色和場景的一致性。使用者可以透過反饋調整故事內容或變更插圖風格,實現真正互動式的創作體驗。這項功能使內容創作者能夠快速產出兼具文字與視覺吸引力的作品,特別適合兒童繪本、教學材料或社群媒體內容的創作。
二、自然對話式圖像編輯
有別於傳統圖像編輯需要專業軟體和技能,Gemini 2.0 Flash 支援透過自然語言對話進行圖像修改。使用者只需以日常用語描述所需變更,如「移除圖片上的手機,換成拿 Nintendo Switch」,系統即可理解並執行相應調整。更重要的是,模型能在多輪對話中保持上下文理解,讓編輯過程如同與設計師溝通般直覺自然。
三、基於世界知識的精準圖像生成
Gemini 2.0 Flash 具備豐富的世界知識和增強推理能力,能夠創建符合現實邏輯的精確圖像。例如,在生成食譜插圖時,模型能理解食材、烹飪流程,並生成符合實際情況的視覺呈現。儘管如此,Google 也坦承,與所有 AI 模型一樣,Gemini 的知識範圍雖廣泛但並非全面,因此在專業領域的應用可能仍需專家指導。(意思是有時候生成的圖片會跟實際有點差距,例如下方範例生成的蔬菜圖就跟食譜文字提到的不一樣)。
四、優異的文字渲染表現
在 AI 圖像生成領域,準確渲染文字一直是一大挑戰。多數模型在處理長文字序列時容易出現格式混亂、字符扭曲甚至拼寫錯誤等問題。根據 Google 內部測試,Gemini 2.0 Flash 在文字渲染方面表現優於市場上多款領先產品,特別適合創建包含大量文字的視覺內容,如廣告海報、社群貼文卡片和活動邀請函等。
Gemini 2.0 Flash 圖像生成功能的好處
Google 此次開放 Gemini 2.0 Flash 的圖像生成功能,不僅展示了其在多模態 AI 領域的技術實力,也讓更多創作者和開發者能夠利用 AI 輔助工具提升工作效率,激發創意潛能。例如,行銷人員可快速生成符合品牌調性的宣傳圖片;內容創作者能即時將想法視覺化;電商平台可根據文字描述自動生成商品預覽;教育工作者則能為抽象概念創建直觀插圖,輔助教學。
對開發者而言,這項功能開放則意味著可以將高品質的 AI 圖像生成能力無縫整合到自有應用程式中,為用戶提供更豐富的互動體驗。例如,旅遊應用可根據目的地資訊自動生成旅遊指南插圖;社群平台可幫助用戶將文字貼文轉換為精美圖片;設計工具則能提供 AI 輔助的初稿生成功能。
想要親身體驗 Gemini 2.0 Flash 的圖像生成功能,可立即前往 Google AI Studio,選擇實驗版 Gemini 2.0 Flash (Image Generation)Experimental 模型開始測試。開發者也可透過 Gemini API 將這項功能整合到自有應用中。