中央研究院智財技轉處對外服務網

用於文字生成圖像模型的數值控制

技術授權與產學合作諮詢

2025-01-15

用於文字生成圖像模型的數值控制

本院覽號

32A-1130906

公告日期

2025-01-15

智財權狀態

know-how

摘要

本發明提出了一種基於潛在擴散模型（LDMs）的創新技術，來實現文字生成圖像的精確數值控制。該技術解決了現有文本到圖像生成模型無法有效處理數值參數（如焦距、光圈、ISO感光度、曝光時間等相機設定）的問題，但其應用並不僅限於相機設定。本方法將數值參數嵌入到通過潛在擴散模型（LDMs）的文本特徵空間中，使這些參數成為生成過程中的控制，用戶可以根據具體的數值輸入精確調整圖像生成過程。這種數值化的控制框架不僅提升了生成圖像的準確性與一致性，還可以應用於其他需要數值控制的領域。無論是專業攝影、藝術創作還是其他需要數值精確調整的場景，本技術都提供了一個靈活且強大的解決方案，大幅提升了用戶的控制能力和使用體驗。

技術優勢

精確數值控制：本技術可達成精確的數值控制，超越了傳統文字生成圖像模型的能力，使生成結果更為準確和一致。
高度靈活性：本技術具有高度靈活性，可應用於各種需要精確數值控制的領域，並可與其他來自社群的LoRA模型結合，擴展其應用範圍。
提升使用體驗：相比現有技術，該方法在生成圖像過程中提供了前所未有的數值控制力，允許用戶根據具體需求進行精確數值調整，提升了使用體驗。

應用範圍

圖像生成控制：本技術可用於開發精確數值控制圖像生成過程的應用，適合專業攝影師和藝術創作者，提供更多元的創作工具。
影像處理與編輯：本技術可以進一步應用於影像後期處理與編輯軟體，允許用戶根據精確的數值參數進行影像調整。
數值控制：本技術可擴展至其他領域，如3D建模、視覺特效等，通過精確數值參數來控制生成效果，提升應用的靈活性。

創作人

陳駿丞

檔案下載

用於文字生成圖像模型的數值控制