只給一張Doge圖,GPT-4o就幫我畫好一整個RPG游戲
上周,OpenAI 突然來了一個更新,將 GPT-4o 模型集成了圖像生成功能,正式向 ChatGPT 的 Plus、Pro、Team 及免費用戶開放。同時,該功能在 Sora 平臺也已同步啟用。經測試,Plus 用戶幾乎沒有使用次數限制,在 Sora 上可以最多單次生成 4 張圖片,體驗更好。觀察各種測試案例,可以發現 GPT-4o 能夠實現多種神奇的功能或特性,包括主體關系控制、多視圖生成、精準輪廓的風格遷移、知識理解能力、多輪對話編輯能力、多元素的一致穩定性控制、復雜文字嵌入和排版等。實際上,一句話總結就是超精準的指令遵循,以及自主生成部分的可靠性。OpenAI 的 CEO Sam Altman 表示此舉將開啟創作自由的新高峰。如果沒有深度融入創作者的工作流中,創作自由不過是隨口說說,所以目前網上零散的案例并沒有太高的說服力。為了測試 Sam Altman 是不是在吹牛,知危編輯部做了一個深度測評,用一個主題和多輪對話,將上面提到的特點一次性測試完成。簡單來說,就是開局一只柴犬,用 Sora來做一個中世紀 RPG 游戲的概念設計。怎么做?很簡單,給柴犬穿上盔甲,通過時空隧道送到中世紀就行了。實測效果表明,GPT-4o 畫圖的前后一致性實在太驚人了。畫了幾十張圖,就都沒有跑偏。為了展示這種一致性,我們暫時跳過畫圖的過程、順序和提示詞,先展示一下成品樣圖。序章:使命的開始。傳說中,在古老的蘭斯王國,被詛咒的石頭城堡已經被黑暗魔法侵蝕數百年。其中棲居著可怕的橘貓魔 —— 一個吞噬靈魂、操控城堡的黑暗法師。漢字生成還是有些問題,但是能看懂王國最后的希望,就寄托在這位身披銀白色板甲的柴犬騎士身上。他的名字叫艾倫,手中的長劍 " 王國的黎明 " 是王室傳承的神器。年輕的柴犬騎士將面臨極端危險的任務。他不僅要打敗橘貓魔,還得面對城堡中9種強大怪物的阻撓。他感到既興奮又緊張,急急忙忙清點裝備。出發!當艾倫踏入詛咒城堡的瞬間,第一個考驗已悄然而至。石之精靈——那個能融入石墻的微小怪物,突然從墻面裂縫中彈出。利爪閃爍,尖嘯劃破寂靜。艾倫本能地側身,長劍一揮,精靈應聲而碎。這只是開始,城堡似乎在用最微小的守衛測試他的決心。隨著深入城堡,艾倫遇到越來越強大的敵人。腐爛蘑菇骷髏、暗影鼠群、破碎鎧甲傀儡……每一個怪物都仿佛是這座詛咒城堡漫長歷史的見證者。在城堡的深處,他遇到了最危險的對手之一:全身覆蓋神秘符文的狼人。那是一個強大到令人窒息的存在,仿佛隨時可以撕裂現實。關鍵時刻,艾倫召喚了之前在高層的城樓戰斗中降服的腐肉騎士和瘟疫烏鴉。藤蔓纏繞,烏鴉群包圍,符文狼人瞬間破防。他趁機給予致命一擊,擊敗了這個強大的守衛。在進入城堡最高的大廳之前,柴犬騎士在一個碑文上讀到了橘貓魔的身世,以及王國災厄的根源。漢字生成依然有些崩,但是依然能看懂打開大門后,柴犬騎士終于和橘貓魔面對面。一言不合,橘貓魔瞬間黑化和巨大化。這是一個已經與城堡融為一體的存在,半神半魔,操控著數百年的黑暗力量。戰斗一觸即發!雙方對峙,力量在空氣中激蕩;能量激烈碰撞,周圍空間扭曲;艾倫積蓄所有力量,釋放 " 王國的黎明 " 最強一擊。當最后一縷黑暗消散,艾倫站在廢墟中。橘貓魔徹底被擊敗,城堡開始恢復光明。遠處,陽光透過破損的窗戶灑落。橘貓魔留下的魔法袍,此刻安靜地懸浮在艾倫面前。這是戰利品,也是王國新的希望。當他披上這件充滿古老魔法的袍子,瞬時就將魔法與力量相結合,領悟了四個新的招式:貓爪裂空斬、貓影穿刺、貓尾旋風、貓步震地刀。王國重新恢復了昔日里寧靜祥和。柴犬騎士沒有停下腳步,他知道邪惡的根源沒有被徹底清除,于是繼續踏上征程。站在一片灰暗的懸崖邊緣,魔法袍輕輕飄動。他背對著腐爛的沼澤,長劍橫在背后,寬大的袍子上點綴著青綠色的符文。遠處,腐爛的樹木如同巨大的骸骨,在霧氣中若隱若現,斷裂的石橋猶如一根被折斷的脊梁,橫跨在死寂的沼澤之上。這將是柴犬騎士要面臨的第二個難關:腐敗沼澤深淵。以上是知危編輯部臆想出的 RPG 游戲《 詛咒世界:破碎王國 》的開頭,所有圖片均為 GPT-4o 生成。在構想中,破碎王國整個世界是破碎的孤島連接而成,每個關卡都是這個破碎世界的一個層級,層級之間并非直線連接,而是通過扭曲的空間通道相互鏈接。世界構成為:底部核心:詛咒城堡;第二層:腐敗沼澤深淵;第三層:冰封王座高原;第四層:灼燒熔爐廢墟;第五層:暗影織網迷宮;頂層:時空破碎祭壇。戰斗才剛剛開始。注:此動圖并非 4o 生成,而是Sora生成的視頻好了,游戲設計到此為止。我們回過頭來評估一下生成效果。可以說,從頭到尾,柴犬和其它怪物的形象都沒有發生太大偏差,甚至裝備、城堡都保持了很好的一致性,這是整個過程中最深刻的體會。橘貓魔的身世背景介紹展示了 GPT-4o 嵌入大量文字的強大能力,GPT-4o目前對非拉丁文字的生成還不擅長,但還是那句話,你莫名其妙基本能讀懂。我們給 GPT-4o 的提示詞是這樣的:以下是橘貓魔的詳細檔案,請用一個中世紀羊皮紙的形式呈現以下信息:名稱:橘貓魔生平背景: 橘貓魔原本是一位王國最強大的法師,精通黑暗魔法和古老禁忌咒術。數百年前,他因追求永生和至高無上的力量,背叛了魔法師協會,將整個石頭城堡作為自己的魔法實驗場。通過獻祭城堡中的所有居民,他完成了一個驚天動地的儀式,將自己與城堡融為一體,成為了一個半神半魔的存在。征服石頭城堡的過程:用 72 天的黑暗儀式將城堡轉化為自己的永恒領域吸收了城堡中所有生命的靈魂力量將城堡本身變成了一個巨大的活體魔法生物徹底切斷了城堡與外界現實世界的聯系能力屬性:生命值:10000魔法值:15000力量:850敏捷:600智慧:1200精神抗性:99%武器與魔法裝備:主武器:滅世之爪每次攻擊能吸收敵人10%的生命力副武器:城堡意志權杖能召喚城堡內任何區域的守衛這些文字也被 GPT-4o 提取到了橘貓魔的資料卡中,但是你仔細看會發現,屬性還是有一些是標錯了的。城堡怪物圖譜是通過對每個怪物都指定一個描述來生成的,基本都遵循了指令。這種能力屬于多元素的一致穩定性控制,在制作統一風格的場景、人物、裝備元素時特別有用。上圖我們給 GPT-4o 的提示詞是這樣的:柴犬騎士在石頭城堡的冒險中,在找到最后的 boss 之前,將面臨 6 種小型怪物,3 種中型怪物的阻撓,以下是這些怪物的描述:小型怪物 ( 6 種 ) :①石之精靈:能融入石墻的微小尖嘯怪,突然從墻面彈出攻擊敵人。②腐爛蘑菇骷髏:從地牢潮濕角落爬出的會移動的植物骷髏。③暗影鼠群:能在黑暗中集群攻擊,如幽靈般迅速移動的詭異嚙齒生物。④破碎鎧甲傀儡:由殘缺鎧甲組成的會自行移動的戰爭殘骸。⑤詛咒蝙蝠:翅膀帶有詭異符文,能發出令人戰栗的尖嘯。⑥瘟疫烏鴉:身體散發黑色瘟疫霧氣的詭異禽類。中型怪物 ( 3 種 ):①石像鬼守衛:能瞬間變成石頭并偷襲的半人形怪物。②腐肉騎士:半腐爛的騎士,身上纏繞不潔的藤蔓。③符文狼人:全身覆蓋神秘符文的半獸人形態。請生成一個游戲頁面展示這些怪物的簡筆畫,注意頁面排布美觀整齊,怪物特征和頁面風格要符合中世紀 RPG 的世界觀。這組怪物圖譜的畫風,也輕易地遷移到了后續 Doge 獲得新技能的制作以及世界觀地圖的制作中。制作出具有一致性圖像的關鍵,在于合適的參考圖和詳細的提示詞。比如柴犬騎士在第二關開頭的場景。對于這個場景的生成,結合第一關開頭的構圖、柴犬騎士的本體形象,就能更好保證一致性。對于游戲完整地圖的生成。提供相同畫風的圖譜、劍譜,就能控制畫風的一致性。空間構圖的設計,對畫面效果的呈現也很重要。比如,如果用比較簡單的提示詞,來生成柴犬騎士和橘貓魔的對峙,看起來像在拉家常。我們給 GPT-4o 的提示詞是這樣的:接下來,加上空間構圖提示詞。氛圍感一下子就出來了。整個生成過程當然不是一鏡到底,還是會有不少 Bug,以及難以實現的細節。比如柴犬騎士有時候雙足站立有時候不是,甚至會出現同時有四只腳和兩只手的情況,物品欄中的頭盔形狀和柴犬騎士實際佩戴的不一樣,城堡在被詛咒前后的外形細節偏差等等。比如生成裝備選擇畫面的時候,調了很多次提示詞都沒有得到滿意的效果,當然也不排除我們所使用的提示詞不夠專業和系統的原因。怪物圖譜生成如果元素過多或不能劃分為 m*n 的矩形,也可能導致生成效果不規整,視覺排布凌亂。最難實現的細節是不同主體的復雜交互,比如柴犬騎士擊中石之精靈的瞬間、腐肉騎士和符文狼人打斗的瞬間,都很難遵循詳細的提示,呈現效果一般。細節錯誤可以用局部編輯完善,但對圖片進行局部編輯的時候,不能完全保證修改范圍局限在指定的位置。比如第一次生成的游戲地圖,在 “ 冰封王座高原 ” 部分的英文標注是錯誤的,應該是 “ Frozen Throne Plateau ”,但寫成了 “ Scorching Furnace Ruins ”。對 “ Scorching Furnace Ruins ” 涂抹掩碼,提示進行修改并重新生成后。最終效果是滿意的,但最頂部的 “ 時空破碎祭壇 ” 的外形被修改了。到這里,評測就結束啦!總體而言,GPT-4o 的生圖功能,相比過往其它生圖應用的體驗,不聽話、亂畫沒說的、畫的不像話,這種令人崩潰的體驗,少了太多太多。只要用 Sora 一次生成 4 張圖,獲得想要的結果的概率極大。在 “ 柴犬騎士勇闖破碎王國 ” 的概念設計中,GPT-4o 展現了精準的指令遵循、驚人的圖像一致性,這種能力,正是將技術從工具升華為創作伙伴的關鍵所在。可以說 GPT-4o 為創作者打開了一扇通向想象的大門,看來 Sam Altman 沒有說的太夸張。當然,GPT-4o 不是終點,而是一個令人興奮的起點。