最強(qiáng)開(kāi)源文生圖模型一夜易主!
昨日晚間,開(kāi)源文生圖模型霸主 Stable Diffusion原班人馬,宣布推出全新的圖像生成模型 FLUX.1。
FLUX.1 包含專業(yè)版、開(kāi)發(fā)者版、快速版三種模型,其中前兩款模型擊敗 SD3-Ultra 等主流模型,較小規(guī)模的 FLUX.1 [schnell] 也超越了 Midjourney v6.0、DALL E 3 等更大的模型。
▲ FLUX.1 ELO 分?jǐn)?shù)與主流模型對(duì)比
FLUX.1 在文字生成、復(fù)雜指令遵循和人手生成上具備優(yōu)勢(shì)。以下是其最強(qiáng)的專業(yè)版模型 FLUX.1 [pro] 生成圖像示例,可以看到即使是生成大段的文字、多個(gè)人物,也沒(méi)有出現(xiàn)字符、人手等細(xì)節(jié)上的錯(cuò)誤。
▲ FLUX.1 [pro] 生成圖像示例
FLUX.1 現(xiàn)已在開(kāi)源平臺(tái) Replicate 上可用,以下是我用提示詞“世界上最小的黑森林蛋糕,手指大小,被黑森林的樹(shù)木包圍”,在三款模型上生成的圖像,用時(shí)分別為 17.5s、12.2s、1.5s。
▲ 三款模型生成對(duì)比
FLUX.1 同時(shí)開(kāi)放了 API(應(yīng)用程序接口),按圖像張數(shù)定價(jià),三款模型的價(jià)格依次為每張圖片 0.055 美元、0.03 美元、0.003 美元(約合人民幣 0.4 元、0.22 元、0.022 元)。
FLUX.1 背后的公司名為 Black Forest Labs(黑森林實(shí)驗(yàn)室),由 Stable Diffusion 原班人馬、多位 Stability AI 前研究員成立。與 Stability AI 類(lèi)似,黑森林致力于研發(fā)優(yōu)質(zhì)多模態(tài)模型并開(kāi)源,目前已完成 3100 萬(wàn)美元(約合人民幣 2.25 億元)的種子輪融資。
黑森林還預(yù)告不久之后將發(fā)布 SOTA(當(dāng)前技術(shù)指標(biāo)第一)視頻模型。從其放出的 Demo 來(lái)看,無(wú)論是流暢度、穩(wěn)定性還是物理模擬都達(dá)到第一梯隊(duì)水平,該公司或許會(huì)成為視頻生成領(lǐng)域的一匹黑馬。
▲ 視頻生成模型預(yù)告
三款模型試用地址:
https://replicate.com/black-forest-labs/flux-pro
https://replicate.com/black-forest-labs/flux-dev
https://replicate.com/black-forest-labs/flux-schnell
擅長(zhǎng)生成文字、人手,三種模型規(guī)模秒級(jí)生成
FLUX.1 在視覺(jué)質(zhì)量、圖像細(xì)節(jié)和輸出多樣性等方面性能優(yōu)越,其具有三大特點(diǎn):文字生成、復(fù)雜構(gòu)圖、人手描繪。
文字的生成在圖像、視頻生成中非常重要,許多模型容易混淆看起來(lái)相似的字母。FLUX.1 可以處理重復(fù)字母的棘手單詞,例如生成一個(gè)黑森林 Flux Schnell 蛋糕:
▲ 黑森林 Flux Schnell 蛋糕
在構(gòu)圖方面,F(xiàn)LUX.1 擅長(zhǎng)按照?qǐng)D像中事物應(yīng)該位于哪里等復(fù)雜指示進(jìn)行操作。例如,F(xiàn)LUX.1 完美地演繹了這段提示詞:三個(gè)魔法巫師站在一張黃色桌子上,每個(gè)巫師都拿著一個(gè)標(biāo)志。左邊,一個(gè)穿著黑色長(zhǎng)袍的巫師拿著一個(gè)寫(xiě)著“AI”的標(biāo)志;中間,一個(gè)穿著紅色長(zhǎng)袍的女巫拿著一個(gè)寫(xiě)著“is”的標(biāo)志;在右邊,一個(gè)穿著藍(lán)色長(zhǎng)袍的巫師拿著一個(gè)寫(xiě)著“cool”的標(biāo)志。
▲ 復(fù)雜構(gòu)圖
人手一直是多模態(tài)生成模型的重災(zāi)區(qū)。FLUX.1 生成的人手圖像雖然還不夠完美,但實(shí)現(xiàn)了很大的進(jìn)步。
▲ 人手
FLUX.1 共有專業(yè)版、開(kāi)發(fā)者版、快速版三種版本。
其中,FLUX.1[pro]是最先進(jìn)的一個(gè)版本,具有頂級(jí)的即時(shí)跟蹤、視覺(jué)質(zhì)量、圖像細(xì)節(jié)和輸出多樣性,面向?qū)I(yè)用戶提供定制的企業(yè)解決方案。
▲ FLUX.1 [pro] 生成圖像示例
FLUX.1[dev]面向非商業(yè)應(yīng)用,它從 FLUX.1 [pro] 提煉而來(lái),具有相似的質(zhì)量和能力,同時(shí)比相同尺寸的標(biāo)準(zhǔn)模型更高效。
▲ FLUX.1 [dev] 生成圖像示例
FLUX.1[schnell]是三款模型中最快的,專為本地開(kāi)發(fā)和個(gè)人使用而定制,并根據(jù) Apache 2.0 標(biāo)準(zhǔn)許可公開(kāi)提供。
▲ FLUX.1 [schnell] 生成圖像示例
FLUX.1 現(xiàn)已在開(kāi)源平臺(tái) Replicate 上可用,只需一行代碼即可在云端運(yùn)行,用戶也可以下載模型權(quán)重并以編程方式運(yùn)行。FLUX.1 的 API 也同步開(kāi)放,三款模型的價(jià)格依次為每張圖片 0.055 美元、0.03 美元、0.003 美元(約合人民幣 0.4 元、0.22 元、0.022 元)。
擊敗 MJ V6、DALL E 3,技術(shù)報(bào)告即將發(fā)布
性能方面,F(xiàn)LUX.1 經(jīng)過(guò)特別微調(diào),在預(yù)訓(xùn)練中保留了整個(gè)輸出多樣性,在指令遵守、視覺(jué)質(zhì)量、尺寸 / 長(zhǎng)寬變化等多個(gè)方面樹(shù)立了新標(biāo)準(zhǔn)。
其中 FLUX.1 [pro] 和 [dev] 兩款模型,在 5 項(xiàng)測(cè)評(píng)標(biāo)準(zhǔn)中都超過(guò)了 Midjourney v6.0、DALL E 3 和 SD3-Ultra 等熱門(mén)模型。
FLUX.1 [schnell] 作為輕量級(jí)模型,不僅優(yōu)于同類(lèi)競(jìng)爭(zhēng)對(duì)手,還優(yōu)于 Midjourney v6.0、DALL E 3 等強(qiáng)大的非蒸餾模型。
▲ FLUX.1 性能與主流模型對(duì)比
此外,所有 FLUX.1 模型均支持 0.1 和 2.0 百萬(wàn)像素的多種寬高比和分辨率。
▲ 寬高比 / 分辨率變化
如此強(qiáng)大的性能是怎么做到的?
在模型架構(gòu)上,F(xiàn)LUX.1 采用基于多模態(tài)和并行擴(kuò)散 Transformer 模塊的混合架構(gòu),并將其擴(kuò)展到 12B 參數(shù)。
團(tuán)隊(duì)通過(guò)建立流匹配(Flow Matching)來(lái)改進(jìn)最先進(jìn)的擴(kuò)散模型,并通過(guò)結(jié)合旋轉(zhuǎn)位置嵌入(Rotary Position Embedding)和并行注意力層,來(lái)提高模型性能和硬件效率。更詳細(xì)的技術(shù)報(bào)告將在不久后發(fā)布。
SD 原班人馬,2.25 億種子輪,要發(fā) SOTA 視頻模型
黑森林實(shí)驗(yàn)室由 Stable Diffusion 的創(chuàng)始團(tuán)隊(duì)成立,該團(tuán)隊(duì)此前的工作還包括高質(zhì)量圖像生成模型 VQGAN、視頻生成模型 Stable Video Diffusion 等。
Stable Diffusion 最初的 5 位作者中,4 位曾加入 Stability AI 并持續(xù)開(kāi)發(fā) SD 后續(xù)版本的成員,包括 Robin Rombach、Andreas Blattmann、Dominik Lorenz 以及 Patrick Esser,都在黑森林實(shí)驗(yàn)室的創(chuàng)始團(tuán)隊(duì)中。
▲ Stable Diffusion 作者、黑森林實(shí)驗(yàn)室創(chuàng)始團(tuán)隊(duì)
該團(tuán)隊(duì)稱,其核心信念是開(kāi)發(fā)廣泛可訪問(wèn)的模型,促進(jìn)研究界和學(xué)術(shù)界的創(chuàng)新和協(xié)作,并提高模型透明度。
黑森林實(shí)驗(yàn)室宣布已完成 3100 萬(wàn)美元(約合人民幣 2.25 億元)的種子輪融資,由知名風(fēng)投機(jī)構(gòu) a16z(Andreessen Horowitz)領(lǐng)投,VR 制造商 Oculus 的 CEO Brendan Iribe、創(chuàng)企孵化器 YC 的 CEO 陳嘉興(Garry Tan)、英偉達(dá)研究員 Timo Aila 等專家及 AI 公司跟投,還收到了來(lái)自 General Catalyst 等一線基金的后續(xù)投資。
該團(tuán)隊(duì)的顧問(wèn)委員會(huì),包括在內(nèi)容創(chuàng)作行業(yè)擁有豐富經(jīng)驗(yàn)的前迪士尼總裁 Michael Ovitz,以及神經(jīng)風(fēng)格轉(zhuǎn)換的先驅(qū) Matthias Bethge 教授。
剛剛創(chuàng)業(yè)的 AI 大神安德烈 卡帕西(Andrej Karpathy)為黑森林團(tuán)隊(duì)送上祝福,并稱“開(kāi)源的 FLUX.1 圖像生成模型看起來(lái)非常強(qiáng)大”。
▲ 卡帕西評(píng)論
創(chuàng)始團(tuán)隊(duì)的前領(lǐng)導(dǎo) ——Stability AI 前 CEO 埃馬德 莫斯塔克(Emad Mostaque)也發(fā)來(lái)賀電,還說(shuō)“之前能與他們合作是我的榮幸,我相信他們會(huì)繼續(xù)在生成每一個(gè)像素的旅程中突破界限”。
▲ 莫斯塔克評(píng)論
在下一步的工作上,黑森林預(yù)告將發(fā)布一款 SOTA 文生視頻模型,“讓所有人都能將文本轉(zhuǎn)為視頻”。該模型將建立在 FLUX.1 的基礎(chǔ)上,“以高清和前所未有的速度實(shí)現(xiàn)精確創(chuàng)作和編輯”。
▲ 視頻生成模型預(yù)告
結(jié)語(yǔ):多模態(tài)大模型領(lǐng)域黑馬涌現(xiàn)
在眾多大廠、創(chuàng)企狂卷文生視頻之際,文生圖領(lǐng)域突然迎來(lái)黑馬。“橫空出世”的 FLUX.1 的不僅展現(xiàn)出卓越的性能,在文字生成、復(fù)雜構(gòu)圖、人手描繪等方面突破難關(guān),還以多樣化的版本滿足不同用戶的需求。
黑森林實(shí)驗(yàn)室憑借著 Stable Diffusion 原班人馬的強(qiáng)大實(shí)力,獲得了豐厚的種子輪融資,也吸引了眾多行業(yè)大咖的關(guān)注與支持。其后續(xù)將發(fā)布的視頻模型,又將為文生視頻領(lǐng)域注入新的活力。