2024/8/2 15:59

最強(qiáng)開(kāi)源文生圖模型一夜易主：SD原班人馬打造，要發(fā)SOTA視頻生成模型

智東西

最強(qiáng)開(kāi)源文生圖模型一夜易主！

昨日晚間，開(kāi)源文生圖模型霸主 Stable Diffusion原班人馬，宣布推出全新的圖像生成模型 FLUX.1。

FLUX.1 包含專業(yè)版、開(kāi)發(fā)者版、快速版三種模型，其中前兩款模型擊敗 SD3-Ultra 等主流模型，較小規(guī)模的 FLUX.1 [schnell] 也超越了 Midjourney v6.0、DALL E 3 等更大的模型。

　　▲ FLUX.1 ELO 分?jǐn)?shù)與主流模型對(duì)比

FLUX.1 在文字生成、復(fù)雜指令遵循和人手生成上具備優(yōu)勢(shì)。以下是其最強(qiáng)的專業(yè)版模型 FLUX.1 [pro] 生成圖像示例，可以看到即使是生成大段的文字、多個(gè)人物，也沒(méi)有出現(xiàn)字符、人手等細(xì)節(jié)上的錯(cuò)誤。

　　▲ FLUX.1 [pro] 生成圖像示例

FLUX.1 現(xiàn)已在開(kāi)源平臺(tái) Replicate 上可用，以下是我用提示詞“世界上最小的黑森林蛋糕，手指大小，被黑森林的樹(shù)木包圍”，在三款模型上生成的圖像，用時(shí)分別為 17.5s、12.2s、1.5s。

　　▲ 三款模型生成對(duì)比

FLUX.1 同時(shí)開(kāi)放了 API（應(yīng)用程序接口），按圖像張數(shù)定價(jià)，三款模型的價(jià)格依次為每張圖片 0.055 美元、0.03 美元、0.003 美元（約合人民幣 0.4 元、0.22 元、0.022 元）。

FLUX.1 背后的公司名為 Black Forest Labs（黑森林實(shí)驗(yàn)室），由 Stable Diffusion 原班人馬、多位 Stability AI 前研究員成立。與 Stability AI 類(lèi)似，黑森林致力于研發(fā)優(yōu)質(zhì)多模態(tài)模型并開(kāi)源，目前已完成 3100 萬(wàn)美元（約合人民幣 2.25 億元）的種子輪融資。

黑森林還預(yù)告不久之后將發(fā)布 SOTA（當(dāng)前技術(shù)指標(biāo)第一）視頻模型。從其放出的 Demo 來(lái)看，無(wú)論是流暢度、穩(wěn)定性還是物理模擬都達(dá)到第一梯隊(duì)水平，該公司或許會(huì)成為視頻生成領(lǐng)域的一匹黑馬。

　　▲ 視頻生成模型預(yù)告

三款模型試用地址：

https://replicate.com/black-forest-labs/flux-pro

https://replicate.com/black-forest-labs/flux-dev

https://replicate.com/black-forest-labs/flux-schnell

擅長(zhǎng)生成文字、人手，三種模型規(guī)模秒級(jí)生成

FLUX.1 在視覺(jué)質(zhì)量、圖像細(xì)節(jié)和輸出多樣性等方面性能優(yōu)越，其具有三大特點(diǎn)：文字生成、復(fù)雜構(gòu)圖、人手描繪。

文字的生成在圖像、視頻生成中非常重要，許多模型容易混淆看起來(lái)相似的字母。FLUX.1 可以處理重復(fù)字母的棘手單詞，例如生成一個(gè)黑森林 Flux Schnell 蛋糕：

　　▲ 黑森林 Flux Schnell 蛋糕

在構(gòu)圖方面，F(xiàn)LUX.1 擅長(zhǎng)按照?qǐng)D像中事物應(yīng)該位于哪里等復(fù)雜指示進(jìn)行操作。例如，F(xiàn)LUX.1 完美地演繹了這段提示詞：三個(gè)魔法巫師站在一張黃色桌子上，每個(gè)巫師都拿著一個(gè)標(biāo)志。左邊，一個(gè)穿著黑色長(zhǎng)袍的巫師拿著一個(gè)寫(xiě)著“AI”的標(biāo)志；中間，一個(gè)穿著紅色長(zhǎng)袍的女巫拿著一個(gè)寫(xiě)著“is”的標(biāo)志；在右邊，一個(gè)穿著藍(lán)色長(zhǎng)袍的巫師拿著一個(gè)寫(xiě)著“cool”的標(biāo)志。

　　▲ 復(fù)雜構(gòu)圖

人手一直是多模態(tài)生成模型的重災(zāi)區(qū)。FLUX.1 生成的人手圖像雖然還不夠完美，但實(shí)現(xiàn)了很大的進(jìn)步。

　　▲ 人手

FLUX.1 共有專業(yè)版、開(kāi)發(fā)者版、快速版三種版本。

其中，FLUX.1[pro]是最先進(jìn)的一個(gè)版本，具有頂級(jí)的即時(shí)跟蹤、視覺(jué)質(zhì)量、圖像細(xì)節(jié)和輸出多樣性，面向?qū)I(yè)用戶提供定制的企業(yè)解決方案。

　　▲ FLUX.1 [pro] 生成圖像示例

FLUX.1[dev]面向非商業(yè)應(yīng)用，它從 FLUX.1 [pro] 提煉而來(lái)，具有相似的質(zhì)量和能力，同時(shí)比相同尺寸的標(biāo)準(zhǔn)模型更高效。

　　▲ FLUX.1 [dev] 生成圖像示例

FLUX.1[schnell]是三款模型中最快的，專為本地開(kāi)發(fā)和個(gè)人使用而定制，并根據(jù) Apache 2.0 標(biāo)準(zhǔn)許可公開(kāi)提供。

　　▲ FLUX.1 [schnell] 生成圖像示例

FLUX.1 現(xiàn)已在開(kāi)源平臺(tái) Replicate 上可用，只需一行代碼即可在云端運(yùn)行，用戶也可以下載模型權(quán)重并以編程方式運(yùn)行。FLUX.1 的 API 也同步開(kāi)放，三款模型的價(jià)格依次為每張圖片 0.055 美元、0.03 美元、0.003 美元（約合人民幣 0.4 元、0.22 元、0.022 元）。

擊敗 MJ V6、DALL E 3，技術(shù)報(bào)告即將發(fā)布

性能方面，F(xiàn)LUX.1 經(jīng)過(guò)特別微調(diào)，在預(yù)訓(xùn)練中保留了整個(gè)輸出多樣性，在指令遵守、視覺(jué)質(zhì)量、尺寸 / 長(zhǎng)寬變化等多個(gè)方面樹(shù)立了新標(biāo)準(zhǔn)。

其中 FLUX.1 [pro] 和 [dev] 兩款模型，在 5 項(xiàng)測(cè)評(píng)標(biāo)準(zhǔn)中都超過(guò)了 Midjourney v6.0、DALL E 3 和 SD3-Ultra 等熱門(mén)模型。

FLUX.1 [schnell] 作為輕量級(jí)模型，不僅優(yōu)于同類(lèi)競(jìng)爭(zhēng)對(duì)手，還優(yōu)于 Midjourney v6.0、DALL E 3 等強(qiáng)大的非蒸餾模型。

　　▲ FLUX.1 性能與主流模型對(duì)比

此外，所有 FLUX.1 模型均支持 0.1 和 2.0 百萬(wàn)像素的多種寬高比和分辨率。

　　▲ 寬高比 / 分辨率變化

如此強(qiáng)大的性能是怎么做到的？

在模型架構(gòu)上，F(xiàn)LUX.1 采用基于多模態(tài)和并行擴(kuò)散 Transformer 模塊的混合架構(gòu)，并將其擴(kuò)展到 12B 參數(shù)。

團(tuán)隊(duì)通過(guò)建立流匹配（Flow Matching）來(lái)改進(jìn)最先進(jìn)的擴(kuò)散模型，并通過(guò)結(jié)合旋轉(zhuǎn)位置嵌入（Rotary Position Embedding）和并行注意力層，來(lái)提高模型性能和硬件效率。更詳細(xì)的技術(shù)報(bào)告將在不久后發(fā)布。

SD 原班人馬，2.25 億種子輪，要發(fā) SOTA 視頻模型

黑森林實(shí)驗(yàn)室由 Stable Diffusion 的創(chuàng)始團(tuán)隊(duì)成立，該團(tuán)隊(duì)此前的工作還包括高質(zhì)量圖像生成模型 VQGAN、視頻生成模型 Stable Video Diffusion 等。

Stable Diffusion 最初的 5 位作者中，4 位曾加入 Stability AI 并持續(xù)開(kāi)發(fā) SD 后續(xù)版本的成員，包括 Robin Rombach、Andreas Blattmann、Dominik Lorenz 以及 Patrick Esser，都在黑森林實(shí)驗(yàn)室的創(chuàng)始團(tuán)隊(duì)中。

　　▲ Stable Diffusion 作者、黑森林實(shí)驗(yàn)室創(chuàng)始團(tuán)隊(duì)

該團(tuán)隊(duì)稱，其核心信念是開(kāi)發(fā)廣泛可訪問(wèn)的模型，促進(jìn)研究界和學(xué)術(shù)界的創(chuàng)新和協(xié)作，并提高模型透明度。

黑森林實(shí)驗(yàn)室宣布已完成 3100 萬(wàn)美元（約合人民幣 2.25 億元）的種子輪融資，由知名風(fēng)投機(jī)構(gòu) a16z（Andreessen Horowitz）領(lǐng)投，VR 制造商 Oculus 的 CEO Brendan Iribe、創(chuàng)企孵化器 YC 的 CEO 陳嘉興（Garry Tan）、英偉達(dá)研究員 Timo Aila 等專家及 AI 公司跟投，還收到了來(lái)自 General Catalyst 等一線基金的后續(xù)投資。

該團(tuán)隊(duì)的顧問(wèn)委員會(huì)，包括在內(nèi)容創(chuàng)作行業(yè)擁有豐富經(jīng)驗(yàn)的前迪士尼總裁 Michael Ovitz，以及神經(jīng)風(fēng)格轉(zhuǎn)換的先驅(qū) Matthias Bethge 教授。

剛剛創(chuàng)業(yè)的 AI 大神安德烈卡帕西（Andrej Karpathy）為黑森林團(tuán)隊(duì)送上祝福，并稱“開(kāi)源的 FLUX.1 圖像生成模型看起來(lái)非常強(qiáng)大”。

　　▲ 卡帕西評(píng)論

創(chuàng)始團(tuán)隊(duì)的前領(lǐng)導(dǎo) ——Stability AI 前 CEO 埃馬德莫斯塔克（Emad Mostaque）也發(fā)來(lái)賀電，還說(shuō)“之前能與他們合作是我的榮幸，我相信他們會(huì)繼續(xù)在生成每一個(gè)像素的旅程中突破界限”。

　　▲ 莫斯塔克評(píng)論

在下一步的工作上，黑森林預(yù)告將發(fā)布一款 SOTA 文生視頻模型，“讓所有人都能將文本轉(zhuǎn)為視頻”。該模型將建立在 FLUX.1 的基礎(chǔ)上，“以高清和前所未有的速度實(shí)現(xiàn)精確創(chuàng)作和編輯”。

　　▲ 視頻生成模型預(yù)告

結(jié)語(yǔ)：多模態(tài)大模型領(lǐng)域黑馬涌現(xiàn)

在眾多大廠、創(chuàng)企狂卷文生視頻之際，文生圖領(lǐng)域突然迎來(lái)黑馬。“橫空出世”的 FLUX.1 的不僅展現(xiàn)出卓越的性能，在文字生成、復(fù)雜構(gòu)圖、人手描繪等方面突破難關(guān)，還以多樣化的版本滿足不同用戶的需求。

黑森林實(shí)驗(yàn)室憑借著 Stable Diffusion 原班人馬的強(qiáng)大實(shí)力，獲得了豐厚的種子輪融資，也吸引了眾多行業(yè)大咖的關(guān)注與支持。其后續(xù)將發(fā)布的視頻模型，又將為文生視頻領(lǐng)域注入新的活力。

給作者點(diǎn)贊

0 VS 0

寫(xiě)得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

Aetherflux 獲 5000 萬(wàn)美元融資，擬明年發(fā)射示范衛(wèi)星實(shí)現(xiàn)太空向地球輸電
IT之家遠(yuǎn)洋4-3
AI 文生圖新王者：Reve Image 1.0 登頂，低價(jià)高質(zhì)挑戰(zhàn) Midjourney 和 Flux
IT之家故淵3-27

最強(qiáng)開(kāi)源文生圖模型一夜易主：SD原班人馬打造，要發(fā)SOTA視頻生成模型

最強(qiáng)開(kāi)源文生圖模型一夜易主：SD原班人馬打造，要發(fā)SOTA視頻生成模型