「瞬息全宇宙」背后的 AI 公司，曾參與 Stable Diffusion 開發(fā)，去年獲 5000 萬美元融資_世界播報

來源：36kr時間：2023-03-14 08:04:07

Runway 是一家人工智能視頻編輯軟件供應商。據(jù)了解，本屆奧斯卡最大贏家影片《瞬息全宇宙》制作過程中采用了這家公司的技術。

(資料圖)

北京時間 3 月 13 日上午，2023 年奧斯卡頒獎禮在洛杉磯舉行，影片《瞬息全宇宙》一舉斬獲七項大獎，成為最大贏家。主演楊紫瓊也憑借該片將奧斯卡最佳女主角獎收入囊中，成為奧斯卡歷史上首位華裔影后。

楊紫瓊奧斯卡封后，圖源網(wǎng)絡

據(jù)了解，這部正在被熱議的科幻電影背后的視覺效果團隊僅有 5 人，為了盡快完成這些特效鏡頭，他們選擇了 Runway 公司的技術來幫助創(chuàng)建某些場景，比如為圖像去除背景的綠幕工具 (The Green Screen)。

「僅僅幾次點擊就讓我節(jié)省幾個小時，我可以用這些時間嘗試三四種不同的效果，讓影片效果更好?！箤а菁婢巹?Evan Halleck 受訪時談道。

手指進化成熱狗宇宙，圖源網(wǎng)絡

Runway：參與初代Stable Diffusion開發(fā)

2018 年底，Cristóbal Valenzuela 聯(lián)合其他成員創(chuàng)立 Runway。它是一家人工智能視頻編輯軟件提供商，致力于利用計算機圖形學及機器學習的最新進展，為設計師、藝術家和開發(fā)人員降低內(nèi)容創(chuàng)作的門檻、推動創(chuàng)意內(nèi)容的發(fā)展。

據(jù) Forbes 報道，該公司年收入將近 500 萬美元，員工僅 40 人左右

除此之外，Runway 還有一個鮮為人知的身份--Stable Diffusion 初始版本的主要參與公司。

2021 年，Runway 與德國慕尼黑大學合作，構建了第一個版本的 Stable Diffusion，隨后英國初創(chuàng)公司 Stability AI 「帶資進組」，為 Stable Diffusion 提供了更多模型訓練所需的計算資源和資金。不過目前 Runway 和 Stability AI 已經(jīng)不再合作。

2022 年 12 月，Runway 獲得 5000 萬美元的 C 輪融資，除《瞬息全宇宙》團隊外，客戶還包括傳媒集團 CBS、MBC，廣告公司 Assembly、VaynerMedia，設計公司 Pentagram 等。

2023 年 2 月 6 日，Runway 官方推特發(fā)布 Gen-1 模型，可以通過應用文本提示或者參考圖像所指定的任意風格，將現(xiàn)有視頻轉(zhuǎn)換為新視頻。

Runway Twitter 官宣 Gen-1

Gen-1：structure + content 雙管齊下

科研人員提出了一個結構 (structure) 和內(nèi)容 (content) 引導的 video diffusion model--Gen-1，可以依據(jù)預期輸出的視覺或文本描述，對視頻進行編輯。

Gen-1 模型原理展示

所謂 content，是指描述視頻的外表 (appearance) 和語義的特征，如目標物體的顏色、風格以及場景的燈光。

而 structure 則是指描述其幾何和動態(tài)的特征，如目標物體的形狀、位置以及時間變化。

Gen-1 模型的目標是在保留視頻 structure 的同時，編輯視頻 content。

在模型訓練過程中，科研人員用到了一個由未加字幕的視頻及 text-image pair 構成的大規(guī)模數(shù)據(jù)集，同時，用單目場景深度預測 (monocular depth estimates) 來表示 structure，用預訓練神經(jīng)網(wǎng)絡預測的 embedding 來表示 content。

該方法在生成過程中提供了幾種強大的控制模式：

1. 參考圖像合成模型，訓練模型使得推理的視頻 content（如呈現(xiàn)或風格）與用戶提供的 image 或 prompt 相匹配。

Guided Video Synthesis 示例：在保留輸入視頻（中間）structure 的同時基于文本提示或圖像合成的視頻（上及下）

2. 參考 diffusion 過程，對結構表征 (structure representation) 進行 information obscuring，這使得開發(fā)者可以自行設定 model adhere 對于給定 structure 的相似程度。

3. 參考 classifier-free guidance，借助自定義 guidance 方法，調(diào)整推理過程，從而控制生成 clip 的時間一致性。

在該實驗中，科研人員：

通過在預訓練的圖像模型中引入 temporal layer，并對圖像和視頻進行聯(lián)合訓練，將 latent diffusion model 擴展到視頻生成中。

提出了一個 structure 和 content-aware 模型，可以在示例圖像或文本的指導下修改視頻。視頻編輯完全是在推理階段進行的，無需逐個視頻進行訓練或預處理。

對 temporal、content 和 structure 一致性的完全控制。實驗表明，在圖像和視頻數(shù)據(jù)上的聯(lián)合訓練，能夠在推理期間上控制一致性 (temporal consistency)。對于結構一致性 (structure consistency)，在表征的不同細節(jié)水平上訓練，使用戶得以在推理過程中選擇所需的設置。

一項用戶調(diào)研表明，該方法比其他幾種方法更受歡迎。

通過對一小部分圖像進行微調(diào)，可以進一步定制訓練過的模型，以生成更準確的特定 subject 的視頻。

為了評估 Gen-1 的性能，科研人員用 DAVIS 數(shù)據(jù)集中的視頻以及其他各種素材進行了評估。為了自動創(chuàng)建編輯 prompt，研究人員首先運行了一個 captioning 模型來獲得原始視頻內(nèi)容的描述，然后使用 GPT3 生成編輯 prompt。

Gen-1 與其他模型生成效果的用戶滿意度對比

實驗結果表明，在對所有方法生成效果的滿意度調(diào)研中，75% 的用戶更傾向 Gen-1 的生成效果。

AIGC：爭議中前行

2022 年，生成式人工智能成為自十多年前移動和云計算興起以來最引人注目的技術，我們正有幸見證其應用層的萌芽，許多大模型正迅速從實驗室中走出來，撲向真實世界的各個場景。

然而，盡管有提高效率、節(jié)省成本等諸多好處，我們也需要看到，生成式人工智能依然面臨多種挑戰(zhàn)，包括如何提高模型的輸出質(zhì)量和多樣性、如何提高其生成速度，以及應用過程中的安全、隱私和倫理宗教等問題。

有些人對 AI 藝術創(chuàng)作提出質(zhì)疑，更有甚者認為這是一種 AI 對藝術的「入侵」，面對這種聲音，Runway 聯(lián)合創(chuàng)始人兼 CEO Cristóbal Valenzuela 認為，AI 只是工具箱中一個用來給圖像等內(nèi)容上色或修改的工具，與 Photoshop、LightRoom 并無二致。雖然生成式人工智能還存在一些爭議，但它為非技術人員和創(chuàng)意人員打開了創(chuàng)作的大門，并將帶領內(nèi)容創(chuàng)作領域走向新的可能。

參考鏈接：

[1]https://hub.baai.ac.cn/view/23940

[2]https://cloud.tencent.com/developer/article/2227337?

關鍵詞：

責任編輯：FD31

上一篇：9個月11位核心高管出走，ChatGPT浪潮中沉默，蘋果怎么了？天天播報

下一篇：最后一頁