邦内高校打制类Sora模子VDT通用视频扩散Transformer被ICLR 2024接管

　　斟酌者同时探寻了天生模子 VDT 对简略物理顺序的模仿。他们正在 Physion 数据集前进行实践，VDT 行使前 8 帧行动前提帧，并预测接下来的 8 帧。正在第一个示例（顶部两行）和第三个示例（底部两行）中，VDT 凯旋模仿了物理流程，网罗一个沿掷物线轨迹运动的球和一个正在平面上滚动并与圆柱体碰撞的球。正在第二个示例（中央两行）中，VDT 搜捕到了球的速率 / 动量，由于球正在碰撞圆柱体前停了下来。这说明了 Transformer 架构是可能研习到必然的物理顺序。

　　跟着 GPT 模子的凯旋和自回歸（AR）模子的風行，斟酌者起首探尋 Transformer 正在視頻天生範疇的更深宗旨利用，忖量其是否能爲實行視覺智能供應新的途徑。視頻天生範疇有一個與之親昵合系的義務 —— 視頻預測。將預測下一個視頻幀行動通往視覺智能的途徑這一思法看似簡略，但它實質上是很衆斟酌者協同合切的題目。

　　時空 Transformer Block。VDT 正在 Transformer Block 中插入了一個期間防備力層，以獲取期間維度的築模才略。簡直來說，每個 Transformer Block 由一個衆頭期間防備力、一個衆頭空間防備力和一個全銜尾前饋搜集構成，如上圖所示。

　　最先，VDT 采用的是正在時空維度上區分實行防備力機制懲罰的辦法，而 Sora 則是將期間和空間維度團結，通過簡單的防備力機制來懲罰。這種分袂防備力的做法正在視頻範疇仍舊相當常睹，平時被視爲正在顯存控制下的一種妥協抉擇。VDT 抉擇采用分袂防備力也是出于算計資源有限的研商。Sora 健壯的視頻動態才略不妨來自于時空全體的防備力機制。

　　提出同一的時空掩碼築模機制，使 VDT 也許懲罰衆種視頻天生義務，實行了技能的通俗利用。VDT 機動的前提訊息懲罰形式，如簡略的 token 空間拼接，有用地同一了分歧長度和模態的訊息。同時，通過與該職責提出的時空掩碼築模機制聯合，VDT 成爲了一個通用的視頻擴散用具，正在不修正模子機合的景況下可能利用于無前提天生、視頻後續幀預測、插幀、圖生視頻、視頻畫面補全等衆種視頻天生義務。

　　惟有當模子研習（或回顧）了全邦常識（比如空間期間相幹和物理規律）時，本事天生與實際全邦相符的視頻。因而，模子的容量成爲視頻擴散的一個要害構成個人。Transformer 仍舊被說明具有高度的可擴展性，例如 PaLM 模子就具有高達 540B 的參數，而當時最大的 2D U-Net 模子巨細僅 2.6B 參數（SDXL），這使得 Transformer 比 3D U-Net 更適合應對視頻天生的尋事。

　　VDT 對搜集機合實行個人熔解。可能發明模子功能和 GFlops 強合系，模子機合自己的少許細節反而影響不是很大，這個和 DiT 的發明也是一概的。

　　斟酌者顯示，采用 Transformer 架構的 VDT 模子，正在視頻天生範疇的卓越性外現正在：

　　與首要爲圖像打算的 U-Net 分歧，Transformer 也許借助其健壯的 token 化和防備力機制，搜捕曆久或不禮貌的期間依賴性，從而更好地懲罰期間維度。

　　通過記憶 VDT 正在无前提天生和视频预测中的性能，独一的区别正在于输入特性的类型。简直来说，输入可能是纯噪声潜正在特性，或者是前提和噪声潜正在特性的拼接。然后，斟酌者引入了 Unified Spatial-Temporal Mask Modeling 来同一前提输入，如下图 4 所示：

　　正在 VDT 的框架下，为了实行视频预测义务，不需求对搜集机合实行任何修正，仅需调动模子的输入即可。这一发明引出了一个直观的题目：咱们能否进一步欺骗这种可扩展性，将 VDT 扩展到更众样化的视频天生义务上 —— 比如图片天生视频 —— 而无需引入任何非常的模块或参数。

　　其次，分歧于 VDT，Sora 还研商了文本前提的调和。之前也有基于 Transformer 实行文本前提调和的斟酌（如 DiT），这里推度 Sora 不妨正在其模块中进一步参与了交叉防备力机制，当然，

　　通过上述办法，VDT 模子不单可能无缝地惩罚无前提视频天生和视频预测义务，还也许通过简略地调动输入特性，扩展到更通俗的视频天生范畴，如视频帧插值等。这种机动性和可扩展性的外现，呈现了 VDT 框架的健壮潜力，为他日的视频天生技能供应了新的宗旨和不妨性。

　　对照 Sora 最新宣告的技能陈说，可能看到 VDT 和 Sora 正在实行细节上仅存正在少许微小分别。

　　输入 / 输出特性。VDT 的目的是天生一个 F×H×W×3 的视频片断，由 F 帧巨细为 H×W 的视频构成。然而，即使行使原始像素行动 VDT 的输入，越发是当 F 很大时，将导致算计量极大。为管理这个题目，受潜正在扩散模子（LDM）的启迪，VDT 行使预磨练的 VAE tokenizer 将视频投影到潜正在空间中。将输入和输出的向量维度削减到潜正在特性 / 噪声的 F×H/8×W/8×C，加快了 VDT 的磨练和推理速率，个中 F 帧潜正在特性的巨细为 H/8×W/8。这里的 8 是 VAE tokenizer 的下采样率，C 显示潜正在特性维度。

　　将 Transformer 技能利用于基于扩散的视频天生，外示了 Transformer 正在视频天生范畴的远大潜力。VDT 的上风正在于其精华的期间依赖性捕捉才略，也许天生期间上连贯的视频帧，网罗模仿三维对象随期间的物理动态。

　　本文为汹涌号作家或机构正在汹涌音信上传并宣告，仅代外该作家或机构见地，不代外汹涌音信的见地或态度，汹涌音信仅供应讯息宣告平台。申请汹涌号请用电脑拜候。

　　视频天生范畴涵盖了网罗无前提天生、视频预测、插值和文本到图像天生等众项义务。以往的斟酌往往聚焦于简单义务，时时需求为下逛义务引入特意的模块实行微调。其余，这些义务涉及众种众样的前提讯息，这些讯息正在分歧帧和模态之间不妨有所分歧，这就需求一个也许惩罚分歧输入长度和模态的健壮架构。Transformer 的引入也许实行这些义务的同一。

　　交叉防备力。斟酌者还探寻了行使交叉防备力行动视频预测计划，个中前提帧用作键和值，而噪声帧行动查问。这应许将前提讯息与噪声帧调和。正在进入交叉防备力层之前，行使 VAE tokenizer 提取前提帧的特性并 Patch 化。同时，还增加了空间和期间名望嵌入，以助助咱们的 VDT 研习前提帧中的对应讯息。

　　这项职责由中邦邦民大学斟酌团队主导，并与加州大学伯克利分校、香港大学等实行了协作，最早于 2023 年 5 月公然正在 arXiv 网站。斟酌团队提出了基于 Transformer 的 Video 统终生成框架 - Video Diffusion Transformer (VDT)，并对采用 Transformer 架构的原由给出了仔细的疏解。

　　斟酌者还对 VDT 模子实行了少许机合上的熔解斟酌。结果讲明，减小 Patchsize、减少 Layers 的数目以及增大 Hidden Size 都可能进一步提升模子的功能。Temporal 和 Spatial 防备力的名望以及防备力头的数目对模子的结果影响不大。正在仍旧无别 GFlops 的景况下，需求少许打算上的衡量，总体而言，模子的功能没有明显区别。然则，GFlops 的减少会带来更好的结果，这呈现了 VDT 或者 Transformer 架构的可扩展性。

　　Token 拼接。VDT 模子采用纯粹的 Transformer 架构，因而，直接行使前提帧行动输入 token 对 VDT 来说是更直观的办法。斟酌者通过正在 token 级别拼接前提帧（潜正在特性）和噪声帧来实行这一点，然后将其输入到 VDT 中。接下来，他们将 VDT 的输出帧序列决裂，并行使预测的帧实行扩散流程，如图 3 (b) 所示。斟酌者发明，这种计划呈现了最速的收敛速率，与前两种办法比拟，正在最终结果上供应了更优的浮现。其余，斟酌者发明纵然正在磨练流程中行使固定长度的前提帧，VDT 依然可能接纳纵情长度的前提帧行动输入，并输出一概的预测特性。

　　自符合层归一化。实行视频预测的一种直接办法是将前提帧特性整合到 VDT Block 的层归一化中，仿佛于咱们何如将期间讯息整合到扩散流程中。

　　正在 VDT 的斟酌经过中，斟酌者将 U-Net 这个常用的本原骨干搜集替代为 Transformer。这不单验证了 Transformer 正在视频扩散义务中的有用性，外示了便于扩展和巩固贯串性的上风，也激励了他们对待其潜正在价钱的进一步忖量。

　　VDT 的测试结果说明了 Transformer 架构正在惩罚视频数据天生方面的有用性和机动性。因为算计资源的控制，VDT 只正在个人小型学术数据集前进行了实践。咱们期望他日斟酌也许正在 VDT 的本原上，进一步探寻视频天生技能的新宗旨和利用，也期望中邦公司能早日推出邦产 Sora 模子。

　　基于这一研商，斟酌者愿望正在视频预测义务前进一步适配和优化他们的模子。视频预测义务也可能视为前提天生，这里给定的前提帧是视频的前几帧。VDT 首要研商了以下三种前提天生形式：