手机浏览器扫描二维码访问
以前的视频生成模型在运动质量方面表现都不太好,生成的视频里人物或者物体的运动总是怪怪的,看起来很不真实。Skyreels V2为了解决这个问题,采用了一种运动质量偏好优化技术。
它通过强化学习训练框架,就像是给模型请了一个严格的体育教练,让它不断地学习和改进。同时,为了让模型学习到更真实、更合理的运动数据,团队还使用了人工标注和合成失真数据。比如说,他们会把一些运动不合理、动态扭曲的视频找出来,然后人工标注出问题所在,再用这些数据来训练模型,让它知道什么样的运动是好的,什么样的是不好的。
为了降低数据标注的成本,团队还设计了一个很巧妙的半自动数据收集管道。这个管道就像是一个高效的数据收集工厂,能够快速地生成偏好对比数据对。它主要通过三种方式来生成数据:I2V Distortion,就是基于图像到视频生成的失真数据;T2V Distortion,基于文本到视频生成的失真数据;还有人工标注修正,就是让专业人员对一些关键的运动序列进行标注。通过这些数据训练奖励模型并进行直接偏好优化,Skyreels V2在运动动态性、流畅性和物理合理性方面都表现得非常出色,生成的运动内容就像我们在现实生活中看到的一样自然流畅。在一些生成的动作视频中,人物的奔跑、跳跃等动作非常自然,和真实拍摄的几乎没有区别。
3. 扩散强迫(Diffusion-forcing)框架
Skyreels V2能实现长视频生成,最关键的技术就是它的扩散强迫框架。这个框架就像是一个神奇的魔法棒,让视频生成变得又快又好。
和传统的视频生成方法不同,Skyreels V2不是从零开始训练扩散强迫模型,而是通过微调预训练的扩散模型,把它转化为扩散强迫模型。这就好比你已经有了一个半成品的房子,你只需要在这个基础上进行一些装修和改造,就能让它变成你想要的样子,这样不仅节省了大量的时间和精力,还能提高生成效率。
为了实现长视频的高效生成,团队还采用了一种非递减噪声时间表。这个时间表就像是一个精密的时钟,它把连续帧的去噪时间表搜索空间从非常大的O(1e48)大幅降低到O(1e32)。这样一来,模型就能更快速、更准确地生成长视频内容,而且还能保证视频在时间上的连贯性和稳定性。它的工作原理是为每个帧分配独立的噪声水平,然后通过精心设计的噪声调度策略,确保视频序列在生成过程中不会出现错误累积的问题。比如说,它会在前一帧添加轻微的噪声,让生成过程更加稳定,就像在跑步的时候,每一步都迈得很稳,这样就能跑得更远、更久。在实际生成视频时,即使是生成几分钟的长视频,也不会出现画面卡顿、情节不连贯的情况。
(二)创新的训练策略
1. 丰富的数据来源
Skyreels V2之所以这么厉害,离不开它丰富的数据来源。就像一个人要想变得聪明,就得读很多书、学习很多知识一样,模型要想表现出色,也得有大量的数据来训练。
Skyreels V2的训练数据主要来自三个方面:通用数据集,这里面整合了很多高质量的开源资源,像Koala-36M、HumanVid,还有从互联网上爬取的其他视频资源,这些数据就像是一本本百科全书,涵盖了各种各样的场景和动作,为模型提供了广泛的基础视频素材;自收集媒体,这可是一个超级大的影视资源库,里面有280,000多部电影和800,000多集电视剧,覆盖了120多个国家,总时长超过620万小时,这些丰富的影视内容让模型学习到了各种电影风格和叙事结构;艺术资源库,这里面的视频都是从互联网上精选出来的高质量视频资产,它们的视觉质量都达到了专业标准,就像一个个艺术珍品,让模型能够生成高质量的视频内容。通过这些丰富的数据训练,Skyreels V2对各种场景和风格都有了深刻的理解,能够生成出更加多样化和高质量的视频。
2. 渐进式分辨率预训练与多阶段后训练优化
本小章还未完,请点击下一页继续阅读后面精彩内容!
Skyreels V2的训练过程就像是一场精心策划的马拉松比赛,分为好几个阶段,每个阶段都有不同的目标和任务。
首先是渐进式分辨率预训练,这就像是马拉松比赛的热身阶段。模型会从低分辨率的视频数据开始训练,逐渐提高分辨率,这样可以让模型更好地学习视频的基本特征和规律,就像运动员在热身的时候,先慢慢地活动身体,适应运动的节奏。从低分辨率开始训练,模型可以先掌握视频的大致结构和基本元素,随着分辨率的提高,再逐渐学习到更精细的细节。
然后是四阶段的后训练增强:
- 初始概念平衡的监督微调(SFT):这个阶段就像是给模型打基础,通过概念平衡的数据集进行微调,让模型对各种概念有更准确的理解,为后续的优化提供一个良好的初始化。比如让模型对各种物体、场景、动作等概念有清晰的认知,这样在生成视频时才能更准确地表现出来。
- 运动特定的强化学习(RL)训练:这时候就像是给模型进行专项训练,针对运动质量进行优化,通过偏好优化提升运动动态质量,让模型生成的运动画面更加自然流畅。通过大量的运动数据训练,让模型学会不同动作的正确表现方式,避免出现运动不自然的情况。
- 扩散强迫框架(DF)训练:这是训练的关键阶段,通过这个阶段的训练,模型掌握了长视频生成的核心技术,能够实现高效的长视频生成。模型学会了如何利用扩散强迫框架,合理地安排每一帧的生成,保证长视频的连贯性和稳定性。
诡者,妖魔鬼怪也;异者,神秘诡谲也。这里有食人影子的食影,有以梦杀人的梦魇,有以吓唬小孩为乐的猫儿爷,有乘之可穿梭阴阳的阴马车,有只杀人不救人的杀生佛,有只可死人听不可活人看的诡京剧,有行走于街头巷尾卖人肉馄饨的混沌婆婆,有以寿命为买卖的三生当铺……一本神秘的《诡录》,将苏逸带进了这个光怪陆离、神秘莫测的世界。...
附:【本作品来自互联网,本人不做任何负责】内容版权归作者所有!夏未央(连城VIP手打完结)作者:日月青冥内容简介我知道,你我之间这一切不过是一场交易;可我以为,如果有一天你要做出选择,至少,你一定会选择我。直到你笑着挽起她的手头也不回,我才终于明白,原来从头到尾,不过是我自欺欺人的一厢情愿。可这份对你的爱依旧梗在胸口隐隐作痛...
隆安帝二十七年,少年将军周鹤鸣大挫朔北十二部,得胜回朝,被迫成亲。 对方恰好是他心上人……的亲哥哥。 * 周鹤鸣幼时曾到宁州,机缘巧合,惊鸿一遇,单恋抚南侯郁涟许多年,自然知道对方有个怎样糟糕的兄长。 郁濯此人,在宁州坏名远扬,人人嫌恶。 二人大婚当日,郁濯春风得意,周鹤鸣万念俱灰,唯恐避之不及,郁濯却偏要来招惹他。 周鹤鸣如临大敌,誓要为心上人守身如玉,好歹将对方制服,却听见郁濯饶有兴趣地问: “我究竟哪里不如舍弟?” “你说出来,我定分毫不改。” * 恰逢战事又起,周鹤鸣马不停蹄赶回青州,却先等来了自己的白月光郁涟。 郁涟为公事而来,周鹤鸣知此生无缘,但求尽心护其左右。 护着护着,他发现了不对劲。 自己的白月光,怎么私下里行事作风同他的可恶兄长一模一样? 周鹤鸣如遭雷劈,艰难说服自己接受了白月光性情大变的可能性,对方却出其不意地掉了马。 “怎么了小将军?猜到我即是他、他即是我之后,你就不爱笑了。” 【鬼话连篇·钓系混邪美人受x前期纯情忠犬·后期狼狗攻】 周攻郁受,不拆不逆 可怜的周鹤鸣,被郁濯玩弄于股掌之中。 小剧场: 后来青州城外,绯色蔓延,白鼎山四野自阖为笼,并不许他人窥见半分。周鹤鸣一手环人,一手勒马绳,穿行于猎猎夜风。 郁濯仰头看他,开口时吐息潮热:“怎么好话赖话软话硬话都听不得?云野,是只想听我的真心话么?” 笑意层层染上了他的眼,眼下明晃晃露着颗小痣,像是天真未凿、漫不经心。 ——却分明是蓄谋已久的引诱。 周鹤鸣勒住缰绳,郁濯在突然的变速里微微后仰,露点半节修长脖颈,被一口咬住了喉结,周鹤鸣的声音嘶哑着响在耳边。 “你分明知道,我都会信的。” 【食用指南】 1.架空不考究,私设同性可婚 2.1v1,HE,正文主受,有群像,先婚后爱,24K纯甜文(信我 3.年下,攻为成长型人设 4.文名取自贺铸的词,封面是郁濯 5.不控攻/受,一切为故事本身服务...
——无系统,猥琐流——詹姆斯抱怨道:“我从来没有在超级球队待过。”而陈极会说:“对的,我很幸运,我去的每一支球队都是超级球队,不夺冠就失败的那种。”顺便问詹姆斯哈登一句:“登哥要总冠军戒指吗?”......
(本文有CP,男女主都不是完美人设,成长型,一定程度上自私,男主是莽夫!且配角不会莫名其妙降智,非无脑爽文。)‘道虽险阻,吾心甚坚’江上弦一朝穿越,勤勤恳恳在长安摆摊卖卤羊肉半年攒钱,准备给大唐餐饮业来一波震撼。凭空出现的神秘来信打乱了所有计划。“什么?这玩意儿还有任务?”“直爹贼!老娘就知道!你大爷的穿越还带业绩......
他是权势滔天的帝国总裁,强势霸道,狂妄不可一世。性情高冷禁欲的他,一时兴起将她禁锢在身边,渐渐地护她成了习惯,宠她成了执念,深入骨血的痴恋让她逃无可逃。他说:“我允许你任性,但你必须在我允许的范围内任性。当初你把自己当生日礼物送给我了,这辈子你就是我的!从头到脚都是我的!一根头发丝也是我!”......