在AI视频生成领域,Google的Veo3.1和OpenAI的Sora2成为了两大热门模型。两者都致力于生成高质量的音画同步视频,但各有优势。本文通过一系列详细的测试,对比了这两个模型在不同场景下的表现。
你好,我是袋鼠帝。
前两天,Google发布了他们最新的视频模型Veo3.1。
我感觉,这就是冲着前段时间OpenAI刚刚发布的S2来的,想狙击S2,扳回一城。
毕竟,在S2出来之前,Veo3基本上就是音画同步领域的AI视频生成老大哥。
但离谱的是,当天我还没来得及去研究怎么申请Google Veo3.1的内测,就发现,lovart.ai,居然在Google官方都还没有正式发布之前,就已经把Veo3.1给接入了。
这速度,有点超前了。
然后我的AI视频交流群里,这两天大家都玩嗨了。
各种用S2和Veo3.1做的有趣视频满天飞,脑洞大到我自愧不如。不得不说,在AI时代,工具只是门槛,想象力才是生产力啊。
不得不说,Lovart最近的更新,实在是有点猛。
从之前的NanoBanana、Seedream4.0,再到S2,几乎每一次有新的视觉创作类模型发布,Lovart都是第一时间同步上线,甚至超前上线,每次都还带有各种免费活动。
这次的Veo3.1也不例外,而且还挺有诚意
10月20号前可以免费体验Veo3.1(不过次数有限)
然后10月23号前订Basic或以上的年费,可以在一个月内无限使用Veo3.1和S2
之前订了Basic年费,这个月可以随便用S2和Veo3.1
我是因为做AI博主,还挺需要这样一个一站式设计类Agent平台的,不用来回切换
各平台,甚至一些新模型还可以早于官方抢先体验,对我来说是值得的。
生图、生视频成本就比较高,所以也不算便宜,根据自己的需求来选择。
正好,我也特别想知道,Veo3.1效果怎么样,以及这两个新出的原生音画同步AI视频模型(S2和Veo3.1),到底孰强孰弱。
虽然目前已经有一些博主写了测评对比(貌似大多数朋友觉得S2更强),但是作为一个善于独立思考的成年人,我更愿意自己实践之后得出答案。
另外,Lovart这个平台,生成的视频,清晰度高,也没有水印。
这也是我看重的点
好了,话不多说,直接开整。
Sora2 vs Veo3.1为了让这场对决公平,同时足够有挑战性,我设计了几个不同维度的场景,并且会用完全相同的Prompt,来测试它们。
>/ 1.海上低空飞行,谁的物理学得更好?这是最能考验模型对物理世界、空间感和运镜逻辑理解的场景。
Prompt:An ultra-low angle, wide, mid-close-up tracking shot. The camera glides smoothly and rapidly just inches above the ground, creating a strong sense of speed and perspective depth with dynamic motion blur. Dominating the frame is the back of a girl with blond long hair wearing a yellow raincoat and boots. Their body is stretched out horizontally, parallel to the ground, as if super-human-flying or suspended in the air. She are gliding low and smoothly forward, casting a clear, sharp shadow directly below. The background is a vast, beautiful ocean with crashing waves and misty horizon. The sky above is a vibrant blue, filled with large, fluffy white clouds. The overall image is hyper-realistic and captures a sense of exhilarating, dream-like motion
这是Veo3.1生成的视频下面是S2的表现
说实话,这一轮两个模型生成的效果,都挺棒的。
Veo3.1的光影会动态变化,而且撞到海浪之后的反应非常真实,音效也很棒。
S2的飞得太快了,有点像一颗导弹,不过整体还算真实,特别是浪花打到镜头,镜头会摇晃,还会模糊。
这一轮我感觉,差不多,硬要我选的话,我应该会选Veo3.1生成的,画面声音都更统一和自然。
你选哪个呢?
>/ 2.创意开箱视频先来看一个城市开箱视频
灵感来自海外博主@AltSociety AI
这个视频考验的是模型对宏大城市场景的构建能力,以及在视觉上的冲击力
Prompt:
base_style: “cinematic, photorealistic, 4K”
aspect_ratio: “16:9”
city_description: “A vast, empty urban plaza at dawn, ground level view with concrete pavement stretching into the mist.”
camera_setup: “A single, fixed, wide-angle shot. The camera holds its position for the entire 8-second duration.”
key_elements: – “A sealed steel shipping container stamped with ‘SHANGHAI’ in bold letters”
assembled_elements:
– “Iconic Shanghai skyscrapers (e.g., Oriental Pearl TV Tower, Shanghai Tower, Jin Mao Tower)”
– “The historic Bund architectural complex extending into frame”
– “Rows of white taxi cabs (or ride-hailing cars) lined up along a street”
– “Classic street lamps and traffic lights”
– “Subway entrance staircase with Shanghai Metro sign”
– “Silhouette of the Oriental Pearl TV Tower’s spheres”
– “Traditional pavilions and structures of Yu Garden emerging in the background”
– “Water towers perched on rooftop structures (characteristic of old Shanghai)”
– “Billboard frames and neon signs”
– “Street food stalls and bustling crowds”
negative_prompts: [“no text overlays”, “no overt graphics”]
timeline:
sequence: 1 timestamp: “00:00-00:01”
action: “In the center of the barren plaza sits the sealed SHANGHAI container. It begins to tremble as light fog swirls around it.”
audio: “Deep, resonant rumble echoing across empty concrete.”
sequence: 2 timestamp: “00:01-00:02”
action: “The container’s steel doors burst open outward, releasing a spray of mist and loose rivets.”
audio: “Sharp metallic clang, followed by hissing steam.”
sequence: 3 timestamp: “00:02-00:06”
action: “Hyper-lapse: From the fixed vantage, city elements rocket out of the container and lock into place—steel beams rise, glass facades snap on, bridges span into view, and white taxis line up automatically.”
audio: “A rapid sequence of ASMR city-building sounds: metal clanks, glass sliding, cables snapping, engines revving softly.”
sequence: 4 timestamp: “00:06-00:08”
action: “The final element—a single white taxi—glides forward and parks beside the newfound curb. All motion freezes as morning light bathes the fully formed Shanghai cityscape.”
audio: “A soft engine cut-off ‘chug,’ then the distant hum of awakening city traffic, fading into serene dawn silence.”
Veo3.1是细节狂魔。它生成的画面非常震撼,一个爆炸之后,镜头由近及远,万丈高楼拔地起,音效也很到位,相当nice~
而S2,这次的发挥就有点差强人意了,没有Veo3.1给的画面冲击力强,音效也稍差一点点,镜头也没有移动。这把我选Veo3.1。再来看一个,热带雨林开箱视频(是json格式的Prompt,来自海外博主@proper)
Prompt:
{
“description”: “Cinematic shot of a plain, white-walled room with no furniture. A sealed cardboard box labeled ‘example’ sits at the center. The box begins to tremble, then bursts open rapidly with energy releasing the jungle. From inside, many jungle elements spread quickly taking over the room, emerging: vines stretch across the floor and curl up the walls, tropical plants sprout rapidly, and moss spreads. The sterile room is now overtaken by vibrant, untamed jungle growth, yet small parts of the walls and ceiling remain visible. A tiger walks into the scene and looks around and lays down.”,
“style”: “cinematic”,
“camera”: “fixed wide angle”,
“lighting”: “soft neutral indoor light”,
“room”: “empty white room”,
“elements”: [
“cardboard box with ‘example'”,
“vines decorating walls”,
“ferns and large leaves”,
“moss growing along the floor edges”,
“small monkey hanging from vine”,
“jungle plants sprouting from corners”
],
“motion”: “box opens slowly, jungle elements animate out naturally and decorate the room over time”,
“ending”: “the white room remains visible but is now wildly decorated with lush jungle life”,
“text”: “none”,
“keywords”: [
“16:9”,
“jungle interior”,
“box reveal”,
“no text”,
“natural elements”
]
}
由于一篇文章上传的视频有限制(限制10条视频),所以我把Veo3.1和S2生成的两个视频合并了说实话,这种带有创意,画面冲击力的视频还是Veo3.1做得更胜一筹
>/ 3:图生视频,测试一致性和真实感接下来,我们上点难度,玩个多步骤的。
先图生图,再图生视频,考验一下模型的二次创作和主体一致性能力。
Lovart已经集成了全系列生图模型(包含NanoBanana,seedream4.0等),用来做视频分镜、风格参考、视觉铺陈都超方便
我先找了一张人物的照片,然后让她穿上一套我指定的衣服,再去逛街。
第一步Prompt(图生图): 使用seedream4.0模型,让图一模特穿上图二的所有装扮,走在街上,高质量iPhone图片,写实风格
第二步Prompt(图生视频):
分别使用veo3.1和Saro2模型,让图中的人物带着耳机在街上漫步,背景是人群和有趣的商店。氛围: 快乐、无忧无虑、充满自信。
不过画布方式生成的视频,有个小问题:没有标注来源(也就是我不知道这两个视频,哪个是Veo3.1生成的,哪个是S2生成的。。。)
留给大家来破案
>/ 4:第一人称视角互动这个视频考验的是模型对镜头的理解,以及与镜头互动的能力。
女人带着耳机在一个充满活力的城市街头或步行街上,背景是人群和有趣的商店。她正拿着相机拍摄一段第一人称视角的自拍视频,她对着镜头开心地微笑,随着音乐跳舞,并比出V字手势。 视频的风格和镜头要求: 视频风格: 潮流、现代、充满活力,具有复古胶片质感。 画质: 高清,色彩饱和度高,天空和背景可以有轻微的梦幻或艺术化色彩。 镜头: 手持自拍视角(POV),镜头有自然的晃动感,中景镜头,聚焦于人物的面部表情和上半身动作。 氛围: 快乐、无忧无虑、充满自信。
这个场景,S2可以说是完胜。
Veo3.1生成的人物,虽然动作也很丰富,但是总感觉一眼假,不够真实。
而S2生成的人物,她的眼神是活的。你能清楚地感觉到,她是在看着你,在跟你交流,非常真实。
她眨眼睛,笑容,都充满了互动感。
>/ 5.生成ASMR视频ASMR 是自发性知觉经络反应的英文缩写,通过特定感官刺激引发的一种愉悦、放松的身体感受,表现为头皮、后颈或背部的酥麻感,并可能伴随平静、困倦的情绪。
ASMR视频的Prompt可以让AI帮忙生成。
用S2和Veo3.1一共生成了6个ASMR的视频(各3个),组合成了一个长视频,希望能帮助你放松一刻,缓解疲劳~
不得不说,我觉得ASMR这块,还得是Veo3.1,毕竟这是它的老本行,而且从这个视频来看,我发现Sora老是喜欢加一些背景音乐。生成的音效,总体上来说是没有Veo3.1精准的。
>/ 6.从分镜到动漫最后,我们来看一下在Lovart平台上的动漫玩法。
可以先用AI生成分镜Prompt
然后通过Prompt,用Seedream4.0生成几张分镜脚本的小漫画,最后用Veo3.1、S2图生视频,把生成的视频串成一个动漫短片Demo。
这个过程其实还是需要抽卡的,但是Lovart有个好处是可以批量生成,每个分镜可以批量生成一批最后选择其中效果最好的,节省抽卡时间。
最终把多个连贯分镜的视频导入剪映,做出来的demo如下
两个模型在这个任务上,都表现得还不错。
它们都能理解分镜之间的逻辑关系,生成连贯的动画。
但是我发现S2生成的视频,人物说话更自然,甚至自带字幕…
Veo3.1的视频,人物说话有点奇怪,不过Veo3.1的优点是场景中各种音效非常贴合,比如叹气、衣服碰到的摩擦声等等。
「最后」经过多轮体验,我对S2和Veo3.1的感受,越来越清晰。
我觉得它们之间,没有绝对的孰强孰弱,只不过有各自擅长的领域,也有各自的缺点。
S2,在人物生成上更稳定,生成的视频更加真实,在语音上(不管是讲中文,还是英语效果都很棒)。
Veo3.1,则在各种视觉冲击和场景音效上更甚一筹。
所以我觉得,都可以用,不过是分场景和需求,甚至可以混搭着用。
像S2、Veo3.1、NanoBanana、seedream4.0等等
这些顶级的AI模型,就像是A5和牛,蓝鳍金枪鱼等各种各样的顶级食材。
lovart.ai像是一个米其林星级的厨房。不仅备齐了几乎所有顶级食材,还为你准备好了最锋利的刀具,和能让你自由挥洒创意的巨大操作台。
它把模型的原始能力,产品化成了我们普通人也能轻松上手,并且能玩出花样的友好体验。
平台的竞争,最终,一定是工作流的竞争,是体验、是生态的竞争。
Lovart,在这条路上,走的不错。
能看到这里的都是凤毛麟角的存在!
本文由人人都是产品经理作者【null】,:【袋鼠帝AI客栈】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
转载请注明来自Sjyct,本文标题:《thebox游戏攻略23(深度实测Sora2 VS Veo31后)》
还没有评论,来说两句吧...