谷歌Veo 3虽惊艳，但技术商业化之路仍需纠偏首宏新闻网

AI视频生成领域看似迎来了新纪元，谷歌Veo 3上线，号称能一句话生成带BGM、对白、环境音的完整影片，社交平台上也涌现出大量‘尝鲜’视频。然而，这背后真的如表面那般美好吗？

谷歌于周二推出了Veo 3，一款具备音视频生成能力的AI工具，能生成视频并同步加入音效。这本是技术进步的体现，但却存在着诸多问题。

它被视为OpenAI Sora的直接竞品，其宣传的亮点是‘能够将音频元素与视频内容无缝整合’，还称可以生成包括角色对白和动物声音在内的音频内容。可我们不禁要问，这种整合真的做到了尽善尽美吗？

谷歌DeepMind产品副总裁伊莱·柯林斯（Eli Collins）周二在一篇博客中夸夸其谈，称Veo 3在文本和图像提示、现实物理效果以及精准唇形同步方面表现出色。可实际情况可能并非如此。

即便宣传得再好，在实际应用中，Veo 3可能还存在着许多尚未解决的问题，比如音画同步的精准度在复杂场景下是否真的能达到理想状态。

谷歌宣称Veo 3实现音画同步生成功能，标志着AI视频生成技术的重大突破。它能根据提示词生成高质量视频，同时自动生成与画面同步的对白、唇动对齐、拟真环境音效以及情绪氛围音轨。其底层技术V2A（Video - to - Audio）通过将视频像素转化为语义信号，结合文本提示生成同步音频波形，从而实现音画同步。但这种技术在实际应用中，真的能满足所有用户的需求吗？

所谓Veo 3的音画同步功能基于对物理世界的深刻理解，能够实时生成与画面匹配的声音，例如脚步声、烹饪声等，而不是后期拼接。然而，在一些复杂的场景中，其生成的声音可能与画面并不完全匹配，只是表面上的‘同步’。而且，它虽然能精准捕捉画面情绪，渲染氛围音效，在多角色、多种风格的复杂场景下表现也宣称出色，但实际上可能会出现音效混乱、逻辑不连贯的情况。在长提示词理解与事件流生成方面，它也不一定能真正处理好复杂的事件流，生成的视频片段可能存在逻辑漏洞。

更让人难以接受的是其商业化策略。这款音视频AI工具从周二起向美国用户开放，订阅者需加入谷歌新推出的Ultra订阅计划，月费为249.99美元，主要面向深度AI爱好者。如此高昂的费用，将大量普通用户拒之门外，这与技术应该普惠大众的理念背道而驰。同时，Veo 3也将在谷歌的企业级AI平台Vertex AI上向用户开放，这似乎更倾向于企业客户，而忽视了广大个人创作者的需求。

目前，X社交平台上已经涌现大量用户‘尝鲜’的视频。比如，镜头跟随一只腊肠犬穿过客厅，跑出敞开的前门，来到门廊。它站在顶层楼梯上，俯瞰着周围的景色，这时一辆冰淇淋车驶过。视频中伴随小狗冲出门口的脚步声、冰淇淋车驶过的声音。但这些视频可能只是在简单场景下的展示，并不能代表Veo 3在复杂场景下的真实表现。

在X用户分享的另一个Veo3生成的视频中，一匹马走进酒吧，视频伴随马蹄声、马叫声以及酒保说话的声音。同样，这也只是个例，不能掩盖Veo 3可能存在的问题。

这个新产品的推出正值生成式AI在图像和视频创作领域的应用日益普及。OpenAI首席执行官奥特曼曾透露，其旗下ChatGPT 4o的图像生成功能因过度受欢迎，甚至一度令计算芯片过热，公司不得不暂时限制该功能使用。这说明市场对这类技术有着巨大的需求，但谷歌Veo 3却以高昂的价格限制了技术的普及，这是需要纠正的错误。

此外，谷歌还宣布对Veo 2进行更新，新增支持通过文字提示对视频中物体进行增删的功能。同时，谷歌开放了其AI音乐生成模型Lyria 2，供YouTube Shorts创作者及Vertex AI企业客户使用。这一系列举措看似丰富了产品线，但却没有真正考虑到如何让更多普通用户受益。谷歌应该反思其技术商业化的策略，以更加普惠的方式推动AI技术的发展，而不是将技术变成少数人的专属。

谷歌Veo 3虽惊艳，但技术商业化之路仍需纠偏

相关文章

发布评论取消回复

谷歌Veo 3虽惊艳，但技术商业化之路仍需纠偏

相关文章

发布评论 取消回复

发布评论取消回复