AI视频进入有声时代！谷歌发布视频生成音频技术效果惊艳网友！-饽饽网

Runway前脚刚发布Gen-3 Alpha，Google后脚就跟了个王炸。

北京时间6月18日凌晨，Google Deepmind发布了视频生成音频（Video-to-Audio，V2A）技术的进展，可以为视频创建戏剧性的背景音乐，逼真的音效，甚至是人物之间的对话。

V2A技术支持为AI生成视频“配乐”，Google还特别强调了官网发布的Demo视频都是由自家在五月份发布的生成视频模型“Veo”和V2A技术合作打造。

有不少网友表示，这下终于可以给用Luma生成的meme视频配上声音了！

从Google Deepmind官网发布的Blog上看，V2A技术会采用视频像素和文本提示来生成与底层视频同步的音频波形。

首先，V2A会对视频和文本提示进行编码，并通过扩散模型迭代运行，将随机噪声细化为与视频和所提供的文本提示相匹配的真实音频，最后再对音频进行解码并与视频数据相结合。

X网友纷纷表示太赞了，但就是有一个小小小小的问题，和同样是凌晨发布的Runway的视频生成模型Gen-3 Alpha一样，这

又是一个大家都用不上的超赞模型，到底啥时候开源让咱们试试水！

AI视频进入有声时代！谷歌发布视频生成音频技术，效果惊艳网友！