文|财新周刊 关聪
似乎在一夜之间,人工智能(AI)推动视频生成技术又出现里程碑时刻。一条在社交媒体X上观看量超过240万的AI视频中,每个场景里的角色都兴奋地喊着:“我们能说话了!”
让它们开口讲话的是谷歌在5月20日发布的全新AI视频模型Veo 3,其最大特点就是能在视频中融合音频,直接生成说话流畅、口型自然的人物,且自带符合场景特征的音效。在此之前,AI视频一直是“默片时代”,需要后期配音,再借助专门工具让角色嘴唇动作看起来合理。
中国公司方面,5月中旬,字节跳动的AI视频生成App“即梦”加大投放,在国内苹果应用商店排行榜上一度位居免费App下载量榜首,超越该公司力推的另两款App豆包和红果短剧。4月,快手(01024.HK)的同类应用“可灵”AI模型升级至2.0版本。“五一”假期前,快手专设可灵AI事业部,部门负责人直接向快手CEO程一笑汇报。