联华线上 生成式AI+视频行业深度报告:AI+视频的星辰大海远不止于创意视频的生成

发布日期:2024-08-25 04:31    点击次数:163

联华线上 生成式AI+视频行业深度报告:AI+视频的星辰大海远不止于创意视频的生成

(精选报告来源:幻影视界)联华线上

站在当下,本报告《生成式AI+视频行业深度报告:AI+视频的星辰大海远不止于创意视频的生成》研究AI+视频的意义:技术和产品迭代升级较快导 致目前市场大多数报告无时效性,且往往缺少对产品的实际测试以及 对相同提示词的比较分析,而 AI 视频生成正成为当前 AI 产业发展的 关键节点。

视频杂糅了文本、语音、图像等多维度内容,其训练的难点 也往往在于视频数据对数量和质量的不足、算法架构需要优化、物理 规律性较差等等,但随着 AI+视频的技术和产品升级迭代,众多行业有 望受益,诸如电影、广告、视频剪辑、视频流媒体平台、UGC 创作平 台、短视频综合平台等,而目前正处在 AI+视频发展的关键性时刻。

一、目前海外市场主流的生成式 AI+视频参与者

AI+视频发展以来,技术路径和迭代产品冗杂繁多、功能不一、效果差异,我们选取目前海内外市场主要的生成 式视频的参与者:Luma AI(Dream Machine)、Runway (Gen 1-2 & Gen-3 Alpha)、Pika、Sora,集中梳理 了其融资历程、产品迭代、核心功能、实测效果比较等多方面,经个别提示词生成视频效果测试,在 Sora 未公 开实测情况下,我们认为 Runway Gen-3 Alpha 的视频生成效果,如质量分辨率、生成速度、物体符合物理规律、 提示词理解、视频时长等诸多维度上表现均较为优秀。

二、目前国内市场主流的生成式 AI+视频参与者

快手—可灵AI(Diffusion Transformer 架构)

快手的大模型能力涵盖了包括大语言模型、文生图大模型、视频生成大模型、音频大模型、多模态大模型等核心 技术方向,并基于快手丰富的业务场景,将生成式 AI 与多模态内容理解、短视频 /直播创作、社交互动、商业 化 AIGC、创新应用等业务形态深度结合。可灵大模型的更新迭代速度较快,当视频生成效果接近图形渲染和视 频拍摄时,有望对游戏、动画、泛视频行业带来新的机遇,有望促进视频平台生态繁荣。

美图 MiracleVision4.0 AI 视频

2023 年 12 月,美图公司发布自研 AI 视觉大模型 MiracleVision 4.0 版本,主打 AI 设计与 AI 视频。新增了文生视频、图生视频、视频运镜、视频生视频四大能力。目前,MiracleVision 的 AI 视频能力已能融入行业工作流, 尤其是电商和广告行业。MiracleVision4.0 于 2024 年 1 月陆续上线至美图旗下产品。目前生成一次视频需要消 耗 10 美豆,实际测验下来看,其对提示词的理解、物体的像素质量、物理规律、动作的自然效果,尤其是对人 物和物体的细节处理上较为优秀,例如动物的毛发帧数。图生视频功能:让图片也动起来。从景深变化到细节动 作捕捉,MiracleVision 可以轻松生成。非常的自然流畅。图生视频的基础上,MiracleVision 支持视频运镜。提 供了推、拉、摇、移等八种电影级运镜模式,让用户能够轻松模拟专业的镜头运动。后续有望更新视频生视频功 能,导入一段视频,再加上不同的提示词,就能获得卡通、科幻、像素风,羊毛毡等不同的艺术风格。

PixVerse 爱诗科技

爱诗科技 Alsphere 成立于 2023 年 4 月,海外版产品 PixVerse 于 2024 年 1 月正式上线,目前已是全球用户量 较大的国产 AI 视频生成产品,上线 88 天,PixVerse 视频生成量已达一千万次。公司早期完成数千万人民币天 使轮融资,2024 年 3 月公司完成亿级人民币 A1 轮融资,国内一线投资机构达晨财智领投。创始人王长虎博士 深耕计算机视觉与人工智能领域 20 年,带领字节跳动视觉技术团队在巨量规模的用户数据下,解决了多个视觉 领域的世界级难题,并从 0 到 1 参与抖音与 Tik Tok 等国民级视觉产品的建设和发展,公司团队成员来自清华、 北大、中科院等顶级学府,曾任职于字节、微软亚洲研究院、快手、腾讯的核心技术团队。基于 “数据、算法和 工程” 三大要素,解决“准确性”和“一致性”,用更少资源取得更优效果。公司致力于通过——“融合内容理解与生 成;融合文字、图片、视频等多模态”的双融合技术路径,搭建世界一流的 AIGC 视觉多模态大模型。

即梦 Dreamina(字节剪映)

2024 年 5 月,字节剪映旗下针对 AI 创作产品 Dreamina 正式更名为中文“即梦”,AI 作图和 AI 视频生成功能 已经上线,用户可输入文案或者图片,即可得到视频动态效果连贯性强、流畅自然的视频片段。创新打造首帧照 片和尾帧照片输入方式,增强视频生成的可控性,支持中文提示词创作,把握语义。2024 年 6 月 17 日,上海国 际电影节期间,由抖音、博纳影业 AIGMS 制作中心联合出品的 AIGC 科幻短剧集《三星堆:未来启示录》亮相 “博纳 25 周年'向新而生'发布会”。即梦 AI 作为《三星堆:未来启示录》首席 AI 技术支持方,借助包括 AIGC 剧 本创作、概念及分镜设计、图像到视频转换、视频编辑和媒体内容增强等十种 AIGC 技术,重新为古老 IP 注入 新故事、开发新内容。

在产品使用界面,即梦添加了更多用户可控的细节功能,例如运镜控制的种类中,可自行 选择移动方向、摇镜方向、旋转角度、变焦程度、幅度大小等,省去用户提示词中复杂的表述;用户还可自行选 择运动速度、标准/流畅模式、生成时长和视频比例等,UI 界面更容易被用户接受,简单易行。

清华 Vidu

2024 年 4 月 27 日,在中关村论坛未来人工智能先锋论坛上,生数科技联合清华大学发布了具有“长时长、高一 致性、高动态性”性能标签的视频大模型 Vidu,可根据文本描述直接生成长达 16 秒、分辨率达 1080P 的高清视 频内容。“高一致性”是团队强调的重点方向。当前国内视频大模型的生成视频时长大多为 4 秒左右,Vidu 则 可实现一次性生成 16 秒的视频时长。同时,视频画面能保持连贯流畅,随着镜头移动,人物和场景在时间、空 间中能保持高一致性。在动态性方面,Vidu 的动态镜头在推、拉、移之外,开始涉及一段画面中远景、近景、中 景、特写等镜头的切换,以及直接生成长镜头、追焦和转场效果。技术路线上,Vidu 采用的是自研 U-ViT 架构, 与 Sora 一样是 Diffusion 和 Transformer 的融合架构。这种架构不采用插帧的多步骤处理方式来生成视频,而是通过单一步骤“端到端”直接生成内容,从文本到视频的转换是直接、连续的。

七火山科技 Etna

2024 年 1 月 16 日,超讯通信与七火山 Seven Volcanoes 签署投资合作协议。自 2023 年成立以来,Seven Volcanoes 一直致力于机器学习算法和深度神经网络技术的研究。2024 年 3 月 7 日,七火山 Etna 模型正式发 布,Etna 模型采用最新的神经网络架构,融合了 Transformer 模型的强大语义理解能力,以及 Diffusion 模型的 高效内容生成策略,旨在通过高度精确的文本到视频转换,目前暂未对外开放功能测试。

三、从 AI 生成到 AI 工作流,一站式视频生成+剪辑+故事创作有望成核心方向

一站式 AI 视频生成&剪辑&UGC 创作有望解决市场一直在质疑的“AI+视频没有实质作用问题”。 随着生成式 AI 自身大模型技术的迭代、算法的优化、视频数据质量和数量的提升,生成式 AI+视频的发展、竞 争正逐渐激烈化。我们认为,在 AI 视频生成领域,底层技术迭代是行业持续发展的前提,但在迭代技术的同时, 我们需要深入思考下,后续技术应用的方向、衍生出哪些商业模式、什么类型的公司会最终受益于生成式 AI+视 频的技术红利。

目前,AI+视频大概率用于创意设计、创意生成,直接用于 ToB 商业化较少。追溯原因,我们发现目前主流 AI 视频工具还处在视频生成竞争的阶段,且大多数为单一功能产品。在视频生成之后,诸如准确的 提示词生成、修改视频片段、添加字幕、脚本生成、转场衔接、背景音乐添加等众多细节功能暂未集成,因此现 今阶段还需要多种不同的视频创作工具串联使用才能达到直接输出可商业化视频的效果,环节繁琐、多工具之 间的格式也可能存在不兼容的可能性,给用户带来使用上的不便。

因此我们认为,后续需要持续关注能够一站式 提供视频生成+编辑等功能的企业,了解用户痛点,打磨产品细节,才能真正将技术用于生产工作、娱乐等众多 环节,带来商业化变现的潜在空间。目前我们可以看到,除了主流公司例如 Sora、Luma AI、Pika、Runway 在 积极迭代视频生成能力之外,有一些企业如 Adobe、Heygen、Capitions.AI、OpusClip、快手可灵、字节剪映等 诸多工具已经在尝试在 AI 视频剪辑方向发力。

幻影视界整理报告原文节选如下:

本文仅供参考,不代表我们的任何投资建议。幻影视界整理分享的资料仅推荐阅读,用户获取的资料仅供个人学习联华线上,如需使用请参阅报告原文。

提示词模型Pika视频Sora发布于:广东省声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。