正月还未过完,科技界便发生3件大事。
一是英伟达推出Chat With RTX,将每个人的电脑变成本地化系统大模型;
二是谷歌AI推出了Gemni1.5版本,与GPT-4相比,可处理超过100万个token的输入窗口;这两件事似乎与普通人的日常生活还有一定距离。
但第三件事却刷爆了每个人的朋友圈——Sora的发布。它是OpenAI推出的全新生成式人工智能模型。
一、网传世界将被改变
2月16日凌晨,OpenAI发布了重磅更新,推出了首个文生视频模型Sora。用户通过文本指令,可使Sora直接生成长达60秒的视频,包含精细的背景、主体,灵活的多角度镜头,以及多个富有情感色彩的角色。
Sora发布后短短2天内,迅速成为全球互联网热议的焦点,关于其将彻底改变影视业和短视频行业的预测层出不穷。
Sora还没有对公众开放,据《MIT Technology Review》报道,OpenAI目前没有计划向公众发布Sora,能够使用Sora的只有相关程序人员、安全测试人员以及经过OpenAI挑选的少量创作者和艺术家。
除了应对监管与潜在危害的风险,OpenAI的当务之急是将Sora交予视觉艺术家、设计师和电影制作人进行测试。可以看出,这套文生视频模型将优先面向影视相关行业,OpenAI也希望通过专业人员的评估获得相关反馈,以推动模型进步。
此前,生成式AI已逐渐通过利用自动化、个性化和优化技术,重塑了媒体、广告、金融和教育等多个行业的运作方式,提高了生产效率、优化了决策过程。而Sora的诞生意味着AIGC(人工智能生产内容)的时代或许已经来临,Sora这类工具也或许将深远地颠覆未来的内容创作与商业格局。
我们注意到OpenAI已经更新了48个由Sora生成的视频demo,在经过我们反复观看与分析后得出了以下看法:
1. Sora脱颖而出是因为它克服了“物理难题”
相较于同类产品10秒的创作上限,Sora生成视频长达60秒,其生成内容的精细画面已经达到与现实世界难以区分的程度。此外,Sora生成内容的主体与背景环境的一致性更是令人震撼。
但最关键的地方还是在于Sora对于世界模型的掌握。通过学习,Sora能了解现实世界的运行常识与物理规律。而以往的扩散模型只能实现文本与3D模型的普通转换,无法直接嵌入在一个虚拟的物理世界中。
简单来说,以往用文生视频给人的感觉更像是“会动的图片”,其中视频背景与主体之间缺乏动态交互,无法跨越“真实”的门槛。
而以Sora生成的视频「海盗船在咖啡杯中缠斗」为例,其水面流体动力学以及运动规模比例的物理难点都得到解决。
英伟达高级研究科学家 Jim Fan 甚至表示:”Sora 是一个数据驱动的物理引擎“,”是一个可学习的模拟器,或「世界模型」”。
2. Sora的升级速度会快得吓人
Sora这类AIGC工具的能力基于大数据训练,和此前的Chat GPT一样,具有网络效应,这种效应使得其迭代进化的速度异常迅速,且这种速度无法用摩尔定律来准确衡量。
但与Chat GPT不同的是,Sora生成的AI内容对普通人来说更为直观,更容易在大量用户与从业者之中获取反馈。由于短视频是当前世界的主流娱乐方式和信息媒体,其广泛的信息来源和传播渠道为Sora的自我学习和提升提供了有力支持。
虽然早期Sora也出现过对物理的错误理解,如「果汁从杯底洒出」,但这也能表明Sora正在不断地自主探索物理世界,这种通过纠错与学习的升级方式,更符合未来人们对“智能”的理解。
所以Sora对于创作的内容理解将不断升级,综合水平已经大大超越了此前热门的Runway和Pika,随着大数据的不断累积,Sora的发展前景目前看不到尽头。
360创始人周鸿祎表示,一旦Open AI的人工智能把所有的电影、视频都看一遍,这就离AGI真的就不远了,不是10年20年的问题,可能一两年很快就可以实现。
3. 普通人使用Sora的创作质量并不会输于多数专业人士
曾经,拍摄一张照片需要购入昂贵的相机,学习调整各种参数,而冲洗照片则涉及复杂的化学试剂和多个步骤。然而,随着数码相机和智能手机的出现,每个普通人都能随时随地拍摄和观看照片。这使得传统的摄影师的专业性逐渐只能通过构图、采光、个人风格等抽象因素来展现。
如今,Sora也将带来这样的改变。随着其大模型的完善和自我学习能力的增强,Sora能让一个完全没有影视制作和艺术设计经验的普通人直接生成一段符合他描述的视频,而这段视频所带来的效果和科幻大片高成本制作的特效不相上下。
这意味着,未来的网文作者在写作文章的同时,也可能独自完成一部小说改编的玄幻短片。而对于特效制作和虚拟场景搭建的专业人士来说,如果高成本制作的画面最终与草根作者的作品相差无几,这无疑会给他们带来不小的压力。
4. 对于短视频创作者而言,真实的、富有情感的内容价值将无限上升。
短视频创作者应当深入思考的是,在Sora等工具推动AIGC发展的背景下,短视频作为主流的信息获取渠道,其中必将充斥大量由AI生成的内容,而整活、风景、叙事等视频分类更是生成内容的“重灾区”。
并且随着AIGC技术的不断进步,用户已难以辨别内容是否由AI创作,这使得用户和创作者去区分内容真实性的重要性降低。
但不论Sora有多么“理解”世界,也无论其生成的视频内容有多么逼真,它们始终是数字模拟的产物,无法替代真实拍摄所展现的现实。因此,为了在未来避免被生成视频内容的洪流所淹没,短视频创作者如果专注于真实拍摄,并通过深入的情感展现来触动观众,将会取得更好的效果。
二、对Sora的预测
自Sora发布以来,影视行业首先受到了广泛关注。尤其是Sora生成视频的特效最为惊艳,与好莱坞大片相比也毫不逊色。很多人认为Sora能降低影视行业视觉特效的制作成本,从而改变影视行业的制作模式和产业链。
我们团队也迅速将Sora生成的几段视频分享给了影视和摄影行业的从业者。几位视效专家表示,对于写实类的视频,Sora的生成效果并不真实。普通人可能只会觉得有点怪,因为大部分的失真问题都出在光影方面。
对于Sora生成的CG(计算机动画)类小场景视频,他们表示整体上很到位,甚至目前很多相关CG制作公司的作品完全不能与Sora相比。
尽管Sora在生成CG方面表现出色,同时能以极低的成本制作出震撼的60秒视频内容,但一部电影并非由多个60秒的片段简单拼凑而成。
影视行业往往需要制作宏大且连贯的场景,而目前的Sora还无法满足这种需求,此外,Sora生成的内容在细节方面也很难经得起专业的考验。
60s短视频对叙事的要求与长视频电影完全不同,类似的是,AI可以写出一个还不错的段子笑话,但很难写出几十上百万字的优秀小说。
我们认为,尽管Sora有强大的生成与学习能力,但在要求表达大量内容和细节的场景时仍显得力不从心。目前,Sora还无法完全替代人工来接替影视创作的工作。然而,不可否认的是,Sora是一个出色的概念创意工具。尤其是其在小场景视频中的优势,预示着它将对广告行业、创意行业产生深远的影响。
另一个备受关注的领域是视频平台。数据显示,目前国内短视频用户的规模在10亿以上,其中抖音2022年的年收入达到了700亿美金以上,快手也实现了900亿人民币的年收入。
然而,面对这样一个庞大的市场,在Sora发布之前,所有的视频生成工具都未能达到商业化或工业化生产的标准。
与Pika和Runway相比,Sora不仅提供了精美的画质,其视频内容也更为丰富多样,同时视频时长也增加了十多倍。如果用于短视频创作,这将极大提升用户的新鲜感。然而,当众多创作者都选择利用Sora输出内容从而被动“同质化”时,如何确保自己的作品质量出众,这才是使用Sora真正的问题。
AIGC的兴起降低了整活、追热点和段子视频化的门槛,导致单纯依赖生成视频不足以维持创作者的竞争力。目前看来,小说、叙事类自媒体可能更能充分发挥Sora的优势,因为Sora尚无法生成具有独特调性和核心创意的视频。
因此,对于视频平台的内容创作者来说,Sora并不能替代他们自身的创意和灵感,而只能作为辅助工具来提升创作效率和质量。
就Sora目前所生成的视频而言,优秀作品主要集中在动物、远景建筑和幻想场景等领域。这些视频在过去往往需要创作者支付高昂的版权费用以使用。因此,Sora的出现很可能首先颠覆素材版权行业。
Sora的强大生成能力同时伴随着对社会秩序的潜在巨大破坏力,因此,不可避免地会吸引一些居心叵测的人利用其进行诈骗、勒索、诽谤等不法行为。
可以预见的是Sora的正式推出不但要面临自身的迭代优化,还要面临世界多个国家和地区的严格监管,我们认为短期内OpenAI并不会向公众发布Sora。但无论Sora何时向用户发布,它都将进一步证明AI已经成为人类社会不可或缺的一部分。
Sora的出现无疑是AI发展的一个巨大成功。它在人类现有知识基础和世界模型的基础之上,叠加了相关的自我学习技术,这无疑是AI发展的正确道路之一。AI企业将很容易利用这种模式打造各行业的超级工具。
前些年,元宇宙、VR、人工智能等概念风起云涌,但始终没有具象化的产物出现。如今,Meta头显已经拥有千万销量;英伟达通过AI概念市值达到了1.7万亿美元;苹果公司也发售了自己的头显设备Apple Vision Pro;OpenAI旗下的人工智能产品也在不断更新换代。可见,一个围绕虚拟与人工智能的时代正以不可逆的架势向我们袭来。