0731-88575016

详细内容

竞技宝官网app·当见未萌|Sora打开的未来:人必须也终将成为AI

时间发布时间:2024-05-15 04:13:12 来源:竞技宝app下载官网 作者:竞技宝官网地址     

  【编者按】距离视频大模型Sora发布已有一周时间,从最初由视频之逼真程度引发的集体震撼,人们也开始逐渐进入更深度的思考,其中有分歧、非议,也有关于Sora所代表的AI技术进一步发展带来的社会影响的各种思考。本文作者无意对Sora背后的技术原理进行解读,因技术原理的深入解读仍需要更多的技术细节的披露。但在作者看来,以Sora为代表的生成式人工智能的进展,已然清晰地呈现出了通用人工智能技术发展的脉络。尽管Sora视频生成在当下仍然存在诸多优化和完善空间,但是其所展现出的潜力将会对产业和社会发展带来巨大影响。人工智能的每一次进步,都可能对个人与社会带来巨大影响,严肃思考以Sora为代表的一系列通用人工智能技术发展对于产业和社会发展所带来的潜在影响,对于进一步健康发展人工智能是必要的。Sora以及其同期竞品(比如google的Gemini)的丰富案例也使得这种思考具备了基础。

  所谓在意料之中是指在ChatGPT诞生不久,AI专家们都已经形成共识,预判了大模型技术势必要从单一的文本模态向多模态发展的基本趋势。Sora只是顺应这一趋势而发生重大事件之一,它的诞生宣告了文生视频、视频编辑与生成的最新进展。

  说意料之外,是当我们亲眼看到其生成的视频时,其画质之精良已经堪比最先进的电影工业的产物,由此而带来的感觉与认知上的冲击是格外强烈的。从表面上来看,其在视频长度、质量以及可控性等方面均达到当前的最高水平,碾压了同类竞争对手。从深层次来看,正如OpenAI的官网文章所表达的,Sora绝不仅仅只是个视频生成工具,它本质上是现实世界的模拟器,能够对物理世界、人类社会以及人与世界的复杂关系进行逼真模拟与生成。一直以来,计算机领域对于复杂系统的模拟就是个难题,数字孪生、游戏引擎、虚拟现实、数字仿真、电影制作等等领域都涉及对现实世界的复杂系统模拟。可以说Sora的诞生宣告了人工智能在对现实世界的模拟方面能力达到了前所未有的水平,也可以说是对传统相关工具形成了降维打击态势。

  当然,我们也不得不承认,Sora仍然存在一些局限,比如对于物理世界的一些瞬时事件(诸如杯子摔落的瞬间),现实世界的一些物理常识(比如说老太太吹灭蜡烛吹而不灭),以及一些细节呈现(比如有专家发现中国舞龙视频场景中的中国字多属于编造的错字),仍然存在着明显问题。

  这些问题从根本上来讲可以归结于高质量、高精度数据的缺失,或者是相应物理场景的数据稀缺。比如瞬时状态的视频在总体样本中的累积时长是相对较短的。但是我相信这些问题只要建立合理的诊断与发现机制,很快就可以通过增强长尾场景的样本供给,增强合成数据,以解决相应的问题。

  Sora的重大意义在于宣告了AGI技术路线在世界模拟这一能力上已然走通,这是具有战略意义的事件,剩下的细枝末节的提升与完善总体而言是属于战术层面。观察OpenAI这几年的发展,该公司似乎从不在战术层面的问题上浪费宝贵时间与资源,这一点是值得我们学习的。所以我们要以更积极的心态去看待Sora,承认这个里程碑式的进展的积极意义,深入思考它有可能给我们的人类社会所带来的全新的机遇以及全新挑战。

  那么对于物理世界的这种模拟究竟难在哪里呢?此前的Runway和Pica,我们多少可以明显看出其生成的诸多问题(比如威尔史密斯吃面条的视频,史密斯的形象总体上是明显扭曲)。事实上,这些问题归根结底是在于其视频所生成的内容违背了现实世界的物理规律或人类社会的文化习俗。而Sora基本解决了这方面的问题,而且是能够在更大时空范围内解决这一问题,时长长度从AI视频生成的几秒钟时间拉长到了一分钟。在较长时空范围内能够生成遵循物理规律、社会习俗的视频是十分困难的。要知道即便是几秒钟的视频,其所表达的信息量也是十分巨大的,对于我们这世界的表达是惊人的。一个几秒钟的视频就能泄漏关于我们所在世界的大部分秘密。比如“一个时尚的女子行走在东京街头”这个视频,揭示了人类这个物种的生物特征,展示了人类文化的基本形态,展现了人类行走的形态,暗含了地球的重力状态,呈现了丰富的人文环境,暗示了丰富多彩的人与世界的复杂关系……在一个一分钟视频所展示的世界中,其物理环境和人文环境之复杂度是惊人的。Sora能够做到如此逼真的模拟,完全吻合物理规律、文化习俗、生活常识,各种对象与要素之间的空间关系、时序关系也是合情合理。更为难得的是,即便在一些想象的场景,其所生成的“想象”视频也是合乎人类的想象逻辑,而非是随机乱象,其视频生成的质量完全达到了电影行业的最高水平。

  传统的计算机模拟仿真都需要借助复杂的数学模型。每一类物理现象有着复杂的数学模型,比如烟花爆炸、火焰喷发、海浪波动、动物行走。一分钟视频里面涉及太多模型,导致传统计算机合成技术难以承受影视制作的高昂代价。2019年的“真狮版”的《狮子王》基本上代表了传统计算机辅助生成技术在影视制作行业的最高水平。创作团队为了再现真实狮子的动作、形态与毛发,动用了Maya、ZBrush、Houdini等建模软件,还借助了VR拍摄设备和工具,比如Oculus Rift、HTC Vive等,累计制作成本接近1.5亿美元。而现在Sora只需要一句自然语言提示就能生成与之相媲美的高质量视频段落。以此来看,影视制作行业的发展形态必被重塑。

  我相信Sora背后的技术绝不会停留在影视制作,具有重大商业价值的无人驾驶或许也将面临一次重大机遇。无人驾驶非常重要的一个问题是借助无人驾驶汽车的感知设备(包括雷达和摄像头),对汽车行驶路况和周边环境进行实时感知和建模。借助海量的驾车数据、交通摄像头数据,Sora从原理上来讲是有可能在无人驾驶场景对汽车行驶环境进行高精度模拟和建模的,其一旦能在无人驾驶形成应用,无疑又给大模型产业注入全新推动力。

  Sora对现实世界的建模与模拟能力,相信很快就会在具有更高价值、更为广阔的场景中取得应用。工业制造、游戏引擎、数字孪生、教学仿真以及前几年的元宇宙,都将从Sora背后的生成式世界模拟能力中受益。

  比如说在我们的工业制造,也需要大量的专业性极强的仿真和模拟才能对设备运行进行诊断与预测。借助传统工业机理模型的样本合成,再借助Transformer架构一个面向特定工业场景的Sora模拟器,从而极大提升工业场景模拟能力的泛化性,似乎是一个可行的技术路线。Sora背后的技术与传统行业的深度融合将进一步释放生成式AI的产业价值,进一步推动AI与实体经济的深度融合,也有利于AI技术自身的进一步迭代演进。

  我相信未来的科学发现也将从Sora的这次进展中受益良多。Sora一个基本启发在于数据的充分训练后,其可以遵循数据背后所蕴含的基本原理进行建模。Sora视频生成中所呈现的多是物理规律、社会规律。事实上,科学认知世界有着不同的侧面,细分为不同的学科。我们是否也可以想象如何借助AI对其他学科,比如化学、生物等,也进行类似的数据驱动的学习。成就Sora的技术原理迁移到其他学科是可能的,因为本质上所有学科基本上就是表达各类实体、概念的时空规律、因果规律。Sora至少已经向我们展示了从视频数据学习物理和社会相关的时空规律、因果规律的可能性。一旦能建模某个学科的规律,进而能够生成某个学科的现象,AI就一定能成为助推该学科发展的利器。

  AI能力的每一次进步,给人类社会带来的既是重大机遇,也是重大挑战。我们在积极拥抱这些全新机遇的同时,也要严肃思考潜在挑战,并积极应对。

  AI的建模能力可以视作其对世界的“理解”能力。当我们使用“理解”一词时便暗含了存在这个行为的主体。在全部人类历史上,理解的主体是人,但如果不承认机器作为主体地位的话,便谈不上所谓的机器“理解”。人类理解世界的结果也是为了表达世界,创造新的世界。从这个意义来讲,当机器能像人类一样重建某个概念的实例(比如“在东京街头行走的时尚女性”),便可被视作具备一定的理解能力。对机器而言,精准建模就是“理解”世界的基本方式。Sora借助数据驱动方式取得了对现实世界的惊人建模与模拟能力,这种能力甚至是远超人类对世界的认知能力的。

  机器对于世界的建模或认知可能比人类更接近世界本原之。数千年来,人类一直采取各种方式认知这个复杂的现实世界。神话、宗教、科学都是人类认知世界的方式。但不管是哪一种认知方式都是对世界本原的一种简化理解。日常生活中,人们倾向于使用语言表达对于世界的体验;科学研究中,科学家倾向于用公式表达对世界的认知。但符号公式一定程度上都是对非线性的复杂世界的一种简化还原。绝大部分经典理论都是在各种假设与前提下才能建立,这些假设与前提都是人类认知复杂世界所作出的妥协。

  两千多年来,人类从来没有停止过对自身认知能力的怀疑。先哲们的这种怀疑是完全值得我们重视的。世界的本原也许未必如人类所认知的情形。数百亿、千亿参数的大模型可能比人类学习更加充分,其能够学习到蕴含于海量数据人类难以觉察、难以表达的暗知识、潜在规律。

  机器对于世界认知能力将显著超越人类个体。如果将机器的建模能力认定为是一种对世界的认知能力,那么我们可能不得不承认,人类的认知能力相对于机器认知能力而言是存在着明显缺陷的。人类的认知总体而言是线性的、有限的、简单的。一直以来数学领域对复杂非线性系统的建模都是重大挑战。在复杂决策时,人能同时考虑的决策变量是十分有限的,所谓的抓大放小、抓住主要矛盾的决策方式,本质上都是人类认知能力不足情况下的妥协之计。然而,AI却可以在数以百万计、千万计的决策变量下进行决策。随着人工智能的进一步发展,机器的感知维度也更加多元。机器所感知的范围远远超过人类,比如高清摄像头可以将远在几公里范围之外的景象看得清清楚楚。机器的这类超级认知能力仍然有待我们深入研究,用好机器的这种超级认知能力将给人类发展创造全新机遇。

  一定程度的自主学习,人类先验知识的合理褪除,是成就Sora惊人效果的关键。事实上,人工智能最近几年的发展一而再、再而三地说明,人类专家越少的干预反而越能产生好的模型效果。自然语言处理领域曾经发生过每开除一个语言学专家,机器翻译系统的效果就提升几点的尴尬事实。这样的故事也延续到了大模型时代。这不得不让我们反思,人类对物理世界、人类社会皓首穷经所积累的全部知识,在发展机器智能面前似乎显得毫无价值,甚至起着负作用。人类对于发展机器智能的真正价值似乎只在于设定一个认知世界先验载体(Transformer等模型架构),准备好训练素材(高质量训练数据),使用大规模算力进行训练。想想人类的优质教育,何尝不是搭建好良好的学习环境,准备好所有的学习条件,给予学生充分训练与试错机会,而不是填鸭式的知识灌输和空洞的反复说教。人类的过往知识相对于机器而言似乎并不重要。想想人类社会代际间的经验与知识传承,我们这代人的知识与经验又有多少会被我们的下一代所认可而继承呢?

  激发人类的想象力。人类的想象力通常是在看到实物之后得到极大的激发。当我们的创意还仅仅停留在文字或脚本阶段时,它对我们的心灵的撞击仍然是有限的,亲眼所见带来的感官体验对心灵的震撼是难以言表的。从这个意义上来讲,Sora的出现降低了创意和想象的视觉实现代价和门槛,它将极大地激发人类的想象力。人类的想象力或许会在AI工具的助力下实现一次跃迁或升级。

  Sora进展也在刷新我们对于人类创造能力的理解。从AI实现视角来看,人类创造的本质或许就是在更大的内容或者理论生成空间中进行合理选择。ChatGPT和Sora这一类大模型在海量数据的喂养下,对现实世界进行了压缩表达,进而可以以较低的信息损失度还原世界本原。在大模型的生成过程可以视作是在更大语义空间上进行高效的内容枚举或检索,这个语义空间可能比人类所能理解的语义空间大得多,这也将帮助人类拓展想象空。


竞技宝官网app
电话:13973131243
邮箱:dingdangang@douyin.com
地址:竞技宝官网app
扫一扫浏览手机站