|
当下五花八门的元宇宙产品层出不穷,但人们对元宇宙的探索仍只是冰山一角,在TGDC2022腾讯游戏开发者大会上,香港科技大学计算媒体与艺术讲座教授、香港科技大学元宇宙与计算创意研究中心主任许彬教授带来了《元宇宙生存手册》主题演讲,深度探讨了元宇宙的发展和生态系统的构建。
在许彬教授看来,技术是推动元宇宙发展的催化剂。理想情况下,新技术可以解锁元宇宙的其他功能,并将虚拟环境推向一个更加可感知的虚拟世界。
以下是演讲实录:
大家好,我是香港科技大学的许彬,欢迎大家来我的讲座《元宇宙生存手册》,今天我会带领大家进入元宇宙的世界,对元宇宙的发展还有背景进行一些讨论。
讲座会分成七部分:第一部分是关于元宇宙的背景;第二部分我会介绍怎样去构造元宇宙;第三部分我们会讲讲当前的发展阶段;第四部分是未来的愿景,包括技术与生态系统;第五部分是元宇宙的一些技术上的问题,包括扩展现实、用户互动;第七部分是元宇宙的生态系统。
关于今天的讲座主要是基于我们之前发表的在网上发表的一篇文章,《All One Needs to Know about Metaverse A Complete Survey on Technological Singularity, Virtual Ecosystem and Research Agenda(关于元宇宙需要知道的一切:涵盖技术奇点虚拟生态系统和研究议程的完整调研)》。去年10月发表之后,已经有超过9万个阅读,大多是研究人员的阅读。因为时间的关系,我会用比较概括的语言跟大家介绍我们在这方面的工作。
那首先我们讲讲什么叫元宇宙吧。“元宇宙”这个名词,其实是1992年的一本小说《雪崩》。在《雪崩》这本小说里面,作者形容了一个世界,它是一个虚拟世界,就是我们说的“virtual reality“一样的环境。在这个世界里面,用户可以戴上可穿戴设备,进入虚拟的世界里面。用户可以用他的虚拟化身,跟其他用户的虚拟化身来进行他们的一些交互活动,例如我们说的社交或者也可以从事一些商业活动,例如买卖东西。
大家可能之前看到过左手边这个图,这是90年代《纽约客》上的一张图,其中它的文字形容是“On the Internet nobody knows you're a dog”中文是说“在互联网上没有人知道你是条狗”。它的意思主要是想强调:谁都可以使用互联网。
右边这个图是我说的,“In the Metaverse You can be a cat”,我认为,我们可以在元宇宙里面过一个跟我们现实生活完全不一样的生活。你可以很随意地选自己的一个虚拟化身,你的Avatar也可以是一个猫,也可以是一个机器人。大家看到中间的这个小猫,其实是我自己的小猫,它可以说是第一只进驻元宇宙的小猫吧。
如何构建元宇宙?
元宇宙的发展有三个阶段:第一个阶段是数字孪生,第二阶段我们叫数字原生,第三阶段是物理和虚拟现实之间的共存。
大家可以看到这条线,这条线最左边是数字孪生,最右边是数字原生。这三个阶段是不是要从数字孪生开始,然后到数字原生呢?不是的它们是可以并行之间进行的。
举个例子,大家看到最左边的图,它是一个物理的世界,它是现实的香港的照片,我们可以把这个现实的香港,转成数字孪生,你就看到图中间的图像了。元宇宙它不只是一个数字孪生,我们想象的元宇宙,它应该是现实生活,再加上一些虚拟的物体在里面。
我想强调的是,数字孪生这个概念,它不是一个一对一的将现实生活在虚拟环境里的复制,它是一个大规模和高保真的数字模型的实体。如果现实生活的物体它的特性,在虚拟的环境里面是有意义的,有作用的、有功能的,我们才会把它的特性,把它模拟在虚拟的环境里面,然后虚拟和物理的孪生之间,又通过他们的数据来做捆绑的联系的,就是说大家是会互相影响的。
也就是说,物体世界的物体改变了,那它产生的数据也会改变,它在虚拟世界里面的数字孪生也会随之改变。就是说我们可能是一个智慧智能制造的一个场景,那它可能在这个虚拟世界里面做一些我们说的仿真simulation,仿真所产生的数据也可以返回来,再改变工业制造、智慧制造上面的一些程序。所以说数字孪生不只是一个单单的模型,它们之间是有数据联系的,是会有互相影响的。
内容创作方面,有一些物体在元宇宙里面,但它是不存在于现实生活里面的,比如艺术家或者一些内容创作家在元宇宙里面创作的一些数字艺术品。这些艺术品其实在现实生活里面它是不存在的。这些数字的内容创作,它只存在于数字世界里面里。
我们都知道Mate是元宇宙,需要人流进去,它才能维持一个生态系统。我那们怎样吸引人流进去这个元宇宙里面?它就需要内容支撑。当然内容的创作人需要靠经济的活动,如果有经济活动的收益的话,就可能会鼓励艺术家去进行内容创作。那这样也是可以产生新的经济活动。
我们想象中,元宇宙是一个自我维持的持久性的一个虚拟世界的存在,它与物理世界是可以共存的,而且互相有一些影响,但是它又具有自己的高度的独立性。
因为有很多我们说的数字原生的,受制于原生的东西,它们在物理世界上是不存在的。理论上元宇宙是能够在一个虚拟世界支持无限数量的并行用户。但是作为一个游戏开发者,或者作为一个技术方面的创作的用户,我们知道虽然这是理论上可以的,但是在现实上也有很多的限制,比如说处理器存储量还有各种各样计算能力的限制。如果我们想支持越多的用户,那我们需要有越多的计算能力。
这里我要再介绍一个名词,英文叫surreality,你也可以翻译成一个“超真实”或者“超现实”。但是我也希望大家可以提供一个更好的翻译。我们想象中的未来世界,它是用一种身临其境的方式,与物理世界混合共存,以至于我们无法分辨什么是真实什么是虚拟。然后我们会通过一些先进的全息技术,或者高质量的头戴显示器,与我们环境的虚拟对象生活和互动。因为这个虚拟的物件它们做得很逼真了,而且我们可能越来越会习惯,我们生活之中会出现一些虚拟的物体,那我觉得未来的时候我们会逐渐失去虚拟的边界,进入新的现实,我们就把它叫成了surreality。
当然这个概念也是跟我们怎样去看元宇宙有关系,到底元宇宙是不是一个完全虚拟的世界,还是元宇宙是一个虚拟跟真实世界结合的世界呢?不同的开发商、不同的研究团队,有不同的看法。
元宇宙的发展阶段
当前的发展阶段到底在哪里呢?元宇宙其实是经历了四个不同的转变,从基于一个文本交互的游戏,到虚拟的开放世界,再到一个大型的多人的在线游戏,然后推到现在我们目前的元宇宙的状态。
大家可以从这个图上面可以看到有一条轴,这条轴上面它是一个元宇宙相关的一些内容和应用,这条轴下面是当时的一些计算机的技术的出现,那我们可以看到《雪崩》是在1992年的时候出版的。但是《雪崩》之前,其实也有其他的文学,它们会说到好像元宇宙这样的世界,其中有一个例子,就是1984年加拿大的作家William Gibson发表的一本小说《神经漫游者》。那本小说里面形容的世界也是一个虚拟世界,用户可以通过在头上插一个导线,然后通过这条线的接口进入到它虚拟的世界里面。这个场景好像我们说的《黑客世界》,电影很可能是受到这本小说的启发吧,因为当时个人电脑也是要到1987年才出现,计算机图形学也是到1990年的时候才出现,再之前比较多是一些文本或者文学的关于这个概念。
然后我们看到就是《网络旅行者》《第二人生》《我的世界》这些都逐渐地出现了,到2000年之后,像《宝可梦GO》,还有VR Chat、Super Mario AR、Cryptokitties 、《外星世界》也陆续面世。
我们可以看到AR的应用,根据时间的变化,除了计算机图形学,还有2000年或者90年代的大型的互联网的使用,还有2000年初的一些触屏的智能手机,到2011年左右的加密货币、区块链,然后2016年之后的增强现实、虚拟现实、控制器等。显然技术是推动这种转变的一个催化剂。如今研究界仍在探索元宇宙发展的道路上,但是理想的情况下,我们觉得新技术可以解锁元宇宙的其他功能,并将虚拟环境推向一个更加可感知的虚拟世界。
这个图我想给大家总结一下现在网络空间的一些发展,在元宇宙的创作或者对元宇宙的研究方面,还有哪些机会。从左边到右边是一个内容丰富性的变化,纵轴是内容方面的个性化,或者用户可参与程度,在内容的创作方面的自由程度。
进入元宇宙的机会,它到底在哪方面有一些增加呢?大家可以看到是一个体验的二元性,意思就是说,它会把我们觉得在元宇宙的世界里面,虚拟、真实或物理跟数,会更好地结合在一起。那用户同一时间可以体验到,虚拟与真实之间的一些更好的体验。
在元宇宙的研究方面,我们可以怎样地利用开发一些软件或者一些应用,增强用户二元性的一个体验。
未来愿景:技术与生态系统
我们继续去说一说技术还有生态系统的方面吧。如果想创造一个元宇宙,到底需要哪种技术呢?
现在大家可以看到这个图下面的是技术,它其实是硬科技。我们需要通过这些硬科技,发展或者建立一个元宇宙平台。那这些科技包括,用户互、扩展现实、计算机视觉、人工智能、区块链、机器人、物联网边缘云,还有网络。那当然大家看到最下面是一些硬件的基础设施,网络也会在硬件基础设施之上,云就会在网络上面,越下面的技术它是越基本。
用户体验跟增强扩展现实,它们是在最高的几个技术(里面),它们也会应用到下面的一些计算机视觉、人工智能、区块链、机器人、物联网的一些技术。然后人工智能,它会用到下面的一些,边缘云或者云的一些技术,当然也会用到网络方面。
现在各种的设备各种技术有了,我们可以通过拓展现实的方法来进入元宇宙。元宇宙它可能也是一个虚拟的世界,它也可以是一个我们说的真实的虚拟的混合的一个,好像混合现实的一个元宇宙。无论是哪一种,你都可以通过这个扩展现实去进入这个元宇宙。我们说的扩展现实,它是进入元宇宙的门,如果你是建筑一个Virtual虚拟的元宇宙,那你用VR的技术,如果你是建成一个混合现实的元宇宙,那你是用AR的技术去进行。
接下来,我们怎么去令这个元宇宙可以自己去自我维持呢?它还是需要上面生态系统的一个支持。那生态系统它包括什么呢?在这里包括虚拟化身,因为我们进入元宇宙,是通过我们的虚拟化身去进入。那虚拟化身的创作,也是一个维持生态系统的其中一种技术。除了虚拟化身还有我们说的虚拟经济,因为我们说你需要维持一定的经济,系统才可以鼓励一些内容的创作。
那大家可以看到,内容创作跟虚拟经济是同一层的,当然最上面的也有很多的东西,它可能是我们说的社会的接受度、安全和隐私、信任和责任,这些都是很必须。
让我们说说可以维持元宇宙的生态系统的一些的需求吧。类似于现实中的社会,内容创作和虚拟经济应该符合社会的规范和法规,例如虚拟经济中生产应该受到所有权的保护,而这种生产应该被元宇宙的其他化身,就是其他人类用户接受。此外人类用户希望他们的活动也不会面临隐私风险和安全的威胁。
那有一些什么方面我们是需要去做,需要去研究的,来推动元宇宙技术和生态系统?
那大家会看到人工智能上面,我们可能需要做一些自动的数字孪生的产生,如果我们是用人手去做一个数字孪生的话,它会花很多时间,我们可不可以用AI的技术去做一些更好的自动的数字孪生呢?用户离开了元宇宙去吃饭或者去上学学习的时候,会不会有计算机的AI去做代理呢?
我们说的虚拟化身,它虚拟化身的外观世界应该是怎样?用户感知又是怎样呢?我们人和虚拟化身之间的交互又应该是怎样呢?这些都是需要我们去研究的问题。
边缘计算上我们也有很多的研究方向需要去做,怎样去减少用户应用的一些延迟呢?就是可以把这个应用放到边缘云上面去。在其他方面我们也说了很多,信任和责任方面,它公平和偏见是怎样的,权力和控制又是怎样的,如果有不透明的东西那我们又应该怎样去处理?最后,如果有元宇宙,那元宇宙是由谁来管理,怎样去管理?这些问题也是需要我们好好去做这方面的研究。
元宇宙技术:扩展现实
第五部分,我会给大家简单地介绍一下扩展现实这方面的研究。到底扩展现实是说什么呢?我们说的现实就是reality,就是真实的世界,虚拟现实virtual reality就是虚拟的世界。
那在虚拟现实里面,你可以戴一个头显,头显戴上之后,你是不会看到任何的现实世界的,但是现实世界跟虚拟现实之间,就是我们说的增强现实或者混合现实。你的手机,可以拿上增强现实的一个头显,那你同一时间会看到现实世界,也会看到虚拟的物体出现在现实世界里面。那这样的话,我们就可以说,虚拟性就会从左到右的一个增加了
在虚拟的现实里面,现在的商用的VR的头盔、头显,它都提供了很多的功能,包括头部的跟踪还有一些控制,它有一个控制器让用户更好地交互。元宇宙的用户也可以用它来建设与数字孪生一致的一些内容,包括做一些艺术的创作。现在,我们开会可以用腾讯会议或者用Zoom,那我们会不会通过虚拟的现实技术,可以更沉浸式地提供一个开会工作学习的环境,去让我们更好地跟其他的人进行合作呢?
增强现实方面我刚才也提过了,它一般通过你的摄像机,当然它也可以通过声音或者是其他的(设备)做一些输入,然后再通过这些输入来明白这个环境,然后把一些虚拟的东西加进来,它可以是一些虚拟的图像、声音。为了确保在AI中的无缝和轻量级地交互,用户交互的技术也是非常重要的,下一部分的时候我们也会再继续说一说。
所以我们觉得元宇宙,如果它是一个混合现实的元宇宙的话,那AR就是它的一个主要的技术。然后我们也希望通过AR的技术,让我们与城市的环境更加好地结合起来,去改善我们在城市里面的生活。
那简单地介绍一下,关于AR的运作的管道吧。
AR的运作,刚才说了它的输入一般都是手机摄像头。手机摄像头进入之后,那我们会做一些整个流程的一些处理,它会有一些框架的预处理,然后物体的一些检测、特征的提取。特征提取以后,我们想明白到底这个场景是什么,那我们会做一些对象的识别。然后对象识别之后,那你要去一个数据库里面,把一些识别到这个对象的相关的资料拿下来,然后把它再做一些模板的匹配。当然它可能会在手机上做一些对象的跟踪的这样的程序,那大家可以看到,它主要是一个计算机视觉比较多的一个程序。
然后大家可以看到这个图,就是每一个方块的颜色越深的话,说明它的计算量的要求就越高了,它越浅的话就是它的计算量的要求越低。然后大家可以看到这个图里面有数字,有红色的数字,还有绿色的数字。红色的数字就是说,如果我们把这个工作是在手机上做的话,它需要多长时间,然后绿色的就是说我们把它放到一个附近的Server一个服务器上做,它大概需要多少时间。
然后大家可以看到这个对象识别,它是黑色,说明它的计算量的要求最高了,那它如果在手机上去做,可能就需要500毫秒,如果它在一个比较好一点的服务器上做的话,它可能只需要92毫秒,大概是5倍的时间。那如果我们在附近有一个服务器的话,那我们把它放到服务器上面去做的话,那它所需要的时间就大大地省下了。
大家可以看到这个网络传输图,我是把它端对端的延迟,把它占整个端对端延迟的时间的百分比给大家分析下来。
如果我们假设网络传输,是50毫秒的话,那它在整个端对端延迟里面占了多长时间呢?大概18%还不到。如果通信上面可以把网络通信的延迟缩到0的话,那你也只是节省了18%的总共的延迟。那其中最多的延迟到底是在哪里?大家会看到对象识别还有特征提取,它们其实占了大概接近一半的延迟时间,那除了网络上去解决这个问题,那是不是在计算机computer vision上面,或者在edge computing或cloud computing上面,是不是更能节省它的那个延迟时间呢?
除了VR、AR上面的挑战之外,那对VR上有什么的挑战呢?基本上VR的挑战就是它的解像度的问题。我给大家举个例子吧,如果我们一是个正常视力的人是20/20,那我们到底需要多大多少的解像度才可以在你的头显里面看一个虚拟物体?一般的话我们正常视力,大概你需要1度到1度之间的区域,大概是需要3600个像素,如果我们说的是一个360度Video的话,那16K的分辨率 它会对网络造成很大的传输挑战,因为这个分辨率的话,你需要的传输速度是要达到300个Mbps,很多无线的网络是担当不了的,而且现有的解决方法也不一定能满足这方面。
即便可以传输,其实现在的手机或者一些头显,是很难进行16K video的解码的。在这方面我们研究团队也做了很多研究,怎样可以把这个AR的延迟降低到33毫秒以下。
元宇宙技术:用户互动
用户互动方面也很重要,因为我们用一个AR,或者我们进入元宇宙里面,我们也要跟一些虚拟的Avatar和其他的内容去交互。那起码就是说,如果我们要做打字怎么办呢?要是我们在现实生活可以用keyboard来打字,那在元宇宙里面我们是可以经常打字对不对?涉及到输入设备,包括输入的技术,还有一些反馈的技术。输入的技术方面也有很多研究已经做了。
这个图上显示是身体交互的技术,就是说你可以用你的手来做一些,对虚拟的物体进行一些操作,可以在你手上面有一些,智能皮肤或智能穿戴设备,你可以通过这些智能设备,跟虚拟的内容进行互动。
我们的一个系统,可以用AR眼镜来跟内容做一些交互,大家看到图的画面有一个学生,在挥舞手臂,那他到底在做什么呢?他是用手把文件从一个电脑,拉到隔壁的电脑上面去,那个文件就很顺利地传过去了。另外一个同学则是用手把一个PPT拉到一个projector上面去,PPT就直接在projector上面打开了。大家可以通过你的手势,去跟你的虚拟的内容去做一些交互。
刚才我提到键盘,这也是我们的一个系统。AR显示器它的视野其实很小,如果我们放一个很大的键盘在里面的话,键盘已经把你一半的视野已经挡住了,如果你打字的时候可以怎么样去做呢?我们想象中有一条线,那条线从英文字母ABCD到Z都排在一个虚拟线上,你的手去到不同位置,它就是一个不同的字母的区,在字母的区域里面 像IJK是同一个区,然后你在IJK再选一个字母再选一个词,这样你就可以通过手在一条想象的线上面去做操作,然后你就可以打字了问题就是,为什么要键盘这样。主要是受到它的有限的视野的限制,当然如果我们希望,以后有更好头显的话,视野会更大,对用户的一些体验也就会更好。
反馈方面,现在有很多的触觉装置,可以让你在元宇宙里面产生一些触摸的感觉,让你可以更好地做这方面的交互了。
元宇宙生态系统
生态系统方面,我主要想说的就是隐私的问题。如果我们平时上网的话,我们只是上网一些资料被搜集,那到了一个元宇宙里面,如果大家穿戴很多可穿戴设备,来增强用户体验的话,我们是不是有更加多的生物数据会被收集呢?
元宇宙运营商会有更多我们的数据,这些数据,除了我们身体的数据、生物的数据,它可能也会有我们环境的一些数据。如果大家有用过AR头显的话,大家可以知道这个AR头显,首先会对你这个环境做一些扫描,然后建立一个环境模型,还有扫描(数据)很有可能也会在运营商的云上面去了。这些的东西都可能会令用户,有点担心他的隐私问题。
所以我觉得就是说到未来的话,我们会更加多的研究要保护用户的隐私,而且在元宇宙里面,个人你可以创作自己的虚拟化身,你可以用不同的虚拟化身去给自己,那你也可以用其他人的虚拟化身,新的问题就接踵而至了。
大家可以从图上看到,这里攻击者的Avatar,它不一定好像人一样的东西,它也可以是一个垃圾袋,它把自己的Avatar做成垃圾袋,那大家没有留意到它是一个Avatar,它就可以在旁边听其他人的谈话,那这个方面也是一些基于Avatar的一些虚拟问题吧。
元宇宙伦理方面,到底那谁来监管这个元宇宙?管辖权和限制又如何?是不是我们可以用一些联邦的模型,用一些Federated Learning或者用一些区块链,或者用民主技术来控制一些非法行为?这方面也是非常值得我们去考虑和研究的,这跟大家游戏创作,怎样去维持一个游戏世界也有关。那这方面大家也是可以有一些贡献,用自己在游戏上面的经验,也贡献到我们元宇宙里面去。
生物数据方面,刚才我也提到太多的数据会被搜集,那我们怎样保护被搜集到的信息?这包括一些隐私增强的技术,做差异化的隐私保护,或者我们说的一些联邦学习方法,让你的数据不离开你的设备,不与第三方分享。
现实世界中的一些法规,在元宇宙上面怎样去实施呢?例如,知识产权将如何在元宇宙中得到保护,如何对待元宇宙一个人的数字孪生的凶杀案……这些东西都是在元宇宙里面,我们是需要去思考的。
当然我们可以说代码与规则,就是大家跟游戏玩家一样,我们会通过代码去产生一些好像自然物理定律的一些规定,但是大家做游戏玩家都知道,代码是不能管理所有在元宇宙里面的社会行为的。当然用户也可以去改一些代码,那到底行为以后在元宇宙应该怎样去管理呢?
用分布式的自治组织去做一些投票,然后做一些比较小规模的管理。在大规模上面,我们是不是会有一些其他的策略性的东西,来让大家更好地管理这个元宇宙,那这些都是需要去探讨的问题。
DAO(分散式自治组织)是一个大家最近提得比较多的,它是不是可以在元宇宙里面对管理或管制上面会有帮助呢?我们会慢慢深入探讨这些问题。
然后模块化的方法和设计,是不是把元宇宙的设计更加模块化,就能增加我们创作的自由度?
社会的元宇宙就是说,我们都是一个用户,或一个游戏玩家,那我们在设计这个社会元宇宙里面可以更加多地把很多的不同的因素都放在里面,就是说可及性、多样性、平等、人道、信任。这方面在我们设计元宇宙里面,我们都必须要在这方面去探讨的,所以我们希望通过元宇宙会对人或者社会和生产生活产生重大的正面的影响。当然也有一些负面的影响也会有,但是这方面都是需要,我们大家一起努力去创作去奋斗的。
最后就是今后的议题,今后的议题我刚刚也跟大家说过,主要是有技术上面的还有生态系统层面的,在这个图上面看到更加多的,关于这方面未来需要去做的一些探讨。谢谢大家。
|
|