「哈利波特魔杖」在家体验幻影移形！大年夜淘宝技能3D建模只需拍一圈

文章目录 [+]

小魔杖一挥，嘴里念念有词：「Apparate」（幻影移形）！

接着，眼睛一闭一睁，周围的景物就奇迹般地变了个样子。

「哈利波特魔杖」在家体验幻影移形！大年夜淘宝技能3D建模只需拍一圈「哈利波特魔杖」在家体验幻影移形！大年夜淘宝技能3D建模只需拍一圈互联通信

神奇是很神奇，但这个咒语可不好学，只有很厉害的邪术师才能节制。

（图片来自网络侵删）

最近，有人想在自己家里「幻影移形」，分分钟，就像换了一个新居子。

听上去有些天方夜谭是吗？

沙发拔地而起感想熏染一下？

当然，目前假如想把家里重新设计装修一番，劳心劳力是免不了的。

如果想只动动手指，恐怕还得到数字天下里才能实现。

幻影移形！
在数字天下中「白嫖」设计

而这个故事还得从

虽然看起来间隔日常生活有点远，但搞起身装来，是真的头疼。

颜色、大小、风格，各种组合全凭想象力。

不想燃烧脑细胞也可以，只需发动「钞」能力，全屋定制直接拉满。

不过现在XR这么火，那是不是可以在里面用AR、VR啥的来搞设计？

等等，AR、家具、设计，这不便是宜家推出的「IKEA Place」么！

没错，早在2017年，随着苹果IOS 11的推出，宜家就利用当时最新的ARKit技能让用户可以实时地在家里看到超过2000种家具产品。

基本上办理了在大略的环境中看一看「这个家具能不能放得下」的问题。

然而，当环境稍稍变得繁芜，或者说仅仅是同时放置两个家具，宜家就搞不明白这个中的位置逻辑了。

当然，这个可以通过反复地手动调度办理。
But，你有没有想过，或许这个产品本身便是一个「伪需求」？

比如说你想设计一下自己新买的屋子，这时候能参考的基本只有一张户型图。

这切实其实太难了，不如去实地稽核一下。

嗯，空无一物，不如借助AR摆放一波家具看看？

恐怕除了要把自己的手累断了之外，想看清楚终极的效果，得「穿模」到墙里面去才行。

那要这AR又有何用？

不必担心，这时候就要把思路打开。

既然家具可以建模，那家是不是也可以建个模，然后把家具的模型统统放进家的模型里去呢？

这时候就要祭出一个神秘工具：「Object Drawer」。

这个Object Drawer除了建模物品，还能建模房间，堪称是一站式办理方案。

在输入户型图之后，Object Drawer会对构造、符号、笔墨进行识别并打算房间的尺寸，然后对整体进行向量化，末了就可以天生全体房间的3D模型啦。

而且这波操作完备不须要自己动手，淘宝已经准备好了200万套真实的户型供你选择。

有了自己家的模型，就可以把淘宝里那些地板、壁纸、桌子、椅子等商品的3D模型们放进去了。

不满意随便改，动动手指就能搞定家装设计，而且最主要的是：免费。

如果不想自己操刀，或者想看看设计师怎么说，淘宝也准备了800万套全屋设计可以参考。

而对付商家来说，Object Drawer也早就已经用在商品的主图上了。

是不是看着还挺新鲜？

正巧，在12月26-28日举办的第十一届国际图象图形学学术会议上，阿里巴巴大淘宝技能部正式发布了Object Drawer。
它将NeRF的推理速率提升了10000倍，演习速率提升10倍以上。

为此，阿里巴巴资深算法专家、大淘宝技能XR Team算法卖力人赵斌强（乐田）受邀在大会揭橥题为「From Physical World to Digital World: 3D Techniques in Digital Industry Transformation」的主旨演讲。

当然，最主要的一点是，Object Drawer会面向学术界和普通用户开放，供广大开拓者及科研职员互换体验。

被装修折磨得去世去活来的

首先是数据的准备：

Object Drawer建模所用的***须要采取绕物体360度的环抱办法进行拍摄，同时标注3张地面的分割mask。

***拍摄

标注地面

为了方便对地面进行标注，Object Drawer在Github上供应了相应的标注工具。

项目地址：https://github.com/3D-FRONT-FUTURE/ObjectDrawer-ToolBox

接下来是***的提交：

当完成了***、标注数据的准备后，须要登录Object Drawer网站提交***进行建模。

点击网站右上角login进行登录，然后点击右上角的图像，在弹出的tab页面中选择Video Upload，等待跳转到***提交页面后填写***名称，并上传***、标注，赞许Object Drawer利用上传***的做事协议，末了点击提交按钮；至此就已完成***提交操作，须要等待一段韶光，系统将会自动完成***建模过程。

试用接口：https://objectdrawer.alibaba.com/index.html（把稳仔细阅读拍摄哀求哦）

末了，就可以得到渲染好模型啦。

你可能又会问了，Object Drawer这个运用也太窄了吧。

思路要打开！

「俗话」说得好，万物皆可虚拟。

既然都是虚拟的，那不都得建个模先？

比如说你想在数字天下卖现实中的商品，结果末了就整了几个马赛克方块，真当是卖NFT呢？

然而，对付成千上万的商品，全靠人工建模不得干到猴年马月去了。

但如果连模型都没有，又何来的数字天下呢？

瞧一瞧看一看！
新的SOTA出炉了

说到建模，韶光得先回到2020年，三维重修领域来了一个后起之秀——NeRF神经渲染技能。

而图形学和打算机视觉核心之一是重修并渲染真实天下的人和物。

传统三维重修如Photogrammetry工具大致流程为：稀疏点云重修->稠密点云重修->网格重修->纹理贴图->材质贴图。
履历表明，以Photogrammetry为根本的建模工具强依赖于拍摄环境；对弱纹理和平滑区域的表面还原较差；常日依赖人工修复模型网格与纹理并授予材质。

NeRF提出用神经辐射场来表达场景，跳过显式三维重修，直接通过神经渲染实现场景的free view synthesis。

NeRF网络作为一个函数，输入为5D坐标包括空间中点坐标x=(x,y,z)以及相机视角方向d=(θ,φ)，输出为c=(r,g,b)颜色以及密度σ，写作：

，物体的体素密度只和空间坐标x有关，输精彩彩与空间坐标及视角方向干系。

由于NeRF技能的渲染过程完备可微，可以端到端进行演习，这使得NeRF可以准确还原场景各个视角的渲染效果。

从三维重修而非纯视角天生的角度来看，NeRF有几个较为明显的不敷：

演习及推理速率较慢，1张1080P图推理韶光超过50s，一个物体的建模韶光常日须要2天以上；渲染图片清晰度不敷，且无法规复细节纹理；须要大量多视角图片才能实现较好的view interpolation；隐式表达无法直接导入图形学工具，不支持显式利用，例如CAD场景搭配设计；只能还原拍摄场景的光照，无法支持环境光照变革的场景运用。

这些问题制约了规模化家当运用，如下一代VR/AR，3D设计，3D浏览等。

2021年，阿里巴巴大淘宝技能部，发布了Object Drawer，将NeRF的推理速率提升了10000倍，演习速率提升10倍以上。

同时，Object Drawer添加了更多的高频纹理信息将建模还原度进一步提升，并

提出光照迁移赞助方案，使得NeRF重修的模型可以显式地运用于日常场景搭配设计，从而使得神经渲染技能达到实用标准。

推理速率和演习速率

要输出19201080分辨率的图像，NeRF的推理速率为50s/帧，而实用的哀求要达30帧/s以上，差距为1500倍。

Object Drawer从场景表示方法、有效像素、有效体素等多个角度进行冗余打算的优化，在19201080分辨率下，推理速率可以达到240FPS（V100 GPU）以上，比较NeRF实现了10000倍的推理速率提升。

Object Drawer在手机上也可达到30FPS，实现了实时的高清交互。

与此同时，模型的演习韶光也压缩至4小时，模型package均匀小于20M。

视角外插

神经渲染技能在运用时，视角外插是不可忽略的问题。

由于拍摄的图片无法覆盖所有视角，当输出视角发生变革或是拍摄视角有一定差异时，须要神经渲染有很好的泛化能力，支持新视角图片的天生。

Object Drawer利用随机视角增强与均匀视角embedding技能，改进了视角外插效果。

NeRF （左）与Object Drawer （右）在Novel View Extrapolation下的表现

实验表明，随着视角差异的增大，NeRF等模型的PSNR都涌现了大幅的低落，而Object Drawer的PSNR基本保持不变。

三维模型表示

三维模型，须要能够支持各种三维运用，包括三维布局、渲染出图、三维互动等等。
NeRF只能支持渲染功能，使得其运用受到很大的限定。

Object Drawer给物体的隐式表达配对一个粗糙的显式网格模型。
显式网格模型可直接提取于NeRF或其他高效网格重修算法。
如图，一方面，三维粗模可直接导入图形学工具，用于三维场景设计等现实运用。

另一方面，神经渲染可以天生物体在任意视角下的高清渲染图。
当然，这种物理和神经渲染结合的思路暂时不支持重修物体的物理仿真变革，如网格编辑变形等。

光照迁移

为了渲染出反射，阴影等物理征象浸染于三维粗模的光照效果，Object Drawer提出了光照迁移技能, 可以在神经渲染天生的物体视角图上呈现出逼真光照效果。

建模场景图、建模结果图和三维场景光照迁移结果图

在实验数据的结果表明，该技能能够适应各种繁芜光源条件，完成对细节阴影效果的迁移，视觉效果之惊艳，在3D-FRONT测试数据集均匀PSNR达到30.17。

纹理细节还原

对付商品三维模型来说，纹理细节的还原度非常主要。

目前的NeRF系列研究虽然可以以较高的精度还原物体的外不雅观，但是无法规复纹理细节，如布料线条。

Object Drawer优化了模型表达能力，在大幅度加速模型演习的同时，第一次做到了高清风雅纹理的还原，详细的效果如下图所示。

一键自动重修

如此强大的技能，利用起来会不会门槛很高呢？

完备不会！

比方说，用户想将一把椅子进行三维建模。

那么，不须要依赖其他的特定设备，只须要用手机环抱目标商品拍摄一段***。

然后，直接交给Object Drawer就可以一键自动重修，所天生的三维建模效果就已经可以达到很高的精度。

完成模型重修后，如果要运用模型，Object Drawer会自动将PBR场景光照迁移到模型的神经渲染中，完成重修模型与场景的合成。

于是，一把3D「小黄椅」就这样出身了，造型、纹理完美复刻。

但是，明明有3ds Max这类的建模工具，又为何必要用神经网络？

这个就引出了问题的核心：建模本钱和自由度。

如果想用这些专业工具建模，首先就须要学习一波。
知乎答友「丝路教诲」表示，只需4个月专业学习，就能节制核心技能。

等不及怎么办，那就「淘宝」一个吧。
然而，普通质量的模型大概200-500一个，期间还须要进行反复地沟通和修正。

苹果虽然也有一款Object Capture，但是同样须要后期手动对模型进行改动。

直出的效果怎么说呢，自己玩儿一玩儿还是可以的，但如果想作为商品去展示，恐怕迎来的便是「月销0」了。
毕竟对付商品来说「真实」才是最主要的。

左手是韶光，右手是金钱，切实其实旁边难堪，哪个都付不起啊

这时候是不是想起Object Drawer了？

无需专业知识、无需专业工具，拿动手机拍一圈，分分钟实现模型的量产。

那么，现在我们有了高质量的模型，是不是就能搞天命字天下了呢？

不谈便携性，便是耍泼皮

不如先回答这样一个问题，「数字天下」是什么？

或者，换一个说法，电话是什么？

第一反应常日都是手机对吧，随时随地都可以用。

但是如果我见告你，只有固定放着的那个叫电话，手里那个不是，你肯定想这人怕不是有什么大病。

现在回到最开始的问题上，我跟你说，只有戴着一个头盔，两手拿着掌握器，坐在电脑或者游戏机前面，体验的才是「数字天下」，你以为如何？

这不应该是走到哪儿都能体验的么？

比如去逛街，每件商品的价格都能直接显示在你的AR眼镜上，如果能实现的话，切实其实便是社恐的福音。

此前，苹果的CEO库克就曾表示：「AR是虚拟天下与现实天下的叠加。
这种办法不会分散你对物理天下的把稳力，而是加强彼此之间的关系和互助。
」

「增强现实技能可以增强我们的对话，增强学习，并真正放大技能对人们的代价，而不是把现实天下封闭起来。
」

实际上，作为数字天下的一环，AR技能不仅可以直接在手机上体验，而且AR眼镜的通信和打算也都可以通过手机。

而作为电商界的老大哥，淘宝尤为看好AR这个领域。

除了图文、***、直播等基本的线上购物办法，淘宝这几年还推出了AR购，可以体验口红试色、墨镜试戴、试鞋等AR导购功能。
随着数字天下的到来，也意味着设备和交互将会不断改造。

这对电阛阓来说，将会是一次历史性的重构。

为此，大淘宝技能成立了全新的XR Team，也便是Object Drawer的研发团队。

企业搞技能，终极都离不开商业化。
而XR Team也是从最有代价的运用处景入手，比如卖地板和壁纸、大型家具等等。

毕竟对付用户来说，常日都希望能够体验或者感想熏染一下自己要买的产品，至少不满意退货也是可以的。
但刚才提到的这些，恐怕就不那么随意马虎了，可以说是买家最想见到实物，但却最难见到实物的产品了。

不过，随着Object Drawer的遍及，会有越来越多的商品有自己的模型，基于3D的商品库也逐渐地开始成形。

之后，大淘宝技能XR Team将会去打破Object Drawer的限定，去打造一系列的工具，从自动装修到服装的试穿，险些涵盖全体购物的流程。

末了，便是让这些软件和工具实现跨平台运行，不管是AR眼镜还是手机都能够利用。

而大淘宝技能XR Team构想的终极目标便是让用户在虚、实之间无缝地互动。

项目地址：

https://github.com/3D-FRONT-FUTURE/ObjectDrawer-ToolBox

试用接口：（把稳仔细阅读拍摄哀求哦）

https://objectdrawer.alibaba.com/index.html

参考资料：

[1]. Tewari, Ayush, Justus Thies, Ben Mildenhall, Pratul Srinivasan, Edgar Tretschk, Yifan Wang, Christoph Lassner et al. "Advances in neural rendering." arXiv preprint arXiv:2111.05849 (2021).

[2]. Fu, Huan, Bowen Cai, Lin Gao, Ling-Xiao Zhang, Jiaming Wang, Cao Li, Qixun Zeng et al. "3d-front: 3d furnished rooms with layouts and semantics." In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 10933-10942. 2021.

[3]. Fu, Huan, Rongfei Jia, Lin Gao, Mingming Gong, Binqiang Zhao, Steve Maybank, and Dacheng Tao. "3d-future: 3d furniture shape with texture." International Journal of Computer Vision 129, no. 12 (2021): 3313-3337.

[4]. Mildenhall, Ben, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, and Ren Ng. "Nerf: Representing scenes as neural radiance fields for view synthesis." In European conference on computer vision, pp. 405-421. Springer, Cham, 2020.

[5]. Barron, Jonathan T., Ben Mildenhall, Matthew Tancik, Peter Hedman, Ricardo Martin-Brualla, and Pratul P. Srinivasan. "Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields." arXiv preprint arXiv:2103.13415 (2021).

[6]. Yu, Alex, Ruilong Li, Matthew Tancik, Hao Li, Ren Ng, and Angjoo Kanazawa. "Plenoctrees for real-time rendering of neural radiance fields." arXiv preprint arXiv:2103.14024 (2021).

[7]. Garbin, Stephan J., Marek Kowalski, Matthew Johnson, Jamie Shotton, and Julien Valentin. "Fastnerf: High-fidelity neural rendering at 200fps." arXiv preprint arXiv:2103.10380 (2021).