近日,AI领域播客创作者Craig Smith,与缔造外洋AI语音产品LipDub背后的创业公司Monsters Aliens Robots Zombies(MARZ)联合创始人马特·佩诺西斯(Matt Penousis)进行近一小时的对话,磋商 AI 视觉与音频领域的发展状况与落地效果。
Matt表示,不雅观看《鱿鱼游戏》后,团队意识到可以办理口型与音频不同步的问题,于是开拓了LipDub,旨在自动同步口型与新的配音音轨。而截至目前,LipDub不仅做事于好莱坞,还扩展到广告、在线教诲、YouTube这类在线***等多个领域。
对付中国市场,Matt认为,中国是一个巨大的市场,尤其是考虑到中国拥有浩瀚的方言和措辞,这为LipDub技能供应了广阔的运用空间。但他也认为,中国在AI音频技能上的迅年夜提高,终极导致其在这一领域也在与美国等国家进行积极的探索和竞争。

Matt提到,除了帮助英语内容进入非英语市场外,LipDub也可以帮助中文内容进入英语和其他措辞市场,冲破文化和措辞障碍。比如,有一些中国公司展示了让特朗普说中文的***,虽然当时只是声音克隆,但这也显示了中国在这一领域的技能实力。
Matt强调,AI 音频技能具有广阔场景,须要市场不断加大对AI音频技能的关注。“我们绝对认为,LipDub 是一款很棒的产品,它在世界上为我们霸占一席之地。随着公司的发展,我们将进行大量新产品开拓,我们的重点是让个人可以参与并发挥这种创造力。只管我们有一些很酷的想法,但确实在努力保持专注,至少现在是这样,LipDub不会是我们推出的末了一个产品。”
以下是Craig Smith与Matt Penousis的对话速记:
Craig:好的。那么马特,请先自我介绍一下呢?请见告我们一些您的背景以及您是如何加入 LipDub 的。
Matt:当然。我叫马特·佩诺西斯 (Matt Penousis),是Monsters Aliens Robots Zombies联合创始人。
此前我是一名状师,开始了我的第一次。在法学院毕业之后,如今进入了软件企业。以是,我学习的知识与我们本日在这里所做的事情无关。此前创立了一家名为Acto的电子学习公司,花了五年的韶光。
后来,在Acto上的事情就结束了。然后,我现在的合资人的两个合资人创办了一家视觉效果公司,我对此很感兴趣。我对这个空间一无所知。我们是如何到达 LipDub 的?
第一阶段是我们所处的阶段,我们正在为一家视觉效果公司事情,我们看到了好莱坞对更快、更便宜的视觉效果的需求。因此,我们开始问自己,若何才能以更快的速率、更好的价格、并且不捐躯质量来进行视觉殊效事情或视觉效果事情。我们很早就认识了。
早在 2018 年,我们就开始考虑,如果我们要做出改变,或者为好莱坞供应真正差异化的产品,我们就须要投资于创新,而考虑到这些目标,当时 AI 彷佛是我们值得相信的精确创新。做出决定后,我们就开始探求运用。由于当你与好莱坞互助时,你会做很多不同的事情。你可能正在为《怪奇物语》制作一个生物,或者你可能正在让多伦多的天涯线看起来像纽约的天涯线,或者你可能正在使某人变老,或者你可能正在创建一个波浪仿照。
视觉效果是一个如此广泛、如此笼统的术语,如果你想在这个领域考试测验和创新,那么你真正选择一个你想要自动化的运用是非常主要的。我们正在探求广泛运用,由于好莱坞的 AI 产品研发事情非常密集,你当然不想花费数年韶光来构建和自动化险些不涌现或涌现的用例十分之一的项目。您确实在探求涌如今绝大多数项目中的用例。
随后,我们决定投资的第一个运用程序叫做Vanity AI(虚荣)。我们喜好它的缘故原由是,数字扮装和抗朽迈确实涌如今绝大多数好莱坞项目中。与此同时,我们以为Vanity AI 显然早于本日所处的新一轮 AI 热潮,但我们以为技能已经足够好以适应这种用例。
因此,我们MARZ建立并利用了一个内部 AI 工具,它可以缩短视觉殊效艺术家进行数字扮装或去老化镜头所需的韶光。因此,以前五秒的镜头可能须要视觉殊效艺术家半天的韶光,根据客户的哀求以及你要改变脸部的程度,可能须要艺术家两三天的韶光。以是 Vanity 将均匀每次拍摄韶光缩短为 25 分钟。
以是这是我们的第一次考试测验,基本上我们已经在处理脸部,他们称之为深度面部编辑。
不久之后,《Squid Game》(鱿鱼游戏)就问世了。我们大多数人都不雅观看了这个系列,这是一个精彩的故事,但显然,嘴唇和音频之间缺少同步,使我们分开了体验。
因此,我们认为,这可能是一个须要办理的非常有趣的问题。而本日,我们通过LipDub创建这种高度自动化的视觉效果运用程序。而唇音配音背后的最初论点是,通过自动将唇音与输入系统的任何新配音音轨同步,让好莱坞配音第一次看起来真实。
这便是我们开始做LipDub的缘故原由,显然现在我们已经进入市场了。就我们如何实现这一目标而言,这便是一种演化历史。
Craig:是的。当你说这是一个须要办理的问题时,实在还有其他技能和解决方案。我想到了 Rask AI,但它们并不那么精确。从我对唇配音和好莱坞的理解来看,更精确的办理方案是你们与其他公司的不同之处吗?
Matt:是的。以是对我们来说,就像好莱坞一样,显然你要办理的质量标准是尽可能高的。因此,很多东西须要在一定水平上事情才能可用。以是显然,衔接必须是完美的。纹理的保真度和您操作的分辨率必须是。好莱坞级别,现在常日是 4k,纹理的保真度必须非常出色。如果你有胡子,如果我们对你进行口型配音,我们将在这里做,我们希望能够看到你胡子上的每一缕头发。因此,我们办理这个问题的一个主要哀求是面部的清晰度、纹理和纹理保真度。
另一个明显的事实是,在好莱坞,很少有事情只是单一身份看着屏幕,而是人们跑过,逃离燃烧的建筑物,以及有 10 个角色说话而人们将头转向的场景。侧面和灯光正在变革。因此,我们投入大量研发事情的真正缘故原由不仅是能够做出出色的清晰度和高分辨率、高保真度纹理,而且还能够制作困难的内容,或者我们在内部称之为动态内容。
因此,当您考虑市场上的其他工具时,Rask 便是一个例子,有趣的是,这些工具是从音频方面开始的,因此它们的最初目的是自动化方程式的配音方面,而我们从不担心这一点,由于之前好莱坞为我们供应音轨,具有更多的高等音频效果。
现在,一些音频公司已经开始努力进行口型同步。因此,我们供应一应俱全确当地化办理方案,但我们的差异在于,当您利用 LipDub 时,您将得到市场上最好的清晰度、市场上最好的分辨率,并且您的创造力不受限定。您可以利用 LipDub 做任何事情。你可以做人移动,你可以做人以侧面姿势说话,你可以做物体滋扰,物体经由脸部。而且,诚笃说,我认为这些都是大问题。无论您做什么,无论您的***内容涉及什么,您都不受限定。而大多数此类消费级系统乃至连基本功能都难以办理。
Craig:是的,那么您的办理方案或您的平台如何与现有的配音办理方案集成?显然我认为Eleven Labs 是目前的领导者或者 DeepDub,那么,您谈到了这些全面的办理方案,对付更高的消费级产品,您是否打算将配音、部分添加到您的平台上?
Matt:是的。这当然是我们常常评论辩论的事情。因此,本日我们大多数好莱坞以外的客户,以及广告商客户,他们要么为自己的员工供应在线教诲,要么比方说在 YouTube 频道、广告代理商上发卖课程,我们意识到个中有很多,很多这些用户确实也须要办理音频问题。
广告在某种程度上是一个例外。他们仍旧利用真实的配音,但你可以看到他们实际上开始转向这些真正经济的办理方案我们本日与现有客户的方法是去购买 Deep Dub,去购买 Eleven Labs,然后利用我们。
我认为,我们未来的发展方向是我们可能会成为一种工具,但还没有决定到底是哪一个。然而,我们有很多客户哀求一站式做事,并不是说利用两个软件,因此我们这一套方案是对市场有利的。
Craig:那么,用于匹配嘴唇运动或操纵***中像素的算法的流程、技能流程是什么?产品本身是如何事情的?
Matt:无法透露太多,由于我们所做的很多事情以及使我们分歧凡响的缘故原由,过去两年多的韶光里,我们公司做了很多技能和专业事情,它的运作办法类似于 Dropbox。
如果你就拥有了一份原创文件,假设其是用英语制作的,而您希望以普通话为目标。这正是我们在这个播客中要做的事情。Liptub上的产品过程非常大略。您可以在media上传后,系统要做的第一件事是实际检测并跟踪在媒体中找到的所有面孔。然后,它会提示用户连续标记所找到的面孔,一旦标记完毕,LipDub 就会理解身份。对付一个小时的内容来说,上传媒体和标记的过程可能须要大约 20 分钟的预处理韶光。
一旦你有了经由处理的***,你所要做的便是在中间进行一个演习步骤。以是,我们的系统所做的便是实际演习,得到增强的配音效果和匹配效果,这是我们打算过程中最长的部分。而过去须要10个小时的韶光,现在我们已经减少到2小时,并且我们将连续努力缩短韶光。末了,将新的音频文件与这些扬声器干系联,这是一个大略的拖放操作。
对我来说也是如此。这便是平台上的一样平常流程。
Craig:这个平台正在做的是逐帧操作的音***对齐,那么这是用补丁完成的吗?如何更换大面积的像素,以及它如何与音频中嘴唇的闭合或伸开干系联?
Matt:是的。以是我们天生的险些是眼睛下方的所有东西。这是基于音频的重修,随着韶光的推移,我们不断进行修正,并且不断发展。就系统的事情事理而言,大多数人都能弄清楚个中的一些显现层面,再说一次,音素的数量是有限的,然后是与这些音素干系的双音素正完成映射。但这才是真正开始。
我们很早就认识到口腔内部构造的主要性。我们说话的大部分内容,实际上不是我们的嘴唇,而是我们的舌头,而是我们的牙齿。有些单词险些完备是由我们的舌头产生的,以是你可能有两个非常相似的嘴形。但不同的舌头和牙齿位置会产生不同的声音。这对我们来说是一个巨大的寻衅,我们要弄清楚如何精确地处理口腔内部构造?然后便是如何个性化?你如何确保我正在重修的内容不但是看起来像任何一组嘴唇或随机的一组嘴唇或嘴唇的代理,你如何使它看起来完备像说话者,然后你就连续提高办理这个问题的长尾问题。
Craig:是的。我们谈论了现有的消费级产品。我们要用中文来做这件事,我在中国有不雅观众。中国人有类似的办理方案吗?由于很多时候,他们正在与美国的办理方案进行最前沿的竞争。
Matt:是的,现在有相称多的产品,它对我们来说是有效的,由于。我们以为从很多方面来说,我们都是这个类别的首创者。有一家公司在口型同步方面比我们早,但他们并不专注于自动化,这对我们来说非常主要,不是为了自动化而自动化,但我们总以为纵然我们可以口型同步,如果须要太永劫光或者如果本钱太高,就会限定大多数用例的可访问性。
因此,就环球第一批真正实现在这种质量水平上运行的东西的自动化而言,就像我们真的以为我们推出了这个种别一样,是的,当然现在我们看到一群人进来并称他们为快速追随者公司。不同之处在于,这些公司中的大多数只是包装者。
他们只是环绕开源和中国市场。当然,它们实质上受到开源以及开源所能带来的限定。两年前,我们开始利用开源,但刚刚意识到它乃至没有让我们靠近我们须要达到的目标。但目前,我们没有看到任何中国的竞争对手。
Craig:我问起中国的缘故原由是,有一个著名的***,我认为这是感知韶光或我翱翔科技。我不记得是哪一个了。中国公司推出了特朗普用中文说话的内容,这让当时的所有人都感到震荡,这是一个声音克隆,但口型同步并不存在。以是我想知道,中国人是否已经办理了假唱部分。对付您口型同步的***的每一分钟或一小时,这个过程须要多永劫光,或者像您所说的那样,根据场景的动态程度而变革,须要多少分钟或几小时?
Matt:是的,粗略地说,您想要在平台上天生的每一分钟新内容,现在可能须要10-20分钟。虽然它不是线性的。这并不是说您在系统中运行一小时的内容,随着内容的移动,速率会变得更快。但由于我们以可扩展的办法构建了统统。所有这些过程。可以并行进行。
举个例子,如果我们将这次对话口译成十种措辞。您可以在云端同时天生所有 10 个新***,并且您可能会预测,是的,它可能会在一个小时内均匀达到每分钟 10 分钟旁边。不包括培训。演习是这样的,你必须做两个小时,你做一次。您不必针对每种措辞实行此操作。您只需实行一次即可真正理解纹理。然后,是的,您看到的可能是每分钟 10 分钟旁边。
Craig:是的。本钱摆在那里,你如何定价?是订阅模式吗?还是说按分钟收费或如何收费?
Matt:是的,你说得完备精确。以是这是一种订阅模式。
它的事情事理是您在平台上预先购买积分。您可以每月购买积分,也可以每年购买积分。如果您每月购买积分,这是一种“利用或丢失”模型,您将获得当月分配的积分,而未利用的积分将在月尾到期。如果您每年支付积分,您将预先得到所熟年度积分,并且可以在一年中随时须要时灵巧地利用这些积分。信用的价格是 1 美元。不同之处在于您花费的积分数量取决于您在平台上运行的活动。
例如,天生 1080p 输出***将比天生 4K ***花费更少的积分。
Craig:那谁是紧张用例?你们为好莱坞打造了这个。但在我看来,随着语音克隆和实时翻译的发展,各个领域对这种办理方案的需求将会越来越高。
Matt:是的,这便是我们愉快的缘故原由。 LipDub 很有代价,须要有一些你想要关联的新配音音频,而从历史上看,配音一贯是一个非常手动、非常昂贵的过程,实际上大多数情形下只有好莱坞和广告商利用。
现在,配音正在成为一项非常包袱得起、非常随意马虎实现的任务。天下上有多少内容即将被配音。目前,天下上只有 1% 的***内容经由配音。但同样,这是基于这样一个想法:配音一贯是一项非常手动、非常昂贵的任务。如果现在每分钟配音只需几美分,那么环球互联网内容的配音比例将达到多少?我们强烈认为,任何配音的东西都该当对口型。那么回到你最初的问题,谁是用户?这是一场持续不断的对话。
YouTube市场让我非常愉快,真的非常非常愉快。目前有很多证据表明这一点。来自那些早期采取者、创新的《野兽师长西席》(MrBeast)YouTuber选择进行配音。为期两年的实验得出的统计数据表明,环球对这种内容有巨大的需求。
Craig:是的,实际上,我没故意识到MrBeast为他的***选择 AI 配音。他配音成什么措辞?
Matt:他一开始是 15 个,他会增加到 30 个。而他在人工智能音频技能涌现之前就开始了他的实验。因此,最初他付钱给传统的配音事情室来做这项事情,他并没有发布他所有的绩效指标,但他发布了某些月份作为例子,并且他 50% 以上的不雅观点是通过配音得到的。
Craig:您是否正在与他互助,或者 YouTube 是否可以将其集成到 YouTube 事情室中,以便人们只需单击按钮即可对口型配音音频。
Matt:是的,以是我们正在与MrBeast互助。而且,我们开始探索一些唇形同步的事情。我们最近还为该平台引入了许多其他紧张的 YouTube 主播。这些人要么是已经配音了内容,要么只是看到了趋势,想要立即开始本地化他们的频道。由于确实如此。
相对而言,它确实代表了LipDub的成果。本地化是实现这一目标的好方法。这不是唯一的市场,但我对这个市场特殊愉快,由于我真的像天下一样相信,我们没有情由只看说我们措辞的有影响力的人。
我认为人们到处都在制作有趣的内容。你只要纵不雅观全体媒体领域,就会创造有这种需求。我现在便是一个例子,我真的很喜好幕府将军,我认为这太棒了。鱿鱼游戏太棒了。我们现在还与一些 YouTuber 互助,他们是天下其他地区的紧张影响者,他们确实有兴趣首次进军北美市场。
而且,字幕是历史上所做的办法,只是它不是很吸引人,现在溘然间您就可以拥有一个 YouTube 频道,您可以在个中供应天下上每个国家的语音效果、一流的不雅观看体验,就像是为您量身定做的一样。我对此感到非常愉快。
同时,现在正在倾斜的市场是广告,无论是数字营销还是电视广播,都是一个非常大的市场。许多签约客户要么是广告公司,要么是他们的***制作公司。我们刚刚做了一个电视广告,可能是我最喜好的科技品牌。很快就会出来。我们很快就能谈论这个问题,但这确实令人愉快。
其余,在线教诲也是主要的覆盖领域,无论是针对您的员工,假设您是一家在世界各地拥有员工的跨国公司,能够与您的国际员工或发卖课程的职员进行沟通进入新市场,对吗?我们现在有一些人拥有故意义的课程包袱,非常成功的公司,但只在他们的地区取获胜利。现在,他们将 LipDub 视为进入新市场和发展业务的一种机制。
我认为这是一种令人愉快的发展办法。
Craig:这是双向的。有些人用英语制作内容,希望进入非英语市场,但内容数量巨大。我在中国的大部分韶光都是用中文度过的,这是英语天下从未见过的。坦率地说,这便是我认为两国之间存在理解差距的缘故原由之一,由于人们只是没有打仗到中文,从您的角度来看,大部分内容、大部分市场都是将英语内容翻译成其他措辞,您认为缘故原由是什么?
Matt:确实两者都是。无论哪种办法,我都没有看到主导趋势。对付好莱坞来说,特殊是他们最初的用例,他们最感兴趣的是外国英语,可能只是由于我们作为说英语的人,我们已经没有耐心了。其他市场例如德国或法国,都是靠配音发展起来的。
以是嘴唇不同步的想法是它并不理想或最佳,但至少他们是伴随着它终年夜的。然而我们缺少耐心,而且当涌现这个问题时我们非常适应。以是好莱坞当然对英语的外国文化感兴趣,但是当涉及到广告、在线教诲、YouTube 时,我们真的看到了这统统。
查看所有紧张欧洲措辞:德语、法语、意大利语。看到很多印度措辞,比如印地语,普通话是一大类。以是我们确实创造我们还没有看到任何一种特定的趋势突出。只是觉得每个人都想更好地与每个人沟通。
Craig:实时性如何?是否可以想象,终极您将能够同步和配音实时流媒体内容,但会有一些延迟。
Matt:是的,这当然是可以想象的。在实时事情时,常日面临的寻衅是您常日会做出一些质量权衡。
但现在很多时候,随着技能的发展,旧的权衡消逝了。因此,我们当然对此感兴趣,作为未来开拓的未来,由于显然如果你可以实时进行,你就会开辟很多有趣的用例。到那时,它就真正成为通用翻译机中的一个主要齿轮。我可以与中国的同事交谈,并以一种我以前从未做过的办法与那个人建立联系,这一想法显然非常有趣。然后你就拥有了很多实质上是实时内容的内容。
很多广播都是现场直播的。只管我们确实看到该平台上有一些广播用例。举个例子,现在有几家公司正在对印度所有不同的官方措辞进行板球剖析。但这些,是的,我认为这真的很酷。印度是一个巨大的市场。
印度就像最好的市场之一,由于有很多方言。常日,您要么必须为每种方言创建内容,要么某些方言无法得到出色的内容不雅观看体验。因此非常看好印度的这项技能。
Craig:寻衅之一不仅仅是嘴唇的张合或牙齿或舌头的位置,还有说话,由于翻译中的某些内容可能比英语中的表达韶光更长,反之亦然。你怎么处理那件事呢?
Matt:是的,这是一个很好的不雅观点。我认为这两个是大多数人工智能音频软件的限定成分。以是首先是翻译的准确性。有些措辞的翻译准确率比其他措辞高得多,我认为这是一个须要办理的问题。
另一个更难办理的是。口语和鄙谚。但我有信心,这是翻译准确性问题的一个子集,这两件事都是真正的问题。这便是大多数人工智能音频系统中的缘故原由,对吗?您可以进入并编辑重定向的脚本,但这须要会说该措辞的人进入并为此事情,这只会使系统更难以从中获取代价,对吧?
如果为了让我将***完美地翻译成 10 种措辞,如果我须要每种目标措辞的演讲者,来审查这些音频平台的翻译,这并不是说这是不可行的。这只是有点烦人和逻辑上的寻衅。
因此,这肯定是当今平台和利用 AI 音频的人们所存在的一个问题,他们中的大多数人都在不遗余力。真正做这项事情并让人们理解这些措辞。您提到的另一个问题是韶光,它是系统中的限定成分。如果您正在听一段音频,觉得该音频的一部分加快了速率,然后又减慢了速率。可接管的不雅观看体验和终极完备分散您把稳力的东西之间只有一线之隔。不过,办理这个问题的方法还是回到脚本编辑部分。如果你有,如果你有英语内容要翻译成西班牙语,开箱即用的西班牙语音频是 15 秒,但英语是 10 秒。
当然,你可以依赖自动减速、加速,或者你可以实际进入并调度西班牙语脚本,取出一些单词,轻微调度一下。顺便说一句,这正是好莱坞所做的。但话又说回来,这太麻烦了。
Craig:但这听起来像是可以自动化的措辞和翻译。
Matt:是的,我认为这可能是一种有趣的办法。我认为可以捕捉一些原始脚本内容的迭代。这个更短,更适宜您的***,这个是逐字记录的,但太长了。我并不是说这些都是无法办理的问题。这些只是当今一些人走进平台并期望完美的限定。
AI音频软件非常神奇,但神奇并不虞味着完美,神奇也不虞味着不须要任何事情。
Craig:显而易见的问题是音频隐私和滥用的可能性。那么你们对此有何意见?或者您是否正在考虑在平台中内置这些控件或任何东西来监管这种滥用行为?
Matt:这是我们常常评论辩论的事情。我们建立这个项目是为了终极帮助天下更好地沟通,以是我们做了一些事情。我们做的一件事是,我们确保无论您是谁,只要在平台上单击一下,您实际上就有权利用 LipDub 那个人。
我们还抽查通过平台运行的所有内容。如果我们创造滥用。如果我们看到某个名人正在宣扬我们知道他们没有宣扬过的东西,那么您将被终生禁止利用该平台。
这些努力非常耗时,但我们认为是必要的。我认为这在很大程度上终极将取决于那些促进 AI 天生内容的人之间的良好互助,以及该内容的分发平台,有多种方法可以用元数据标记这些内容,确保任何人工智能天生的***内容都会被贴上这样的标签。
我认为这很主要,由于就你的不雅观点而言,确实如此。如果我们不这样做,如果每个人不开始共同努力,那么我认为所有这些新一代 AI 技能的负面影响将是真实的,可能对社会非常有害。我认为没有人乐意这样,新的能力可以完成他们永久无法想象的事情,从而授予个人权力。
Craig:我知道,通过数字水印或在人眼不可见的像素中嵌入一些图案,以防止音频滥用。那你们正在与研究职员谈论此类办理方案吗?
Matt:这正是我所指的数字水印。我不是我们团队中真正推动这些谈论的人,由于我不是工程师,而且这种技能远远不足。如果我们希望这些数字水印是永久性的,它就非常主要。
Craig:是否有人们可以查看的用例?有利用过您的技能的好莱坞示例或 YouTube 示例吗?我猜你说的是MrBeast。
Matt:是的,诚笃说,现在在好莱坞,我们在 LipDub 所做的大部分事情都是他们所说的 ADR。我们的软件常日可能须要进行非常昂贵的拍摄,这便是我们本日与好莱坞互助的事情。坦率地说,该产品须要一个适宜好莱坞完成这项事情的本钱构造。
其他业务层面,我们的许多 YouTuber现在才刚刚起步,因此您很快就会在平台上看到他们,并且您会开始看到他们的内容弹出。然后还有广告,对吧?我们刚刚为乐事做了一个很棒的大卫·贝克汉姆的广告。我们在哪里进行了变动,在哪里进行了本地化,本地化为不同的措辞。
我刚才提到,我们刚刚针对八种措辞进行了三项营销活动。我们的一些客户再次代表品牌开展事情,无论是为了他们的数字营销还是电子学习事情。这些指标非常惊人。就收视率和参与率而言,但这些并不是我们必须分享的指标。
Craig:你是如何组建团队来做到这一点的?创始人是谁?起源故事是什么?你是一名状师,为何会做软件?
Matt:我也很惊异。以是这不仅仅是你,是的,这统统都是从我以前的软件公司开始的,我们没有做人工智能事情。
在建立团队的过程中,我很快就学到了一件事,就像这个团队的第一次迭代一样。这当然不是一个质量赛过数量的游戏。有很多人是研究职员。你可以雇一个满是普通研究职员的房间,你会得到 100 个情由来阐明为什么问题无法办理。而你可以聘请一位令人难以置信的研究职员,他们会给你问题的答案。在 MARZ AI 成立之后,我很快意识到这将是一个严明的项目。如果我们要开拓天下一流的产品,我们就须要天下一流的研究,事实确实如此。
在这个中,找到丹尼尔·科恩-奥(Daniel Cohen-Or). 是关键的一步。丹尼尔是天下上 SIGGRAPH 揭橥最多的贡献者第一。他在特拉维夫大学的实验室享誉天下。他们加快了 30 年前作为图形实验室起步的步伐,但 10 年前,他们是环球第一批开始问自己这样问题的团队之一:深度学习将如何影响图形?
从那时起,他们的实验室发布的论文和团队都在做 AI 技能研发,包括很多精良的加拿大教授。通过成立顾问委员会办法,与环球 AI 音频领域的专家进行漫长地联系,从而找到一些真正精良的候选人。
终极,我真的把目光投向了丹尼尔,花了八个月的韶光才签下他,担当公司首席科学家。但我认为他对这个愿景感到愉快,由于它与他实验室的事情非常同等。
其余,我还找了阿里·马达维·阿米里,担当我们的研究总监。他是北美顶尖的图形打算学校、加拿大 SFU 的助理教授。一旦我们有了这些人,你就拥有了一个研发环境,与环球范围内一些最有才华的人一起在这个领域进行研究,然后它就开始自我发展。
Craig:你们是在调集顾问委员会之前筹集资金,还是之后再筹集资金?
Matt:我们在筹集资金之前就调集了顾问委员会。然后,我们按照这些思路推出一些东西。我们绝对认为,LipDub 是一款很棒的产品。
我们认为它在世界上为我们霸占一席之地,这是一个发展出发点。
我认为,随着公司的发展,我们将进行大量新产品开拓,一贯以来,用户如何从创意的角度授予个人权力,让他们能够访问利用过的不同视觉殊效运用程序采纳艺术家团队。我们的重点是让个人可以参与并发挥这种创造力。像这些事情我们当然还没有完成。
对付改变,我们有一些很酷的想法,我们正在四处探求,但我们确实在努力保持专注,至少现在是这样。比如,研发的这个 LipDub还远远未结束,它也不会是我们推出的末了一个产品,这是肯定的。
(本文首发于钛媒体App)