机械阀门隔膜阀叫板Sora出圈后Luma AI如何接住泼天的流量？

发布时间：2024-12-03 11:38:21 次浏览

　　Luma AI在视频领域叫板OpenAI故事，好比中途改打网球的杜兰特，打赢了网球男单大满贯纳达尔。

　　最近，这家成立于2021年的硅谷AI公司，在和《智能涌现》的交流中，复盘了视频生成模型Dream Machine AI爆火的过程。

　　在硅谷率先发布一款效果能对标OpenAI Sora的视频模型，对一家初创公司而言并不容易——更何况，Luma AI在视频生成领域算得上是“半路出家”：

　　2024年前，这还是个主攻3D生成、规模在10人左右的小公司。Luma AI数据产品负责人Barkley Dai告诉《智能涌现》，2023年12月决定转型做视频生成后，团队才扩充了视频领域的人才，规模增加到了50人。

　　他提到，Luma AI能成为视频生成领域的蚂蚁雄兵，技术实力、发布时机和运营策略缺一不可。

　　人才，是这家公司认为做出视频模型最重要的资产。2023年12月，决定从3D转型做视频生成后，Luma AI吸纳了40个AI领域的人才。

　　而和OpenAI、Google打擂台，Luma AI又对模型的算法和Infra做了诸多优化。Barkley对《智能涌现》表示，团队在Sora同款DiT架构的基础上，采用了独家改进的架构，保证生成效果的同时，还节省了训练和推理成本。

　　视频模型“Dream Machine AI”的发布时间，2024年6月13日，踩中了视频模型赛道的空白点——这也让Dream Machine AI具有了稀缺性，除了快手“可灵”之外，这是唯一真正对大众开放的视频模型；

　　机械阀门隔膜阀

　　而模型的“限免”策略，又立刻吸引了大量试用者：上线天，Dream Machine AI的用户量就破了百万。Barkley对《智能涌现》透露，Dream Machine AI的投流费用是0，全靠KOL自发安利，和用户的口碑发酵。

　　Luma AI产品设计师Jiacheng Yang（杨家诚）告诉《智能涌现》，与Midjourney、Adobe等专业设计工具不同，Dream Machine不需要用户学习如何写Prompt（提示词），也不需要用户懂设计，“我们的目标就是做一款AI小白和设计小白都能轻易上手的AI视觉工具”。

　　（2）由AI提供创意点子，根据用户输入的Prompt，自动提供创意、风格选项；

　　（4）将AI设计的图片转化为视频，供用户查看图片中主体在不同角度下呈现出的细节；

　　（5）将所有AI生成的素材发布在面板上，并生成可供分享的链接，有助于团队进行头脑风暴。

　　为什么选择用图像设计平台，去承接视频模型的用户？“想要扩大AI视觉领域用户的盘子，只有视频生成是不够的。图像生成的应用场景会更广泛，所以我们想做一个很好上手的设计平台，用户能够轻易上手的同时，也能展现我们的模型能力。”Barkley提到。

　　行业竞争，是作为初创企业的Luma AI不得不面对的问题。他们认为，打出差异化优势，是让模型和产品在行业中具有辨识度和获客的关键。

　　比如面对Midjourney等图像产品的竞争，Dream Machine把语言理解能力做到了“天花板”。以及，这也是一个最会设计字体的模型——相较于Midjourney和GPT生成的带文字的图片，Dream Machine图片中文字的设计感和清晰度是最高的。

　　和视频模型一样，Luma AI给Dream Machine花费的投流预算，是0。在Barkley看来，烧钱营销看的是回报率，这意味着最终还是要用产品说话。以及，“AI市场还很小，我觉得对AI公司来说，烧钱营销还为时尚早。还不如把营销的钱，投到产品研发上”。

　　《智能涌现》：2024年6月发布视频模型Dream Machine的时候，团队有没有预料到会爆火？

　　Barkley：其实当时是远超我们预期的机械阀门隔膜阀，我们一度出现服务器和GPU资源没有办法承受的情况。

　　Barkley：其实最早发布的版本，还不是效果最好的版本。但我们决定全量免费放给所有的用户去使用。

　　在当时，还没有一个视频模型能够做到这样。所以短时间内吸引了很多用户的关注。

　　Barkley：其实我们当时也给免费设置了一个额度，我觉得这是一个行业的standard practice（基本操作）。

　　只是当时的峰值对我们来说过高，大量的用户在短时间内涌入，服务器后台收到了太多的request。

　　Barkley：其实我们还是在技术层面做了很多成本的优化，比如不断去提升视频生成的速度，最开始我们的模型生成5秒的视频需要120秒，现在只需要20秒。

　　以及在保持原有生成质量的情况下，视频模型的推理还有很多优化的空间。所以在半年时间里，视频模型的成本是在下降的。

　　所以我觉得推理成本对我们来说不是特别大的负担，当然也是一笔开支，但未来会变低。

　　《智能涌现》：你提到Dream Machine是有免费额度的，那么使用完免费额度后的用户付费率怎样？

　　Barkley：说实话我们对付费率完全没有任何预期。因为当时我们对Dream Machine的定位是教育用户的产品，让用户知道Luma AI视频生成的潜力有多大。当时市面上还没有一个视频模型是按照对标Sora的水平发布的，所以我们对付费率完全没有对标的对象。

　　但现在发布的AI设计平台，我们的定位是最终去获客的产品。所以现在我们对它的收入和付费率有更高的期待。

　　当然我们提前去联系了很多创作者，他们试用后都觉得很兴奋，甚至大多数人之前用过Runway，还有人用过可灵。但他们用了我们的产品后，都觉得说“This is the next big thing”，在推特上自发帮我们推广。

　　Barkley：我感觉硅谷大部分还是比较产品驱动的，运营这一套主要是中国公司。

　　视觉领域的市场还很小，我觉得对AI公司来说，烧钱营销还为时尚早。即便ChatGPT的用户很多，但是像一些视觉模型，用户还是很少数。

　　这个时候如果你做投流，去做跑马圈地，留存肯定不高，还不如把这些钱投入到模型和产品的研发上，用更好的模型和产品吸引用户的增长。

　　《智能涌现》：在发布视频模型之前，Luma AI的技术和产品还是围绕3D生成的。团队是什么时候决定做视频生成模型的？

　　Barkley：我们原来其实也不会说自己是一个3D公司，公司的定位还是视觉领域的AI公司，我们想去理解这个世界在视觉上的构造，是如何帮助AI对世界进行理解的。

　　从创始团队的研究背景来看，一开始3D是Luma AI比绝大多数公司和团队更擅长的事。后续我们也确实做了很多3D生成上的技术突破。

　　但是3D可以被用于训练的数据量级，相较于图片和视频来说都会少很多。同时在使用场景上，目前手机和电脑还是主要的产品载体，但3D也会比视频更受到限制。

　　但是当我们有更多的算力、更多的人才，也有更多的能力去推进我们的愿景，也就是更好地了解世界，我们也自然地会从3D转向做视频。

　　Barkley：从我作为一个内部成员的视角来看，我觉得不管是3D还是视频生成，一直都是合理的。

　　因为不管是3D，还是视频和图片，都只是一种模态。如果我们最终想做到的是对这个世界的理解，那么不管是一种模态、一种生成，还是一种创意的发挥，我觉得只要目标不变，这些媒介就只是帮我们达成目标的手段。

　　Barkley：我觉得整个过程还是比较顺利的，因为我们在做3D生成的时候，团队也就在十几人的规模，但当我们做视频生成以后，引入了很多视频领域的人才，现在团队规模已经超过了50人。

　　这个过程其实是吸纳了更多新成员去推进目标的实现，而不是说原来大家就在频繁地换方向。只是原来做3D的人，现在也在逐渐开始做视频方面，比如数据等各方面的工作。

　　《智能涌现》：做3D的经历对视频生成有帮助吗？很多反馈说Dream Machine的运动轨迹做得很好，这和3D积累下的空间理解能力有关吗？

　　但从我们发布最早版本的视频模型开始，我们对相机的轨迹运动，包括视频里有多少机位的变化，是十分侧重的。

　　所以当时用户也会普遍反馈说，Luma AI的模型虽然有时候生成结果不是那么稳定，但是它能给到很多的机位的移动，以及复杂的人物运动轨迹。

　　我觉得过去在3D上的一些经验，能够让我们在做视觉模型的时候，意识到提升机位的丰富度和运动轨迹的复杂度，能够提高用户对视频生成内容的消费意愿。

　　不过我觉得过去的经验，包括模型本身之间机械阀门隔膜阀，其实没有那么大的关联性和借鉴意义。

　　《智能涌现》：6月份Dream Machine走红后，你们怎么考虑用户留存的问题？

　　Barkley：我们发布Dream Machine的时候，就知道后面一定要有产品去承接用户持续稳定的需求。

　　比如你作为一个ChatGPT的长期用户，即便后续会出来很多能力做得和GPT差不多的模型，你还是大概率会选择使用ChatGPT。因为ChatGPT通过长期的深度学习，已经把握了用户习惯，能够更好地理解你的意图。

　　机械阀门隔膜阀

　　Barkley：这个想法其实在我们最开始做视频模型的时候就有了。所以产品的想法是去年（2023年）12月和视频模型同步推进的。

　　只是在产品的设计过程中，我们后来意识到，要想把整个设计流程涵盖，也必须要做到能够生成图片。所以在视频模型发布5个月以后，我们觉得图片模型也足够好的时候，把两部分同时整合成一个产品。

　　Barkley：其实我们觉得原来的Dream Machine，更多的用户还是偏专业的，至少是有做AI电影的经验，或者知道怎么用Prompt去生成更好的效果。

　　但其实我们更希望现在的产品，让之前没有用过AI甚至没有设计经验的人用起来。比如，如果他们在工作中需要用这样的流程，可以非常容易地通过一轮一轮地和AI进行对线月份发布的视频模型Dream Machine，其实还是需要一些使用门槛的。我们在那时候就在想，希望普通人也能access这些视觉工具，就好比视觉里的GPT。

　　但视觉是一个很小众的垂类领域。我们做设计平台的想法就是，如何去扩大这个群体。只有扩大群体，才能让视觉领域的AI获得更好的发展。

　　《智能涌现》：非专业设计师很难把一整套设计的工作流用得很深入。我的大部分生图需求，可能输入一个简单的Prompt，用GPT，或者Midjourney就能满足。

　　Jiacheng：我们的想法是，把用户能轻易感受到差别的功能做到最好，比如我们图像能力比GPT好，但是语言理解能力比Midjourney要好。

　　你看Midjourney生成的海报，既不Crazy，也没有Avocado的元素，也看不出来是个乐队的海报。

　　语义理解的能力其实比你想象的重要，会影响很多场景的落地。因为生成随机的、好看的图片，在实用场景中意义不是很大。

　　如果要让Midjourney真正还原你的意图，你需要写很多Prompt，包括海报的设计、上面写的文字、解释Crazy的风格等等。学会写Prompt，我大概花了两三个月时间。

　　但我相信ChatGPT的大部分用户是不会去学的，他们就是进来问一个问题，得到一个结论。

　　我们做设计产品的思路，也是一样的。按照之前市面上的产品，如果我想要得生成还原我意图的图片，首先，我要花20美金买Claude或者GPT，帮我生成Prompt；其次，我要再花20美金到40美金买Midjourney，生成图片；最后我还要花20美金的订阅，把这些图片变成视频。

　　算下来，文生视频起码要花60-80美元。现在用Dream Machine，可能10美元就能搞定了。

　　《智能涌现》：Dream Machine语言理解能力的来源，也是自研模型吗？

　　Barkley：语言模型用了第三方的API，我们再去构建了一个Agent。这个Agent能够理解用户意图，然后通过不同的Prompting的方式，把用户意图转化为图像和视觉模型能够理解的指令。

　　《智能涌现》：一个俗套的问题，你们怎么看待巨头下场？按照国内的情况，字节和快手的下场，已经给很多初创公司带来了融资和获客上的压力。

　　Barkley：我们发现，这个问题其实是公司和股东之间的问题。只有股东才会关心：如果哪天一个巨头把你这个事情做了，会怎么样？

　　但实际上，我们公司很多Research都有这样的感觉：当公司达到一定规模，需要你去协调各种各样的东西的时候，你推进的速度会变得特别慢，创新的速度也会掉下来。

　　虽然Luma AI的团队在过去一年多的时间里也扩张了很多，但还是保持着快速创新、快速迭代的节奏。

　　我觉得有一个类比特别好：其实你在大公司里，真正去做视频模型和相应产品的团队，可能也只有几十个人。比如OpenAI看起来很大，但Sora的团队也就这么多。

　　当然说到更大的公司，比如Google，他们可能有比我们更好的distribution channel（扩散渠道），但他们同样会受制于各种流程上，一个新产品会有商业化等很多方面的concern，推进的速度不会那么快。

　　Barkley：整体迭代速度一直是以几个月，甚至是1-2个月来计算的。期间会加入新的功能，底层模型的效果也在提升。

　　Jiacheng：我觉得首先可以去分析ChatGPT是怎么获客的。你会发现，ChatGPT不光最好的程序员在用，你隔壁的大叔大妈也在用机械阀门隔膜阀。

　　我觉得AI工具带来的最大的变化是，由于它本身的可塑性和灵活性，它可以服务几乎所有有视觉需求的人。

　　我并不觉得目前特定的视觉专业的软件，有非常好的交互，换句话说，目前没有专业视觉工具定义了整个行业的交互范式。

　　Jiacheng：比如ChatGPT就定义了整个行业ChatBot的交互范式，像现在美国的小孩都不是说ChatGPT，他都是说你有么有问你家的“Chat”。

　　我们做Dream Machine也是一样的。谁能先把普通大众的想象，通过一个流畅、简单的方法，呈现出一个好看有趣，然后能分享给别人的或者有用的图片，谁就能在这个领域有优势。

　　Jiacheng：我们目前来说，包括行业对我们的认知，都是一个视频模型科研公司。

　　但是如今的AI技术是一个非常以用户体验为核心的产品，技术型产品的目标和迭代过程很明显，就是最好的用户体验。

　　我们能想到的最好的用户体验，就是用最自然的交流方式，把Dream Machine当成一个创意助手或者Creative Partner。你怎么和设计师互动，就怎么和系统互动。

　　有了这样一个目标，我们就会去了解我们的图片和视频模型，能够提供怎样的能力。同时也去了解整个行业处于怎样的发展阶段，第三方的语言模型能够给我们怎样的帮助。

　　机械阀门隔膜阀

　　期间，各种各样的Agent软件工具也在迭代，大家对于AI应用层的思考也有变化。所以一年以来，我们的产品就是一个持续迭代的过程，具体就是一个月根据行业变化打磨，再花一个月去修改。

　　Barkley：期间我们也发现，在AI视频生成领域，目前图生视频比文生视频更加受欢迎，因为用户在乎可控性。

　　《智能涌现》：期间行业哪些产品或者认知的动向，会对公司的产品研发节奏产生影响？

　　Barkley：其实我觉得过去一年时间里，我们的产品策略没有变太多，还是一直想做能让所有人轻松使用模型的产品，不会随着其他AI产品的发布去做任何的策略调整。

　　我觉得产品团队更关心的事一些Research上的动态和进展，比如我们想做风格转换、风格迁移的功能，就会去查有哪些最新的学术研究和论文，甚至产品团队会加入Research团队的讨论，去看研发功能的可行性。

　　Barkley：立项的时候，我们会从用户的角度，觉得风格借鉴这样的功能很重要。

　　但是从Research的角度，其实他们不确定这个功能能不能做出来，以及能达到怎样的效果。所以Research会先去做很多的实验，直到他们把算法做出来以后，我们看到这个功能的极限，再去思考怎么把功能融入到整体产品和体验上。

　　所以其实Research是一个更加不确定的过程，往往需要比较长的时间，也不知道要花多长时间训练。

　　Barkley：对。所以其实很多功能我们会从用户的角度去想，有的功能Research团队能够在短时间内做出来，有的功能我们又继续投入，去做更长的研判，体现在未来的产品里。

上一篇：机械阀门隔膜阀钢铁行业产业洞察-产业资讯_ 最新动态(5)_前瞻财经 - 前瞻网

下一篇：机械阀门隔膜阀产经_国内外最新产业动态_产业趋势(14)_前瞻经济学人

星空XK·(中国)体育官方网站

机械阀门隔膜阀叫板Sora出圈后Luma AI如何接住泼天的流量？

网站导航

联系我们

关注XK星空体育