每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
几个月前,OpenAI用一款名叫Sora的生成式AI模型震撼了科技界,这款模型能将场景描述转换成原创视频——无需摄像机或拍摄团队。但到目前为止,Sora的使用权限非常严格,公司似乎打算将其定位于资金充裕的创意人士,比如好莱坞导演——而不太可能是业余爱好者或小规模营销人员。
然而,Snap前生成式AI负责人亚历克斯·马什拉博夫嗅到了机会。因此,他推出了Higgsfield AI,这是一个为更加定制化、个性化应用设计的AI视频创作与编辑平台。
通过定制的文本到视频模型,Higgsfield的首款应用Diffuse能够从零开始生成视频,或者拍摄自拍并生成以该人物为主角的短片。
马什拉博夫在接受TechCrunch采访时表示,“我们的目标受众是各种类型的创作者,从想要与朋友一起创作有趣内容的普通用户,到希望尝试新内容格式的社交内容创作者,再到希望他们的品牌脱颖而出的社交媒体营销人员。”
马什拉博夫通过他之前的创业项目AI Factory加入Snap,该项目于2020年以1.66亿美元被Snap收购。在Snap期间,马什拉博夫帮助构建了Snapchat的AR效果和滤镜,包括Cameos,以及Snapchat备受争议的MyAI聊天机器人。
Higgsfield与AI研究员、专门从事生成视频的Yerzat Dulat共同推出,提供一套精选的预生成剪辑、一个上传参考媒体(如图片和视频)的工具,以及一个提示编辑器,让用户描述他们希望描绘的角色、动作和场景。通过Diffuse,用户可以直接将自己插入到AI生成的场景中,或让他们的数字化形象模仿其他视频中捕捉到的动作——如舞蹈动作。
马什拉博夫说:“我们的模型支持高度逼真的动作和表情。我们正在为消费者开创‘世界模型’,这将使我们能够构建具有极高控制级别的一流视频生成和编辑。”
Higgsfield并不是唯一一家与OpenAI竞争的生成视频初创公司。Runway是最早进入这一领域的公司之一,其工具持续改进。还有Haiper,它得到了两位DeepMind校友的支持,以及超过1300万美元的风险投资。
马什拉博夫认为,Diffuse将凭借其面向移动设备、社交导向的市场进入策略脱颖而出。
“通过优先考虑iOS和Android应用而不是桌面工作流,我们使创作者能够随时随地创建引人注目的社交媒体内容,”马什拉博夫说。“实际上,通过构建移动平台,我们能够从第一天起优先考虑易用性和面向消费者的特性。”
Higgsfield还在保持精简运营。马什拉博夫表示,支撑平台的生成模型是由一个16人的团队在不到九个月的时间内开发的,并在一个32GPU的集群上进行了训练(32GPU听起来可能很多,但考虑到OpenAI使用了数万个,这实际上并不多)。到目前为止,Higgsfield只筹集了800万美元,其中大部分来自于最近一轮由Menlo Ventures领投的种子融资。
为了领先于竞争对手,Higgsfield计划将种子资金用于构建一个改进的视频编辑器,让用户能够修改视频中的角色和物体,以及针对社交媒体用例训练更强大的视频生成模型。实际上,马什拉博夫认为社交媒体——以及社交媒体营销——是Higgsfield的主要盈利领域。
虽然Diffuse目前是免费使用的,但马什拉博夫设想未来营销人员将为高级功能,或大规模活动付费或订阅。
“我们相信Higgsfield为社交媒体营销人员解锁了难以置信的现实主义和内容制作用例,”他说。“我们经常听到首席营销官和创意总监说,他们需要在保持内容影响力的同时,优化内容制作预算并缩短时间表。因此,我们相信视频生成AI解决方案将成为帮助他们实现这一目标的核心解决方案。”
当然,Higgsfield也无法避免面临生成式AI初创公司普遍面临的挑战。
众所周知,像Diffuse这样的生成式AI模型可以“重复”训练数据。为什么这是个问题呢?嗯,如果这些模型是在没有获得许可或某种许可协议的情况下,使用了
受版权保护的内容进行训练,那么这些模型的用户可能会无意中生成侵犯版权的作品——将他们暴露于诉讼风险中。
马什拉博夫不愿透露Higgsfield训练数据的来源(除了说它来自“多个公开可用”的地方),也不愿说Higgsfield是否会保留用户数据以训练未来的模型,这可能不会让一些商业客户感到满意。他确实指出,Diffuse用户可以随时通过应用程序要求删除他们的数据。
像Higgsfield这样的数字“克隆”平台也容易被滥用,正如近几个月社交媒体上深度伪造视频的疯狂传播所显示的那样。
以类似的方式,Higgsfield可能使窃取创作者内容变得更容易。例如,只需上传某人舞蹈编排的视频,就可以生成一个展示自己执行同样舞蹈的视频。
我询问了马什拉博夫关于Higgsfield可能使用的任何保护措施或防范措施,以试图防止滥用——虽然他不愿透露具体细节——他声称平台采用了自动和人工审核的混合模式。
“我们决定首先在选定的市场逐步推出产品,这样我们就可以监控潜在的滥用情况,并根据需要对产品进行调整,”马什拉博夫补充说。
我们将不得不等待并看看这在实践中的效果如何。
Higgsfield – Foundational video model for social media