星空体育官方网站清华系多模态大模型公司刚刚融了数亿元放话“今年达到Sora效果”

2024-03-12 19:16

　　市场消息传来，这家公司刚刚完成新一轮数亿元融资。本轮融资由启明创投领投，达泰资星空体育官方网站本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。

　　生数方面的说法是，本轮融资将主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。

　　此前，生数已经在文生图、文生3D模型、文生视频方面都有研究成果对外释出。

　　我们积累了完整高效的工程化经验，拥有在大规模GPU集群上实现高效兼容、低成本的模型训练经验，整体上来讲，我们追赶Sora肯定比追赶GPT-4轻松很多。

　　今年一定能达到Sora目前版本的效果，很难说是三个月还是半年（笑），但这件事我们的信心还是非常足的。

　　在扩散模型方面，生数科技团队是国内率先开启该方向研究星空体育官方网站的团队，成果涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。

　　2022年9月，生数创始成员提出了基于Transformer的网络架构U-ViT时，U-ViT就在千万至数亿参数量级范围内验证了极强的可扩展性（scaling up）。

　　此外，除了单向的文生图以外，Unidiffuser支持更通用的图文任务，能够实现图生文、图文联合生成、图文改写等多种功能。

　　在图文模型的训练中，其模型参数量从最早开源版的1B不断扩展至3B、7B、10B及以上，使得模型在美学性、多元风格、语义理解等方面实现快速稳定的提升。

　　同时在此基础上，通过拓展空间维度和时间维度，逐步实现3D生成和视频生成模型的训练。

　　依托底层U-ViT架构的创新尝试，截至2023年9月，生数科技推出了基于统一的多模态多任务框架的产业级通用基础大模型（闭源版），全链路自主训练、自主研发，在图像生成、3D生成、视频生成等多项任务中位居前列。

　　目前的成果是，生数的3D生成，已经可实现高精度与最快10秒级的模型生成。

　　而视频生成方面，也已实现短视频的编辑与生成能力，在画面美观度、连贯性方面实现了突破。

　　在商业化落地方面，依托于MaaS（模型即服务）能力，生数科技在2B、2C端同时发力。

　　一方面以API的形式向B端机构直接提供模型能力星空体育官方网站，另一方面打造垂类应用产品，按照订阅等形式收费。

　　目前公司已与多家游戏公司、个人终端厂商、互联网平台等B端机构开展合作，开放模型服务，提供AIGC个性化体验、定制化内容生产等方面的能力。

　　去年，面向艺术设计、游戏制作、影视动画、社交娱乐等创意领域，生数科技上线了两款工具产品：

　　另一边，则是在基础模型层面持续优化，主要是提升语义理解、可控性、美观度方面的生成效果。

　　其实，Sora出现前，生数内部主要聚焦于短视频，但现在公司会投入更多资源在长视频上，架构、数据使用调优方面，团队已经做过不少探索，也踩过许多坑（很多现在都已经解决了）。

　　但OpenAI砸大钱捧出一个Sora，验证了这条路的正确性，也打消了团队的许多顾虑，“目前的视频生成长度在4-5秒左右，我们近期将重点突破长视频生成能力……尤其长视频画面的连贯性，我们还在做一系列攻克工作”。

　　原标题：《清华系多模态大模型公司刚刚融了数亿元！放话“今年达到Sora效果”》

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。