MVGenMaster是复旦大学、阿里巴巴达摩院和湖潘实验室共同推出的多视图扩散模型,基于增强3D先验处理多样化的新视角合成(NVS)任务。模型基于度量深度和相机姿态扭曲的3D先验,提升NVS的泛化和3D一致性。...
-
-
HiFiVFS(High Fidelity Video Face Swapping)是腾讯和VIVO公司推出的高保真视频换脸框架,HiFiVFS基于Stable Video Diffusion(SVD)框架,用多帧输入和时间...
-
360Zhinao2-7B是360自研的AI大模型360智脑7B参数升级版,涵盖基础模型及多种上下文长度的聊天模型。360Zhinao2-7B模型是继360Zhinao1-7B之后的重要更新,基于采用全新的多阶段训练方式和更...
-
AnchorCrafter是基于扩散模型的智能视频制作系统,用在自动生成具有高保真度的主播风格产品推广视频。基于整合人-物交互(HOI)到姿态引导的人体视频生成中,实现对物体外观和运动控制的高度还原,及对复杂人物-物体交互的...
-
MyTimeMachine(MyTM)是先进的个性化面部年龄转换技术,基于大约50张个人照片,跨越20至40年的时间跨度,训练一个适配器网络个性化预训练的全局老化模型。MyTimeMachine能实现高质量的年龄回退和年龄进...
-
Co-op Translator是微软推出的开源翻译工具,基于Azure AI服务实现项目文档和图像中文本的自动化多语言翻译。仅需一条命令,Co-op Translator能分析项目内容,生成组织良好的多语言翻译文件夹结构,...
-
MultiFoley是Adobe Research和密歇根大学共同推出的音效生成系统,能基于文本、音频和视频的多模态控制生成Foley声音效果。系统支持用户根据文本提示、参考音频或部分视频来定制和生成与视频同步的声音,从而增...
-
Make-It-Animatable是中国科学技术大学和Tencent PCG推出的数据驱动框架,能在不到一秒钟内让任何3D人形模型准备好进行角色动画状态,无论其形状和姿势如何。框架基于生成高质量的混合权重、骨骼和姿势变换,...
-
CAT4D是Google DeepMind、哥伦比亚大学和加州大学圣地亚哥分校共同推出的,能从单目视频创建4D场景(动态3D)表示。CAT4D基于多视图视频扩散模型,能在任意指定的相机姿态和时间点合成新视图,并将单目视频转换...
-
Magic Copy是开源的抠图工具,支持Chrome浏览器扩展,基于Meta的Segment Anything Model技术,从图像中自动识别并提取前景对象,并将对象复制到用户的剪贴板中。Magic Copy简化了从图片...










