科普第30页 - 中国AI网

OmniEdit 滑铁卢大学等机构开源的通用图像编辑模型

192

OmniEdit是先进的图像编辑技术，通过结合多个专家模型的监督来训练一个通用模型，处理多种图像编辑任务。能处理不同纵横比的图像，七种不同的图像编辑任务，包括对象替换、移除、添加等，支持任意宽高比和分辨率。...

292

JoyVASA是京东健康国际公司开源的音频驱动的数字人头项目，基于扩散模型技术，根据音频信号生成与音频同步的面部动态和头部运动。JoyVASA能实现人物的唇形同步和表情控制，还扩展到动物头像的动画生成，在多语种支持和跨物种动...

213

FLUX Tools是黑森林实验室推出的一套模型工具，能增强基础文本到图像模型FLUX.1的控制性和可操作性。FLUX Tools包括FLUX.1 Fill（图像修复和扩展）、FLUX.1 Depth（基于深度图的结构引导）...

186

LaTRO（Latent Reasoning Optimization）是先进的框架，提升大型语言模型（LLMs）在复杂推理任务中的表现。基于将推理过程类比为从潜在分布中采样，用变分推断方法进行优化，LaTRO让模型自我改进...

172

AlphaQubit是谷歌推出基于AI技术的量子错误解码器，用深度学习架构Transformers识别和纠正量子计算中的错误。AlphaQubit基于精确的误差识别，助力量子计算机实现长时间、大规模的可靠计算，对于推动量子计...

180

StableV2V是中国科技大学推出的开源视频编辑项目，基于文本、草图、图片等输入实现视频中物体的精准编辑和替换。项目用形状一致的编辑范式，基于三个主要组件：Prompted First-frame Editor（PFE）、...

264

Halo是开源的DIY健康追踪项目，基于低成本的智能戒指和开源软件，让用户构建自己的私人健康监测应用。Halo支持活动追踪、心率监测、睡眠分析等功能，且完全尊重用户隐私。基于Halo，用户能深入了解自己的健康数据，享受定制化...

172

ReCapture是谷歌和新加坡国立大学推出的视频处理技术，能从单一用户提供的视频中生成具有新相机轨迹的新视频。ReCapture用多视图扩散模型或基于深度的点云渲染生成带有新相机轨迹的噪声锚视频，采用掩码视频微调技术，将锚...

320

CAD-MLLM是由上海科技大学、Transcengram、DeepSeek AI和香港大学共同推出的，计算机辅助设计（CAD）模型生成系统，根据用户的多种输入（如文本描述、图像、点云或这些输入的组合）生成参数化的CAD模型...

193

MagicClay 是 Adobe 推出3D建模工具，结合网格和有向距离场（SDF）技术，支持艺术家基于文本提示对3D模型的特定部分进行雕刻，同时保持模型的其他区域不变。MagicClay 支持生成具有纹理的三维模型，能非破...