AI工具 - 第3页 - 中国AI网

Diffusion Self-Distillation 斯坦福大学推出的零样本定制图像生成技术

196

Diffusion Self-Distillation（DSD）是创新的零样本定制图像生成技术，用预训练的文本到图像扩散模型自动生成数据集，并将其微调为能进行文本条件的图像到图像任务的模型。Diffusion Self-Di...

326

Open Materials 2024 (OMat24 是Meta推出的包含超过1.1亿个结构的密度泛函理论(DFT 计算的大型开放数据集，专注于无机材料的结构和成分多样性。附带预训练的图神经网络模型EquiformerV...

207

Talker-Reasoner是谷歌DeepMind推出的AI代理架构，借鉴人类的认知理论，将代理分为两个模块：Talker和Reasoner。Talker模拟人类的快速直觉思维（System 1），处理即时对话和反应；Re...

229

EMOVA（EMotionally Omni-present Voice Assistant）是多模态全能模型，是香港科技大学、香港大学和华为诺亚方舟实验室等机构共同推出的。EMOVA能处理图像、文本和语音模态，实现能看、能...

197

OminiControl是高度通用且参数高效的图像生成框架，为扩散变换器模型如FLUX.1设计，实现对图像生成过程的精细控制。OminiControl支持主题驱动控制和空间控制，例如边缘引导和绘画生成，仅需在基础模型中增加0...

264

Devika是开源的AI编程助手，能理解并拆分复杂指令，基于集成AI搜索和网页浏览能力搜集信息，编写代码实现目标。Devika支持多种AI模型，具备高级规划推理能力，能进行上下文关键词提取、多语言代码编写，并提供动态状态追踪...

297

Proactive Agent是清华大学联合面壁智能等团队推出的新一代主动Agent交互范式，具备主动性，能预测用户需求并在没有直接指令的情况下采取行动。Proactive Agent观察环境和用户行为，推断出潜在的任务，...

249

iDP3（Improved 3D Diffusion Policy）是斯坦福大学联合多所高校推出的3D视觉运动策略，能提升人形机器人在多样化环境中的自主操作能力。与传统3D策略不同，iDP3基于自我中心的3D视觉表征，摒弃对...

171

Promptriever 是约翰斯·霍普金斯大学和Samaya AI联合推出的新型检索模型，能像语言模型一样接受自然语言提示，用直观的方式响应用户的搜索需求。Promptriever 基于 MS MARCO 数据集的指令训练...

157

NVLM是NVIDIA推出的前沿多模态大型语言模型（LLMs），在视觉-语言任务上达到与顶尖专有模型（如GPT-4o）和开放访问模型（如Llama 3-V 405B和InternVL 2）相匹敌的性能。NVLM 1.0家族包...