网站首页 > AI工具 第17页
  • Vision Search Assistant  结合视觉语言模型和网络代理搜索技术的开源框架

    Vision Search Assistant 结合视觉语言模型和网络代理搜索技术的开源框架

    184

    Vision Search Assistant(VSA)是结合视觉语言模型(VLMs)和网络代理的框架,提升模型对未知视觉内容的理解能力。基于互联网检索,使VLMs处理和回答有关未见图像的问题。VSA在开放集和封闭集问答测试...

  • CHANGER  AI换头技术,将演员头部无缝集成到目标身体

    CHANGER AI换头技术,将演员头部无缝集成到目标身体

    263

    CHANGER是工业级超自然AI换头与色键技术,用在数字内容创作中将演员头部无缝集成到目标身体上,适于视觉特效、数字人类创建和虚拟化身。CHANGER基于色键技术分离背景与前景,用H2增强模拟多样头部形状和发型,及FPAT模...

  • MVDrag3D  南洋理工大学推出的拖拽式多视图3D编辑技术

    MVDrag3D 南洋理工大学推出的拖拽式多视图3D编辑技术

    148

    MVDrag3D是创新的3D编辑框架,结合多视图生成和重建先验实现灵活且富有创造性的拖拽编辑。框架用多视图扩散模型作为生成先验,确保在多个渲染视图间进行一致的拖拽编辑,基于重建模型重建编辑对象的3D高斯表示,用视图特定的变形...

  • Vidu 1.5  生数科技推出支持多主体一致性的多模态大模型

    Vidu 1.5 生数科技推出支持多主体一致性的多模态大模型

    196

    Vidu 1.5是生数科技推出的AI视频生成平台最新版本,致力于帮助创作者自由表达和高效创作。具备多模态视频大模型,支持参考生视频、图生视频和文生视频,确保角色、物体、场景的一致性。Vidu 1.5能在30秒内生成高清视频,...

  • AgentReview  基于LLM Agents 模拟同行评审过程的框架

    AgentReview 基于LLM Agents 模拟同行评审过程的框架

    190

    AgentReview是基于大型语言模型(LLM)的框架,模拟学术同行评审过程。AgentReview基于LLM代理模拟评审者、作者和领域主席的角色,支持研究者在尊重隐私的同时,探索评审偏见、角色和决策机制对评审结果的影响。...

  • 文心iRAG  百度推出检索增强的文生图技术,解决生成上的幻觉问题

    文心iRAG 百度推出检索增强的文生图技术,解决生成上的幻觉问题

    308

    文心iRAG是百度在2024年百度世界大会上推出的检索增强的文生图技术(iRAG)技术,结合了百度搜索的亿级图片资源和强大的基础模型能力,解决大模型在文生图方面的幻觉问题,提升AI生成图片的真实性和可靠性。基于iRAG技术,...

  • MoneyPrinterTurbo  开源的AI短视频生成工具

    MoneyPrinterTurbo 开源的AI短视频生成工具

    317

    MoneyPrinterTurbo是开源的AI短视频生成工具,能自动化地根据用户提供的视频主题或关键词生成视频文案、素材、字幕和背景音乐,合成高清短视频。工具支持API和Web界面操作,具备自定义文案、多种视频尺寸、批量视频...

  • PDFMathTranslate  开源的PDF文档翻译和双语对照工具

    PDFMathTranslate 开源的PDF文档翻译和双语对照工具

    207

    PDFMathTranslate是开源的PDF文档翻译工具,设计用于翻译科技论文等PDF文件,能保留原文的排版,包括公式和图表。PDFMathTranslate支持双语对照,保持原有目录结构,兼容多种翻译服务,如Google...

  • AlphaFold 3  谷歌DeepMind开源的结构预测统一框架

    AlphaFold 3 谷歌DeepMind开源的结构预测统一框架

    169

    AlphaFold 3是谷歌DeepMind团队推出的AI模型,能预测蛋白质、核酸(DNA和RNA)、小分子、离子及修饰残基等生物分子的三维结构。模型在结构预测的准确性上取得革命性进展,对药物设计、科研和生物医学领域具有重大...

  • GenXD  新加坡国立和微软共同推出的通用3D和4D联合生成框架

    GenXD 新加坡国立和微软共同推出的通用3D和4D联合生成框架

    182

    GenXD是新加坡国立大学和微软公司共同推出的3D-4D联合生成框架,能从任意数量的条件图像中生成高质量的3D和4D场景。框架用一个数据整理流程从视频中提取相机姿态和物体运动强度,基于这些信息及大规模4D数据集CamVid-...

13 14 15 16 17 18 19 20 21 22
返回顶部 暗黑模式