AI工具 - 第2页 - 中国AI网

Delta-CoMe 清华联合 OpenBMB 等高校开源的新型增量压缩算法

242

Delta-CoMe是清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法，一个80G的A100 GPU能轻松加载多达50个7B模型，节省显存约8倍，同时模型性能几乎与压缩前的微调模型...

377

NSFW Detector（Not Safe For Work，简称 NSFW）是开源的检测不适宜内容工具，NSFW Detector能识别图像、PDF、视频文件中的不适宜内容。工具基于Google的vit-base-pat...

187

Agent-E是基于AutoGen代理框架构建的智能自动化系统，专注于浏览器内的自动化操作。Agent-E基于自然语言交互，能执行填写表单、搜索排序电商产品、定位网页内容、管理网络媒体播放、进行深度网络搜索、自动化项目管理任...

293

FlagEvalMM是北京智源人工智能研究院开源的多模态模型评测框架，能全面评估处理文本、图像、视频等多种模态的模型，支持多种任务和指标。框架采用评测与模型推理解耦的设计，统一视觉语言模型、文生图、文生视频和图文检索等多种模...

369

GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型，包含GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B。1.5B /...

307

TryOffDiff（VTOFF）是基于扩散模型的新型虚拟试穿技术，用高保真服装重建实现虚拟试穿，专注于从单张穿着者照片生成标准化的服装图像。与传统的Virtual Try-On技术不同，TryOffDiff的目标是从参考图...

547

GLM-PC是智谱科技基于CogAgent视觉多模态模型开发的通用Agent，能模拟人类操作计算机，实现“无人驾驶”PC的技术探索。GLM-PC能执行预定会议、文档处理、网页搜索总结等任务，并支持远程和定时操作。GLM-PC...

454

Voice-Pro是开源的多功能音频处理工具，集成语音转文字（STT）、文本转语音（TTS）、实时翻译、YouTube视频下载和人声分离等多种功能。工具支持超过100种语言，适用于教育、娱乐和商业等多个领域，为用户提供一站式...

266

Generative Omnimatte 是 Google DeepMind 等机构推出的视频编辑技术，能将视频智能分解为多个透明背景的RGBA图层，每个图层对应一个物体及其相关效果（如阴影、反射等）。这项技术无需绿幕或深度...

228

CodeDPO是北京大学与字节跳动合作推出的代码生成优化框架，能提升代码模型在正确性和效率方面的表现。框架基于自生成和验证机制，同时构建和评估代码及其测试用例，用PageRank算法迭代更新代码片段的排名，最终形成基于正确性...