科普第24页 - 中国AI网

SAM 2.1 Meta 开源的视觉分割模型

193

SAM 2.1（全称Segment Anything Model 2.1）是Meta（Facebook的母公司）推出的先进视觉分割模型，用于图像和视频。基于简单的Transformer架构和流式记忆设计，实现实时视频处理。S...

210

QwQ-32B-Preview（QwQ-32B）是阿里推出的开源AI推理模型，在数学和编程领域表现卓越。QwQ-32B-Preview包含325亿参数，能处理长达32000个tokens的提示词。在多个基准测试中，包括GPQ...

192

Fancy123是华中科技大学和华南理工大学推出的3D网格生成技术，基于即插即用的变形技术从单张图片生成高质量的3D网格。该方法包含两个增强模块和反投影操作，分别解决多视图图像的局部不一致性、提高网格对输入图像的保真度及确保...

216

Mooncake是月之暗面Kimi联合清华大学等机构共同开源的大模型推理架构。采用以KVCache为中心的分布式架构，通过分离预填充和解码集群，充分利用GPU集群中未充分利用的CPU、DRAM和SSD资源，实现高效的KVCa...

232

Sketch2Lineart是基于人工智能的绘画工具，能将简单的手绘草图转换成清晰的线条画。通过自动生成草图描述并据此绘制线条画，支持调整细节适应不同风格。用户只需上传草图，可在线预览下载转换后的线条画。...

171

Find3D是加州理工学院推出的3D部件分割模型，能根据任意文本查询分割任意对象的任何部分。Find3D用一个强大的数据引擎自动从互联网上的3D资产生成训练数据，并用对比训练方法训练一个可扩展的3D模型。...

250

Optima是清华大学推出的优化基于大型语言模型（LLM）的多智能体系统（MAS）的框架。基于一个迭代的生成、排名、选择和训练范式，显著提高通信效率和任务效果。Optima平衡了任务性能、令牌效率和通信可读性，探索了多种强化...

253

MuCodec是清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学的研究人员共同推出的超低比特率音乐编解码器，能实现音乐的高效压缩与高保真重建。MuCodec基于MuEncoder提取音乐的声学和语义特征，用RVQ技术进...

211

SmolVLM是Hugging Face推出的轻量级视觉语言模型，专为设备端推理设计。以20亿参数量，实现了高效内存占用和快速处理速度。SmolVLM提供了三个版本以满足不同需求：SmolVLM-Base：适用于下游任务的微...

274

ebook2audiobookXTTS是开源的AI工具，能将电子书转换为有声书。ebook2audiobookXTTS支持多种电子书格式，如epub、pdf、mobi等，用Coqui XTTS技术实现高质量的文本到语音转换。...