AI工具 - 第18页 - 中国AI网

TableGPT2 浙大推出整合与处理表格数据的多模态大模型

276

TableGPT2是浙江大学推出的新型大型多模态模型，针对表格数据的整合与处理。首次将结构化数据作为独立模态进行训练，直接理解并操作数据库、Excel等数据，执行SQL查询、数据分析等任务。模型包含创新的表格编码器，强化对不...

405

VideoChat是开源的实时数字人对话系统，支持语音输入和实时对话功能。用户自定义数字人的形象和音色，无需训练即可进行音色克隆，首包延迟可低至3秒，适用于直播、新闻播报和聊天助手等多种实时语音交互场景。系统支持支持GLM-...

204

HK-O1aw是香港生成式AI研发中心(HKGAI 旗下AI for Reasoning团队(HKAIR 与北京大学对齐团队(PKU-Alignment Team 合作推出的全球首个慢思考范式法律推理大模型。HK-O1aw在...

341

AnimePro FLUX是基于Apache 2.0许可的动漫风格图像生成模型，专为生成高质量二次元插画设计。AnimePro FLUX基于Flux.1 Shnell模型微调，克服DEV版本的许可限制，产生媲美Dev和Pro...

227

SeedEdit是字节跳动豆包大模型团队推出的通用图像编辑模型，基于简单的自然语言指令编辑图像，包括修图、换装、美化、风格转换及在指定区域添加或删除元素等。SeedEdit的核心优势为在维持原始图像和生成新图像之间找到最佳平...

225

App Intents是苹果推出的支持开发者在iOS、macOS等平台上集成Siri和Apple Intelligence的新框架，实现应用功能与系统体验（如Siri、Spotlight搜索、快捷指令）的无缝融合。App I...

190

HourVideo是斯坦福大学李飞飞和吴佳俊团队推出的长视频理解基准数据集，包含500个第一人称视角视频，时长20至120分钟，覆盖77种日常活动，能评估多模态模型对长视频的理解能力。...

175

DimensionX是香港科技大学、清华大学和生数科技共同推出的框架，能从单张图片生成高逼真度的3D和4D场景，基于视频扩散技术实现对空间和时间维度的精确控制。框架基于ST-Director技术解耦空间和时间因素，支持独立或...

247

FabricDiffusion是谷歌和卡内基梅隆大学共同推出的高保真度3D服装生成技术，能将现实世界中2D服装图像的纹理和印花高质量地转移到任意形状的3D服装模型上。FabricDiffusion基于去噪扩散模型和大规模合成...

203

Infinity-MM是智源研究院推出的千万级多模态指令数据集，包含4300万条样本，数据量达10TB。数据集经过质量过滤和去重，确保高质量和多样性，能提升开源视觉-语言模型（VLMs）的性能。智源推出基于开源VLMs的合成...