AI工具 - 第13页 - 中国AI网

Fireworks f1 复合AI模型，多个开源AI模型组合解决复杂推理问题

353

Fireworks f1是Fireworks公司推出的复合AI模型，针对复杂推理任务设计。基于在推理层融合多个开放模型，实现超越单一模型的性能和可靠性。f1模型支持开发者用提示的方式轻松访问复合AI的能力，简化构建复杂AI应...

271

PixelWave Flux.1-dev 03是基于FLUX.1-dev模型在NVIDIA 4090上微调的AI图像生成模型，有卓越的模型泛化能力，模型在处理多种艺术风格、摄影和动漫图像方面表现出色，在审美、写实和动漫风格上...

309

Computer Use OOTB是开源的GUI 框架，基于Claude 3.5 Computer Use API实现对计算机的自动化控制。框架支持跨平台操作，用户在Windows和macOS系统上能轻松部署GUI自动化模型...

227

LLaVA-o1是北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学（Lehigh University）组成的研究团队推出的开源视觉语言模型，基于Llama-3.2-Vision模型构建，能进行自主的多阶段“慢思考...

325

Qwen2.5-Turbo是阿里推出的先进语言模型，将上下文长度从 128k 扩展到了 1M ，相当于100万个英文单词或150万个汉字。扩展让模型能处理更长的文本，如长篇小说、演讲稿或代码。Qwen2.5-Turbo用高效...

221

Pixtral Large是法国Mistral.ai开源的1240亿参数超大多模态模型，具备前沿级图像理解能力，支持128K上下文，能理解文本、图表和图像。Pixtral Large基于Mistral Large 2开发，拥...

246

Agent K v1.0 是华为诺亚方舟实验室与伦敦大学学院团队联合推出的端到端自主数据科学智能体，能自动化、优化和泛化处理多种数据科学任务。Agent K v1.0基于结构化推理和动态记忆管理，在无需人工微调的情况下，从经...

196

Voyage Multimodal-3 是 Voyage AI 推出的先进的多模态嵌入模型，能处理交错的文本和图像，并从 PDF、幻灯片、表格等截图中捕捉关键视觉特征，无需复杂文档解析。Voyage Multimodal-3...

223

Hali是特斯联联合国际轻奢品牌Buttons推出的多模态多智能体协作AI Agent。Hali具备类人思考、长记忆、物理世界感知和多智能体协作四大特点，语义理解准确率超97%，中英文翻译准确率达96%。Hali被设计为用户...

239

DanceFusion是清华大学推出的开源框架，专注于音频驱动的舞蹈动作重建与生成。DanceFusion结合分层时空Transformer-VAE和扩散模型，能处理社交媒体上的不完整和嘈杂骨骼数据，生成与音乐同步的逼真舞蹈...