666ghj/MiroFish:构建数字世界,群体智能预测
MiroFish是一款基于多智能体技术的AI预测引擎,旨在通过构建高保真数字世界,预测各种事件。它面向研究者、应用开发者及企业用户,提供独特的群体智能预测功能。MiroFish的核心价值在于其创新的技术架构,包括现实世界种子信息的提取、智能体交互与社会演化模拟,以及预测报告的生成。它填补了LLM生态中群体智能预测的空白,为决策者提供预演实验室,为个人用户创造创意沙盘。
精选 78 篇,从 400+ 条中筛选
MiroFish是一款基于多智能体技术的AI预测引擎,旨在通过构建高保真数字世界,预测各种事件。它面向研究者、应用开发者及企业用户,提供独特的群体智能预测功能。MiroFish的核心价值在于其创新的技术架构,包括现实世界种子信息的提取、智能体交互与社会演化模拟,以及预测报告的生成。它填补了LLM生态中群体智能预测的空白,为决策者提供预演实验室,为个人用户创造创意沙盘。
Claude Code Plugins Directory是一个由Anthropic管理的官方目录,提供高质量的Claude Code插件。该项目定位为服务于应用开发者,通过提供丰富的插件资源,优化了LLM插件开发流程,填补了插件市场的高质量资源空白。其核心功能是提供一个插件安装和管理的平台,支持内部插件和第三方插件,并遵循标准结构。技术架构上,该项目依赖于Claude Code的插件系统,并要求插件遵循特定的结构。在LLM生态中,该项目通过提供易于集成和使用的插件,降低了开发者使用LLM的门槛,促进了LLM技术的普及和应用。
鱼语音(fish-speech)是一个开源的文本到语音(TTS)项目,旨在提供高质量的跨语言语音合成。该项目通过集成先进的LLM技术,实现了零样本和少样本TTS,支持多种语言和方言。鱼语音针对研究者、开发者以及需要高质量语音合成的企业用户,其技术亮点在于其高性能的模型和易用的WebUI,填补了市场上对高质量多语言TTS解决方案的空白。
Hindsight项目定位为智能体记忆系统,旨在提升智能体长期记忆能力。其核心功能是通过记忆银行存储和检索信息,解决传统记忆系统在长期记忆任务中的不足。技术架构上,Hindsight使用生物模拟数据结构组织记忆,并提供了简单的API和SDK进行集成。在LLM生态中,Hindsight的价值在于其独特的记忆管理机制,能够帮助智能体更好地学习和适应。
microsoft/BitNet项目是一个针对1位LLM的官方推理框架,旨在优化1.58位模型的快速和无损推理。它支持CPU和GPU(即将支持NPU)上的推理,并提供了多种优化内核。该项目主要面向研究者、应用开发者和企业,旨在提高LLM在本地设备上的运行效率。
Page Agent是一个基于TypeScript的JavaScript in-page GUI agent,旨在通过自然语言控制网页界面。它填补了网页自动化领域中的空白,为开发者提供了一种无需浏览器扩展或特殊权限的网页交互方式。其核心功能包括基于文本的DOM操作、集成自定义LLM以及可选的Chrome扩展支持。Page Agent在LLM生态中的价值在于其易用性和集成度,为开发者提供了强大的网页自动化工具。
NousResearch/hermes-agent是一个基于Python的开源AI代理平台,旨在提供自我改进的AI代理服务。该项目旨在解决LLM生态中代理的智能化和个性化问题,通过内置学习循环,从经验中创建和改进技能,支持多平台交互,并提供强大的工具集和自动化功能。其技术架构亮点在于支持多种模型集成和灵活的部署方式,为研究者、开发者及企业提供了一种高效、可扩展的AI代理解决方案。
A2UI是一个开源项目,旨在解决LLM生成UI的挑战,通过提供一种安全的、可扩展的UI表示格式,允许代理生成或填充丰富的用户界面。它支持多种框架,并强调安全性、灵活性以及与LLM的兼容性,旨在为开发者提供一种构建交互式UI的新范式。
InsForge是一个为AI编码代理和AI代码编辑器构建的后端开发平台,通过语义层提供数据库、认证、存储和函数等后端原语,旨在简化全栈应用的部署。它为研究者、应用开发者和企业提供了独特的价值,通过优化后端操作和提供丰富的API,解决了复杂后端管理的难题。
LiteRT作为TensorFlow Lite的继任者,专注于边缘设备上的高性能机器学习和生成式AI部署。它通过高效的转换、运行时和优化,为开发者提供了一套完整的解决方案,旨在简化设备端ML推理。项目定位为开发框架,核心功能包括GPU/NPU加速、异步执行和高效的I/O缓冲处理,旨在提升性能和易用性。
OpenRAG是一个基于Langflow、Docling和Opensearch的综合RAG平台,旨在提供智能文档搜索和AI驱动的对话。它为研究者、应用开发者提供了一种快速构建和部署RAG解决方案的工具,通过其预包装、易于扩展和强大的搜索能力,填补了LLM生态中文档检索和生成的空白。
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF 是一个基于 Qwen3.5 架构的推理模型,专注于结构化推理逻辑。该模型采用 CoT 技术和 Claude-4.6 Opus 的推理链进行微调,具有高效的推理效率和减少冗余认知循环的能力。模型定位为推理模型,具有 27B 参数量,支持多种语言,适用于需要复杂推理和精确解决方案的场景。性能方面,模型在相关基准测试中表现良好,具有开源协议,适合在多种硬件和推理框架上使用。
Qwen/Qwen3.5-9B是一款通用大模型,具备9B参数,支持多模态学习。其核心技术包括多模态融合训练、高效的混合架构、可扩展的强化学习泛化能力、全球语言覆盖和下一代训练基础设施。在基准测试中表现出色,尤其在多模态理解和推理任务上。适用于需要多语言、多模态理解和高效推理的场景,如对话系统、内容生成等。
Qwen/Qwen3.5-4B是一款通用大模型,具有4B参数,采用多模态学习技术。其核心能力包括高效的混合架构、可扩展的强化学习泛化能力以及全球语言覆盖。在基准测试中表现出色,尤其在多模态任务上。该模型适用于需要多语言能力和跨模态理解的场景,具有开源协议、高效的推理性能和与流行框架的兼容性。
🔥 unsloth/Qwen3.5-35B-A3B-GGUF 是一款基于 Qwen/Qwen3.5-35B-A3B 的多模态扩展模型,定位为通用大模型。该模型具有35B参数,支持图像到文本的转换,具备代码生成和工具调用能力。在性能上,GGUFs刷新后,模型在工具调用和编码性能上有所提升。该模型开源协议为Apache-2.0,适用于需要高性能代码生成和多模态交互的场景。
Qwen3.5-35B-A3B是一款定位在通用大模型领域的LLM,具备高效的混合架构和强大的多模态学习能力。该模型具有35B的参数量,支持1M的上下文长度,采用Apache-2.0开源协议。在性能上,Qwen3.5在多个基准测试中表现出色,尤其在多模态任务上具有显著优势。其主要应用场景包括多语言处理、代码生成和视觉理解等,适合需要高性能和高效推理的应用。
Qwen3.5-0.8B是一款通用大模型,具有0.8B参数,采用统一的视觉语言基础架构,支持多语言和模态。其核心能力包括高效的混合架构、可扩展的强化学习泛化能力以及全球语言覆盖。在MMLU、GPQA、IFEval等基准测试中表现出色。适用于原型设计、特定任务微调和研发等。
HauhauCS/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive 是一款通用大模型,具有9B参数和32层,支持多语言和上下文长度可扩展至1M。该模型在HuggingFace平台上具有较高下载量和点赞数,其核心能力在于无审查的文本生成,具有更强的拒绝处理能力。在性能表现上,该模型在MMLU、GPQA、IFEval等基准测试中表现良好,具有多模态支持,适用于需要无审查文本生成的场景。其开源协议为Apache-2.0,硬件需求较高,推理效率中等,与vLLM、TGI等流行推理框架兼容。
🔥 unsloth/Qwen3.5-9B-GGUF 是一款基于 Qwen3.5-9B 的多模态扩展模型,定位为通用大模型。其核心技术包括早期融合的多模态学习、Transformer 架构和 GGUF 技术,支持图像到文本的转换。该模型在 MMLU、GPQA、IFEval 等基准测试中表现出色,具有强大的推理和代码生成能力。开源协议为 Apache-2.0,适用于多种硬件平台,与 vLLM、TGI 等框架兼容。
🔥 crownelius/Crow-9B-Opus-4.6-Distill-Heretic_Qwen3.5 是一款基于 Qwen 3.5 架构的 9B 参数模型,经过从 Claude Opus 4.6 精心蒸馏而来。该模型在保持深度推理、细致格式化和遵循指令能力的同时,具有高效的运行性能。它适用于推理、写作、编码和长篇对话,特别适合在消费级 GPU 和边缘设备上运行。模型在多个基准测试中表现出色,具有开源协议 Apache-2.0,适合在多种场景下使用。
Lightricks/LTX-2.3是一款专注于图像到视频生成的基础模型,定位为多模态模型。它基于DiT架构,具有高效的音频和视频生成能力,支持多种语言和格式。该模型在HuggingFace平台上具有较高的下载量和点赞数,表明其在社区中受到认可。LTX-2.3在性能上表现出色,尤其在图像到视频转换任务上具有显著优势。其开源协议和丰富的应用场景使其在多媒体内容创作领域具有广泛应用潜力。
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 是一个基于 Qwen3.5 架构的推理模型,专注于结构化推理逻辑。该模型通过从 Claude-4.6 Opus 中提取的 CoT 技术进行微调,具有高效的推理效率和减少冗余认知循环的能力。模型定位为推理模型,具有 27B 参数量,支持文本生成。在性能上,模型在推理任务上表现出色,特别适合需要复杂推理和逻辑分析的场景。开源协议为 Apache-2.0,适合在多种硬件和推理框架上使用。
Sarvam-30B是一款专注于印度语言和上下文的多语言混合专家模型,具有2.4B非嵌入活跃参数。该模型在22种印度语言中实现了最先进的性能,适用于资源受限的环境。它具有强大的推理、可靠的编码能力和一流的对话质量。Sarvam-30B在数学、代码生成和MBPP基准测试中表现出色,适用于需要多语言能力和高效推理的场景。
Kijai/LTX2.3_comfy是一款专注于图像生成的模型,定位为特定领域微调模型。其核心技术为基于LTX2.3的改进,支持fp8量化,适用于Nvidia 40xx系列GPU。模型在性能上通过实验性输入缩放技术,在4090上进行了测试。该模型适用于图像生成和编辑等场景,具有开源协议,适合在支持fp8的硬件上运行。
HauhauCS/Qwen3.5-27B-Uncensored-HauhauCS-Aggressive 是一款基于 Qwen3.5-27B 的开源大模型,具有无审查、多语言和强 uncensoring 能力。该模型具有 27B 参数,支持多模态输入,包括文本、图像和视频。它在性能上表现出色,尤其在多语言处理和 uncensoring 方面具有显著优势。模型适用于需要强 uncensoring 能力和多语言支持的场景,如聊天机器人、内容审核等。
Sarvam-105B是一款定位为通用大模型的混合专家模型,拥有10.3B参数,擅长复杂推理和代理任务。其架构采用MLA风格注意力堆叠,具有高上下文长度和独特的路由机制。在基准测试中,Sarvam-105B在多个领域表现优异,特别是在印度语言上达到顶尖水平。该模型开源,适用于需要高性能推理和复杂任务处理的场景。
🔥 unsloth/LTX-2.3-GGUF 是一款专注于图像到视频转换的多模态模型,定位为特定领域微调模型。它基于 Lightricks/LTX-2.3 模型,采用 GGUF 量化技术,具有高性能和高效的推理能力。该模型在图像到视频转换任务上表现出色,支持多种语言,并具有丰富的应用场景。其核心能力在于图像到视频的转换,技术特点包括高精度层上浮和 ComfyUI-GGUF 工具的使用。在性能上,模型在相关基准测试中表现优异,具有开源协议,适合在多种硬件平台上运行。
NVIDIA-Nemotron-3-Super-120B-A12B-BF16是一款基于Transformer架构的通用大模型,具有120B的参数量和A12B的上下文长度。该模型在NVIDIA的Nemotron系列中,结合了MoE(Multi-Head Mixture of Experts)技术,提高了模型的表达能力和效率。在性能上,该模型在多个基准测试中表现出色,具有多语言处理能力。其开源协议和硬件需求适中,适合在多种场景下使用。
鱼声科技S2 Pro是一款领先的文本到语音(TTS)模型,专注于精细的韵律和情感控制。该模型采用双自回归架构,结合强化学习和超过10M+小时的音频数据训练,支持80多种语言。S2 Pro在LLM生态中定位为特定领域微调模型,具有多语言能力和指令遵循能力。其在TTS任务上表现出色,具有高效的推理性能和良好的开源协议。主要应用场景包括多语言语音合成、个性化语音助手等。
HumeAI/tada-1b是一款专注于语音合成的大语言模型,定位为多模态模型。其核心技术为文本-声学双对齐框架,通过创新的分词器和架构设计,实现了高保真合成和生成。在性能上,TADA在权威基准测试中表现出色,具有高效的推理效率和良好的兼容性。主要应用场景包括语音合成和文本生成,适用于需要高质量语音输出的场景。
HauhauCS/Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive 是一个基于 Qwen3.5-35B-A3B 的开源模型,专注于图像-文本到文本的转换。该模型定位为多模态模型,具有无审查的特性,适用于需要生成丰富文本内容的应用。其核心技术包括MoE架构和Qwen3.5-35B-A3B基座模型,支持多语言,上下文长度大,参数量高。在性能上,该模型在多个基准测试中表现出色,尤其在图像-文本转换任务中具有显著优势。主要应用场景包括内容生成、图像描述等。该模型开源,硬件需求较高,推理效率中等。
这篇论文介绍了Meissa,一个轻量级的医学多模态大语言模型,它通过离线实现智能体能力,解决了前沿模型部署成本高、延迟大和隐私风险的问题。Meissa通过统一轨迹建模、分层监督和前瞻性-回顾性监督等技术,在多个医学基准测试中表现出色,同时参数数量和延迟都显著低于典型的前沿模型。
这篇论文提出了ID-LoRA,一种基于身份的音频-视频个性化方法,通过结合上下文LoRA技术,在单个模型中联合生成个体的外观和声音,实现文本提示、参考图像和音频片段共同控制两种模态,有效解决了传统方法中视频和音频分离处理的问题。
这篇论文提出了一种全新的AI系统,能够自动生成类似周六夜现场这样的短喜剧视频。该系统通过模拟真实制作工作室的角色,采用多智能体迭代竞争、评估和改进的方法来优化创意和输出的质量和多样性。论文的关键贡献是引入了与真实观众偏好一致的LLM批评家,通过分析YouTube上的喜剧视频语料库来自动评估幽默。实验结果表明,该框架生成的结果接近专业制作的水准,并在视频生成方面展现出最先进的性能。
这篇论文提出了ATM-Bench,一个用于多模态、多源个性化参照记忆问答的基准,并引入了Schema-Guided Memory (SGM)来结构化表示来自不同来源的记忆项。通过实验,论文评估了不同的记忆摄入、检索和答案生成技术,发现SGM在处理复杂记忆任务时优于传统的描述性记忆方法。
暂无摘要
暂无摘要
暂无摘要
暂无摘要
这篇论文提出了一种名为LLM2Vec-Gen的新方法,通过在大型语言模型(LLM)中添加可训练的特殊标记来生成嵌入,从而实现自监督学习。这种方法避免了传统的对比学习,通过优化这些标记来表示LLM的潜在响应,从而在嵌入任务中提高性能。
这篇论文提出了OAKS(在线适应持续知识流)基准,用于评估大型语言模型在动态环境中对持续更新的知识流的在线适应能力。通过两个数据集OAKS-BABI和OAKS-Novel,论文测试了14种模型在跟踪动态事实变化方面的表现,发现当前模型在适应持续知识流方面存在显著局限性。
这篇论文提出了RbtAct,一种利用反驳作为监督信号来生成可操作性的审稿反馈的方法。该方法通过分析反驳内容,优化反馈生成模型,以提高审稿反馈的具体性和实用性。
商汤科技与南洋理工大学合作推出了NEO-unify,这是一种端到端原生多模态统一模型,旨在直接处理原始像素和文本输入,摆脱传统多模态AI中视觉编码器和变分自编码器的依赖,实现文本和视觉的统一学习,并展现出高数据扩展效率。
暂无摘要
暂无摘要
NVIDIA 发布了多个开放数据集,旨在解决 AI 开发中的数据瓶颈,加速高质量 AI 模型和智能体系统的构建。这些数据集涵盖了多个领域,包括机器人、自动驾驶、主权 AI、生物学等,并提供了训练方案和评估框架,以促进整个生态系统的协作和创新。
Hugging Face 发布了 ALL Bench,一个旨在解决当前 AI 模型评估体系结构性问题的统一评估框架。该框架通过引入 5 轴智能框架和 3 层交叉验证系统,全面评估模型的各项能力,并强调元认知评估的重要性,以推动 AI 评估的标准化和可复现性。
本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。
本文介绍了从GRPO到DAPO再到GSPO的强化学习技术演进,重点关注了在大型语言模型中如何优化长文本输出和复杂任务的性能。文章详细讨论了每种方法的原理、优势和局限性,并展示了如何通过改进采样、剪枝和梯度计算等细节来提高效率和稳定性。
Hugging Face宣布推出Konkani LLM项目,旨在将Konkani语言引入现代AI生态系统。该项目包括一个大规模的多脚本指令微调数据集Konkani-Instruct-100k,以及针对Konkani语言进行微调的多个大型语言模型。这些模型在翻译和转写任务上表现出色,有助于提高低资源语言的数字数据。
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
Hugging Face发布了Tucano 2,一套针对葡萄牙语的开源语言模型,旨在提高透明度、性能和可复现性。这些模型基于大规模的葡萄牙语语料库,包括教育、毒性和指令质量分类器,以及用于编码、工具调用、结构化输出、推理和数学的监督微调数据集。
Kanon 2 Reranker,一款专为法律领域检索增强生成(RAG)优化的重排模型,由Hugging Face发布。该模型在Legal RAG Bench上排名第一,性能优于其他领先模型,并支持无限上下文窗口。Kanon 2 Reranker与Kanon 2 Embedder结合使用,显著提升了法律信息检索性能,并通过Isaacus API提供,定价为每百万token 0.35美元。
暂无摘要
Photoroom宣布开源其文本到图像模型PRX,该模型现已在Hugging Face的Diffusers中提供。此次发布旨在开放整个训练过程,包括训练方法、经验教训等,旨在成为对文本到图像模型感兴趣的实用资源。Photoroom还计划分享一系列深入探讨模型设计实验、架构基准、加速技巧和后训练方法的文章。
本文介绍了如何从头开始构建一个简单的检索增强生成(RAG)系统,该系统结合了信息检索和文本生成,以增强语言模型的表现。文章详细解释了RAG系统的关键组件,包括检索模型和语言模型,并提供了使用Python和ollama实现RAG系统的示例代码。
OpenMed项目在六个月内取得了显著进展,发布了380多个开源医疗AI模型,并推出了Python工具包和交互式终端用户界面。该项目旨在打破医疗AI领域的付费壁垒,为研究人员、临床医生和开发者提供高性能、可定制的工具。
MiniMax AI 发布了Forge,一个可扩展的Agent强化学习框架和算法,旨在解决大规模Agent RL在系统吞吐量、训练稳定性和Agent灵活性之间的冲突。Forge通过灵活的系统架构、算法设计、优化的异步调度和极致的训练-推理效率,实现了对复杂现实世界Agent的大规模强化学习训练,并在MiniMax M2.5模型中取得了显著成果。
暂无摘要
NXAI 发布了其边缘计算时间序列模型 TiRex 的初步实验室结果,该模型在推理速度和能耗方面优于竞争对手 Chronos-2,预测质量略低但可接受。TiRex 被认为适合工业应用,并在多种边缘设备上进行了测试,包括工业 PC、树莓派和 NVIDIA Jetson 等。NXAI 正在开发 TiRex2,预计在未来几周内发布。
这篇论文介绍了AILS-NTUA系统,用于SemEval-2026 Task 8的多轮检索增强生成任务。该系统采用查询多样性策略和多层次生成流程,实现了在检索增强生成任务中的显著性能提升。
这篇论文提出了一种名为AgentA/B的新系统,该系统利用基于大型语言模型(LLM)的自主代理(LLM Agents)来自动模拟用户与真实网页的交互行为,以解决传统A/B测试的瓶颈问题。AgentA/B能够以可扩展的方式部署具有不同角色的LLM代理,它们能够导航动态网页并执行多步骤交互,如搜索、点击、筛选和购买。通过控制实验,论文展示了AgentA/B在模拟A/B测试中的有效性,并表明其能够模拟类似人类的行为模式。
这篇论文提出了一种名为Dynamics-Predictive Sampling (DPS)的方法,用于在强化学习(RL)微调大型推理模型时,通过预测和选择信息性提示来优化训练数据的选择,从而提高模型的推理能力。DPS通过将每个提示的解决进度建模为动力系统,并使用贝叶斯推理来估计状态分布,从而减少冗余的LLM展开,加速训练过程,并实现更好的推理性能。
这篇论文提出了一种名为Gradient Flow Drifting的新生成模型,通过Wasserstein梯度流和KDE近似散度,证明了Drifting Model与Wasserstein梯度流之间的等价性。该方法结合了反向KL散度和$\chi^2$散度梯度流,以避免模式坍塌和模式模糊,并在Riemannian流形上进行了扩展,使其更适合语义空间。
这篇论文提出了G-STAR,一个端到端的全局说话人跟踪属性识别系统,该系统结合了时间感知的说话人跟踪模块和Speech-LLM转录骨干网络。G-STAR能够在保持会议级别的说话人身份一致性的同时,生成带有时标的说话人标签的转录文本,并支持组件级优化和联合端到端训练。
这篇论文提出了一种名为EvoKernel的自进化代理框架,用于解决在数据稀缺的编程领域中部署大型语言模型所面临的挑战,特别是在NPU内核合成中。EvoKernel通过将合成过程建模为基于记忆的强化学习任务,实现了从初步设计到持续优化的自动化,通过价值驱动的检索机制和跨任务记忆共享,显著提高了内核合成的正确性和速度。
这篇论文提出了一种名为AR-VLA的自主自回归动作专家,该专家通过维护长期记忆来生成连续的因果动作序列,同时条件化可刷新的视觉-语言前缀。这种方法解决了快速控制和慢速推理之间的频率不匹配问题,并允许独立预训练运动句法和与重感知骨干的模块化集成,从而确保动作生成在帧间的时空一致性。实验表明,AR-VLA在模拟和真实机器人操作任务中表现出色,具有更好的历史意识和更平滑的动作轨迹,同时保持了或超过了最先进反应性视觉-语言动作模型的成功率。