666ghj/MiroFish:构建数字世界,群体智能预测
MiroFish是一款基于多智能体技术的AI预测引擎,旨在通过构建高保真数字世界,预测各种事件。它面向研究者、应用开发者及企业用户,提供独特的群体智能预测功能。MiroFish的核心价值在于其创新的技术架构,包括现实世界种子信息的提取、智能体交互与社会演化模拟,以及预测报告的生成。它填补了LLM生态中群体智能预测的空白,为决策者提供预演实验室,为个人用户创造创意沙盘。
精选 76 篇,从 410+ 条中筛选
MiroFish是一款基于多智能体技术的AI预测引擎,旨在通过构建高保真数字世界,预测各种事件。它面向研究者、应用开发者及企业用户,提供独特的群体智能预测功能。MiroFish的核心价值在于其创新的技术架构,包括现实世界种子信息的提取、智能体交互与社会演化模拟,以及预测报告的生成。它填补了LLM生态中群体智能预测的空白,为决策者提供预演实验室,为个人用户创造创意沙盘。
Page Agent是一个基于TypeScript的JavaScript in-page GUI agent,旨在通过自然语言控制网页界面。它填补了网页自动化领域中的空白,为开发者提供了一种无需浏览器扩展或特殊权限的网页交互方式。其核心功能包括基于文本的DOM操作、集成自定义LLM以及可选的Chrome扩展支持。Page Agent在LLM生态中的价值在于其易用性和集成度,为开发者提供了强大的网页自动化工具。
Promptfoo是一个专注于LLM评估和红队测试的工具,旨在帮助开发者测试、比较和优化LLM应用。它提供了一套CLI和库,用于自动化评估、安全测试和性能比较,支持多种LLM模型,并强调本地运行和隐私保护。项目定位为开发者工具,通过提供高效、安全的LLM应用开发解决方案,在LLM生态中扮演着关键角色。
NousResearch/hermes-agent是一个基于Python的开源AI代理平台,旨在提供自我改进的AI代理服务。该项目旨在解决LLM生态中代理的智能化和个性化问题,通过内置学习循环,从经验中创建和改进技能,支持多平台交互,并提供强大的工具集和自动化功能。其技术架构亮点在于支持多种模型集成和灵活的部署方式,为研究者、开发者及企业提供了一种高效、可扩展的AI代理解决方案。
AstrBot是一个集成多种即时通讯平台、LLM、插件和AI功能的开放源代码聊天机器人平台,旨在为个人、开发者和团队提供可靠且可扩展的对话式AI基础设施。它支持多种平台集成、插件扩展、多语言支持,并提供丰富的API和文档,是LLM生态中一个功能全面且易于集成的平台。
鱼语音(fish-speech)是一个开源的文本到语音(TTS)项目,旨在提供高质量的跨语言语音合成。该项目通过集成先进的LLM技术,实现了零样本和少样本TTS,支持多种语言和方言。鱼语音针对研究者、开发者以及需要高质量语音合成的企业用户,其技术亮点在于其高性能的模型和易用的WebUI,填补了市场上对高质量多语言TTS解决方案的空白。
AI Hedge Fund项目旨在利用AI技术进行投资决策,为教育和研究目的提供模拟交易环境。该项目通过集成多个投资策略代理,模拟真实投资过程,不进行实际交易。其核心功能是模拟投资决策,解决的是如何将AI应用于投资领域的问题。技术架构上,该项目基于Python,集成多个LLM和金融数据分析工具。在LLM生态中,该项目通过模拟投资策略,为研究者提供实践平台。
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF 是一个基于 Qwen3.5 架构的推理模型,专注于结构化推理逻辑。该模型采用 CoT 技术和 Claude-4.6 Opus 的推理链进行微调,具有高效的推理效率和减少冗余认知循环的能力。模型定位为推理模型,具有 27B 参数量,支持多种语言,适用于需要复杂推理和精确解决方案的场景。性能方面,模型在相关基准测试中表现良好,具有开源协议,适合在多种硬件和推理框架上使用。
Qwen/Qwen3.5-9B是一款通用大模型,具备9B参数,支持多模态学习。其核心技术包括多模态融合训练、高效的混合架构、可扩展的强化学习泛化能力、全球语言覆盖和下一代训练基础设施。在基准测试中表现出色,尤其在多模态理解和推理任务上。适用于需要多语言、多模态理解和高效推理的场景,如对话系统、内容生成等。
Qwen/Qwen3.5-4B是一款通用大模型,具有4B参数,采用多模态学习技术。其核心能力包括高效的混合架构、可扩展的强化学习泛化能力以及全球语言覆盖。在基准测试中表现出色,尤其在多模态任务上。该模型适用于需要多语言能力和跨模态理解的场景,具有开源协议、高效的推理性能和与流行框架的兼容性。
🔥 unsloth/Qwen3.5-35B-A3B-GGUF 是一款基于 Qwen/Qwen3.5-35B-A3B 的多模态扩展模型,定位为通用大模型。该模型具有35B参数,支持图像到文本的转换,具备代码生成和工具调用能力。在性能上,GGUFs刷新后,模型在工具调用和编码性能上有所提升。该模型开源协议为Apache-2.0,适用于需要高性能代码生成和多模态交互的场景。
Qwen3.5-35B-A3B是一款定位在通用大模型领域的LLM,具备高效的混合架构和强大的多模态学习能力。该模型具有35B的参数量,支持1M的上下文长度,采用Apache-2.0开源协议。在性能上,Qwen3.5在多个基准测试中表现出色,尤其在多模态任务上具有显著优势。其主要应用场景包括多语言处理、代码生成和视觉理解等,适合需要高性能和高效推理的应用。
Qwen3.5-0.8B是一款通用大模型,具有0.8B参数,采用统一的视觉语言基础架构,支持多语言和模态。其核心能力包括高效的混合架构、可扩展的强化学习泛化能力以及全球语言覆盖。在MMLU、GPQA、IFEval等基准测试中表现出色。适用于原型设计、特定任务微调和研发等。
HauhauCS/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive 是一款通用大模型,具有9B参数和32层,支持多语言和上下文长度可扩展至1M。该模型在HuggingFace平台上具有较高下载量和点赞数,其核心能力在于无审查的文本生成,具有更强的拒绝处理能力。在性能表现上,该模型在MMLU、GPQA、IFEval等基准测试中表现良好,具有多模态支持,适用于需要无审查文本生成的场景。其开源协议为Apache-2.0,硬件需求较高,推理效率中等,与vLLM、TGI等流行推理框架兼容。
🔥 unsloth/Qwen3.5-9B-GGUF 是一款基于 Qwen3.5-9B 的多模态扩展模型,定位为通用大模型。其核心技术包括早期融合的多模态学习、Transformer 架构和 GGUF 技术,支持图像到文本的转换。该模型在 MMLU、GPQA、IFEval 等基准测试中表现出色,具有强大的推理和代码生成能力。开源协议为 Apache-2.0,适用于多种硬件平台,与 vLLM、TGI 等框架兼容。
FireRedTeam/FireRed-Image-Edit-1.1是一款专注于图像编辑的多模态模型,定位为特定领域微调模型。其核心技术基于diffusers库,采用image-to-image的pipeline,支持多种语言。该模型在图像编辑任务上表现出色,具有丰富的功能,如风格迁移、图像修复等。在性能方面,虽然没有具体的基准测试结果,但根据其下载量和点赞数,可以推测其在社区中具有一定的认可度。主要应用场景包括图像编辑、艺术创作等,使用时需考虑其开源协议Apache-2.0,以及与流行推理框架的兼容性。
🔥 crownelius/Crow-9B-Opus-4.6-Distill-Heretic_Qwen3.5 是一款基于 Qwen 3.5 架构的 9B 参数模型,经过从 Claude Opus 4.6 精心蒸馏而来。该模型在保持深度推理、细致格式化和遵循指令能力的同时,具有高效的运行性能。它适用于推理、写作、编码和长篇对话,特别适合在消费级 GPU 和边缘设备上运行。模型在多个基准测试中表现出色,具有开源协议 Apache-2.0,适合在多种场景下使用。
Lightricks/LTX-2.3是一款专注于图像到视频生成的基础模型,定位为多模态模型。它基于DiT架构,具有高效的音频和视频生成能力,支持多种语言和格式。该模型在HuggingFace平台上具有较高的下载量和点赞数,表明其在社区中受到认可。LTX-2.3在性能上表现出色,尤其在图像到视频转换任务上具有显著优势。其开源协议和丰富的应用场景使其在多媒体内容创作领域具有广泛应用潜力。
Phi-4-Reasoning-Vision-15B 是微软开发的多模态推理模型,定位为多模态模型。该模型具有15B参数,支持图像和文本的多模态交互,具备推理和数学能力。在多个视觉问答基准测试中表现优异,如AI2D、ChartQA等,准确率在75.2%至88.2%之间。该模型适用于需要多模态推理和数学计算的场景,如教育、科研等。其开源协议为MIT,对硬件要求较高,推理效率良好。
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 是一个基于 Qwen3.5 架构的推理模型,专注于结构化推理逻辑。该模型通过从 Claude-4.6 Opus 中提取的 CoT 技术进行微调,具有高效的推理效率和减少冗余认知循环的能力。模型定位为推理模型,具有 27B 参数量,支持文本生成。在性能上,模型在推理任务上表现出色,特别适合需要复杂推理和逻辑分析的场景。开源协议为 Apache-2.0,适合在多种硬件和推理框架上使用。
鱼声科技S2 Pro是一款领先的文本到语音(TTS)模型,专注于精细的韵律和情感控制。该模型采用双自回归架构,结合强化学习和超过10M+小时的音频数据训练,支持80多种语言。S2 Pro在LLM生态中定位为特定领域微调模型,具有多语言能力和指令遵循能力。其在TTS任务上表现出色,具有高效的推理性能和良好的开源协议。主要应用场景包括多语言语音合成、个性化语音助手等。
HumeAI/tada-1b是一款专注于语音合成的大语言模型,定位为多模态模型。其核心技术为文本-声学双对齐框架,通过创新的分词器和架构设计,实现了高保真合成和生成。在性能上,TADA在权威基准测试中表现出色,具有高效的推理效率和良好的兼容性。主要应用场景包括语音合成和文本生成,适用于需要高质量语音输出的场景。
Sarvam-30B是一款专注于印度语言和上下文的多语言混合专家模型,具有2.4B非嵌入活跃参数。该模型在22种印度语言中实现了最先进的性能,适用于资源受限的环境。它具有强大的推理、可靠的编码能力和一流的对话质量。Sarvam-30B在数学、代码生成和MBPP基准测试中表现出色,适用于需要多语言能力和高效推理的场景。
Kijai/LTX2.3_comfy是一款专注于图像生成的模型,定位为特定领域微调模型。其核心技术为基于LTX2.3的改进,支持fp8量化,适用于Nvidia 40xx系列GPU。模型在性能上通过实验性输入缩放技术,在4090上进行了测试。该模型适用于图像生成和编辑等场景,具有开源协议,适合在支持fp8的硬件上运行。
HauhauCS/Qwen3.5-27B-Uncensored-HauhauCS-Aggressive 是一款基于 Qwen3.5-27B 的开源大模型,具有无审查、多语言和强 uncensoring 能力。该模型具有 27B 参数,支持多模态输入,包括文本、图像和视频。它在性能上表现出色,尤其在多语言处理和 uncensoring 方面具有显著优势。模型适用于需要强 uncensoring 能力和多语言支持的场景,如聊天机器人、内容审核等。
Sarvam-105B是一款定位为通用大模型的混合专家模型,拥有10.3B参数,擅长复杂推理和代理任务。其架构采用MLA风格注意力堆叠,具有高上下文长度和独特的路由机制。在基准测试中,Sarvam-105B在多个领域表现优异,特别是在印度语言上达到顶尖水平。该模型开源,适用于需要高性能推理和复杂任务处理的场景。
🔥 unsloth/LTX-2.3-GGUF 是一款专注于图像到视频转换的多模态模型,定位为特定领域微调模型。它基于 Lightricks/LTX-2.3 模型,采用 GGUF 量化技术,具有高性能和高效的推理能力。该模型在图像到视频转换任务上表现出色,支持多种语言,并具有丰富的应用场景。其核心能力在于图像到视频的转换,技术特点包括高精度层上浮和 ComfyUI-GGUF 工具的使用。在性能上,模型在相关基准测试中表现优异,具有开源协议,适合在多种硬件平台上运行。
这篇论文提出了一种名为Midicoth的无损压缩系统,该系统通过引入微扩散去噪层来改进自适应统计模型生成的概率估计。Midicoth通过将先验平滑视为收缩过程并应用反向去噪步骤来纠正预测概率,从而提高了压缩效率。
这篇论文提出了一种名为Multi-Head Low-Rank Attention (MLRA)的新方法,旨在解决大型语言模型在解码阶段由于KV缓存加载导致的瓶颈问题。MLRA通过允许分片化的潜在状态,实现了高效的4路Tensor Parallelism (TP) 解码,显著提高了解码速度和性能。
这篇论文提出了BiCLIP框架,通过结构化几何变换实现跨域的图像特征对齐,以增强视觉语言模型在特定领域的适应性。该方法利用少量锚点进行几何变换的恢复,并在多个标准基准测试中实现了最先进的性能。
这篇论文提出了一种通过硬件高效的优化控制来学习推理的方法,通过在推理时对潜在状态进行有限时域LQR规划,将推理作为最优控制来处理,从而在预训练的LLM中嵌入TTC层,显著提升了数学推理性能。
这篇论文提出了一种名为Bolbosh的Kashmiri语音合成系统,该系统通过Optimal Transport Conditional Flow Matching(OT-CFM)进行跨语言适应,并引入了声学增强管道,以解决Kashmiri语言在语音技术中的不足,显著提升了语音合成质量。
这篇论文提出了Test-Driven AI Agent Definition (TDAD)方法,通过将行为规范作为编译工件来处理,通过工程师提供的行为规范,一个编码代理将其转换为可执行测试,第二个编码代理迭代地改进提示,直到测试通过。TDAD旨在解决部署工具使用LLM代理时,行为合规性难以测量的问题,并引入了可见/隐藏测试分割、语义变异测试和规范演化场景等机制来提高回归安全性。
这篇论文提出了TALON,一种测试时自适应学习框架,用于动态发现新类别。它通过语义感知原型更新和稳定的测试时编码器更新来增强分类,同时通过边缘感知对数校准来扩大类间间隔和增强类内紧凑性,从而有效地缓解类别爆炸问题。
这篇论文提出了ReflexiCoder,一个基于强化学习的框架,旨在教会大型语言模型在生成代码时进行自我反思和自我纠正。该框架通过将推理过程中的结构化推理轨迹内化到模型权重中,实现了完全自主的自我反思和自我纠正能力,显著提高了代码生成的准确性和效率。
这篇论文提出了一种编译优先的状态空间模型(SSM)二重性算法,通过将SSM的算法映射到XLA的融合和分块传递,实现了O(1)的自回归缓存,从而提高了推理效率。该方法可以在CPU、NVIDIA GPU和Google Cloud TPU上运行,无需修改即可在多个平台上实现高性能的推理。
这篇论文提出了DoWhatISay(DOWIS)数据集,旨在为语音大型语言模型(SLLMs)提供更真实的评估环境。该数据集包含多语言的人类录音语音和书面提示,用于与现有基准结合,评估SLLMs在语音指令条件下的表现。研究发现,文本提示在大多数情况下优于语音提示,但在需要语音输出的任务中,语音提示可以缩小差距。
这篇论文提出了一种名为StateFactory的因子化表示方法,通过语言模型将非结构化观察转换为层次化的对象-属性结构,从而实现准确的世界状态表示和奖励预测。这种方法在多个领域的数据集上展示了优异的性能,显著提高了智能体规划的性能。
这篇论文探讨了多模态大型语言模型在处理音频输入时的局限性,通过机制可解释性识别出音频专家注意力头,并展示了当音频证据影响模型输出时,这种信号的增加可以作为音频参与的指标。通过定位这种信号,论文提出了一种音频-静音转向方向,并在推理时对最终表示进行激活干预,从而增强了模型的音频效果,实验结果表明这种方法在MMAU任务上提高了LALMs的准确率。
这篇论文提出了BrandFusion,一个多智能体框架,用于在文本到视频生成中实现无缝的品牌集成。该框架通过构建品牌知识库和迭代优化用户提示,解决了在保持用户意图语义一致性的同时嵌入品牌标识的问题。
这篇论文提出了ConFu,一种新的推测性解码框架,通过让草稿模型预测未来的生成方向来提高大型语言模型(LLM)的推理速度。ConFu通过引入考虑未来信息的标记和软提示,以及动态的考虑标记机制和锚定标记采样与未来预测复制训练框架,显著提高了标记接受率和生成速度。
这篇论文研究了在大型语言模型(LLMs)中,推理如何解锁参数化知识,并显著扩展模型在简单事实问题上的回答能力。通过设计一系列控制实验,论文揭示了推理的两个关键机制:计算缓冲效应和事实提示,同时指出推理过程中可能产生的幻觉问题。
这篇论文提出了一种名为DCPO的框架,旨在解决强化学习中的校准退化问题。该框架通过解耦推理和校准目标,显著提高了大型语言模型在可验证奖励下的推理能力,同时减少了过度自信的问题。
这篇论文提出了一种名为RL3DEdit的几何引导强化学习框架,用于多视角一致的3D场景编辑。该框架利用3D基础模型VGGT的鲁棒先验知识,通过强化学习优化编辑过程,以实现稳定的多视角一致性和高质量的编辑结果。
这篇论文提出了一种名为对角蒸馏的流式自回归视频生成方法,旨在解决现有视频生成模型在实时流应用中的计算负担问题。该方法通过优化时间上下文利用和噪声水平预测,提高了视频生成的运动连贯性和减少错误累积,同时实现了高效的计算速度。
这篇论文提出了CourtSI,一个针对体育场景的大规模空间智能数据集,并开发了CourtSI-Bench评估基准,用于评估视觉语言模型在空间智能方面的表现。通过在体育场景中测试,论文揭示了现有空间智能基准的局限性,并通过微调模型实现了显著的性能提升。
暂无摘要
商汤科技与南洋理工大学合作推出了NEO-unify,这是一种端到端原生多模态统一模型,旨在直接处理原始像素和文本输入,摆脱传统多模态AI中视觉编码器和变分自编码器的依赖,实现文本和视觉的统一学习,并展现出高数据扩展效率。
暂无摘要
暂无摘要
NXAI 发布了其边缘计算时间序列模型 TiRex 的初步实验室结果,该模型在推理速度和能耗方面优于竞争对手 Chronos-2,预测质量略低但可接受。TiRex 被认为适合工业应用,并在多种边缘设备上进行了测试,包括工业 PC、树莓派和 NVIDIA Jetson 等。NXAI 正在开发 TiRex2,预计在未来几周内发布。
Hugging Face 发布了 ALL Bench,一个旨在解决当前 AI 模型评估体系结构性问题的统一评估框架。该框架通过引入 5 轴智能框架和 3 层交叉验证系统,全面评估模型的各项能力,并强调元认知评估的重要性,以推动 AI 评估的标准化和可复现性。
NVIDIA 发布了多个开放数据集,旨在解决 AI 开发中的数据瓶颈,加速高质量 AI 模型和智能体系统的构建。这些数据集涵盖了多个领域,包括机器人、自动驾驶、主权 AI、生物学等,并提供了训练方案和评估框架,以促进整个生态系统的协作和创新。
本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。
Hugging Face发布了Tucano 2,一套针对葡萄牙语的开源语言模型,旨在提高透明度、性能和可复现性。这些模型基于大规模的葡萄牙语语料库,包括教育、毒性和指令质量分类器,以及用于编码、工具调用、结构化输出、推理和数学的监督微调数据集。
本文介绍了从GRPO到DAPO再到GSPO的强化学习技术演进,重点关注了在大型语言模型中如何优化长文本输出和复杂任务的性能。文章详细讨论了每种方法的原理、优势和局限性,并展示了如何通过改进采样、剪枝和梯度计算等细节来提高效率和稳定性。
Hugging Face宣布推出Konkani LLM项目,旨在将Konkani语言引入现代AI生态系统。该项目包括一个大规模的多脚本指令微调数据集Konkani-Instruct-100k,以及针对Konkani语言进行微调的多个大型语言模型。这些模型在翻译和转写任务上表现出色,有助于提高低资源语言的数字数据。
Photoroom宣布开源其文本到图像模型PRX,该模型现已在Hugging Face的Diffusers中提供。此次发布旨在开放整个训练过程,包括训练方法、经验教训等,旨在成为对文本到图像模型感兴趣的实用资源。Photoroom还计划分享一系列深入探讨模型设计实验、架构基准、加速技巧和后训练方法的文章。
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
MiniMax AI 发布了Forge,一个可扩展的Agent强化学习框架和算法,旨在解决大规模Agent RL在系统吞吐量、训练稳定性和Agent灵活性之间的冲突。Forge通过灵活的系统架构、算法设计、优化的异步调度和极致的训练-推理效率,实现了对复杂现实世界Agent的大规模强化学习训练,并在MiniMax M2.5模型中取得了显著成果。
Kanon 2 Reranker,一款专为法律领域检索增强生成(RAG)优化的重排模型,由Hugging Face发布。该模型在Legal RAG Bench上排名第一,性能优于其他领先模型,并支持无限上下文窗口。Kanon 2 Reranker与Kanon 2 Embedder结合使用,显著提升了法律信息检索性能,并通过Isaacus API提供,定价为每百万token 0.35美元。
本文介绍了如何从头开始构建一个简单的检索增强生成(RAG)系统,该系统结合了信息检索和文本生成,以增强语言模型的表现。文章详细解释了RAG系统的关键组件,包括检索模型和语言模型,并提供了使用Python和ollama实现RAG系统的示例代码。
暂无摘要
这篇公告详细介绍了小型语言模型(SLM)的概念、制作方法、优势、局限性以及在实际应用中的使用。SLM是一种轻量级的语言模型,适用于资源受限的环境,如智能手机和嵌入式系统。它们保留了核心的自然语言处理能力,同时具有低计算需求、低能耗和快速推理等优势。公告还介绍了如何使用Ollama和PocketPal等工具在边缘设备上运行SLM,以及如何通过微调来提高模型性能。
Maziyar Panahi 发布了名为 OpenMed 的项目,该项目提供了超过 380 个免费的医疗命名实体识别 (NER) 模型,旨在打破医疗人工智能领域高昂的付费壁垒。这些模型不仅性能卓越,而且完全免费,并遵循 Apache 2.0 许可协议,使得研究人员、医生和开发者能够轻松访问和使用。OpenMed 模型在多个医疗数据集上进行了优化和测试,涵盖了从药物和化学物质到疾病和基因等广泛的医疗术语,为医疗和临床文本分析提供了强大的工具。
OpenAI 发布了其 Responses API 的更新,通过引入计算机环境,包括 shell 工具和托管容器工作区,将模型转变为能够执行复杂工作流程的代理。这一更新旨在解决中间文件管理、大数据处理、安全网络访问和任务超时等实际问题,为模型提供更强大的执行能力。
Wayfair利用OpenAI的模型来提升电子商务支持和产品目录的准确性,通过自动化票务分类和大规模增强数百万个产品属性,从而提高支持速度和目录精度。
OpenAI 正在开发新的AI代理技术,旨在抵御提示注入攻击,通过限制风险行为和保护敏感数据来增强AI代理的工作流程。这项技术结合了社会工程学方法和传统安全工程技术,如源-汇分析,以防止AI代理在不经意间执行有害操作。
这篇论文提出了MMGraphRAG,一种结合视觉场景图和文本知识图谱的跨模态融合方法,通过SpecLink实现跨模态实体链接和路径检索,以解决大型语言模型在视觉和语言融合中的幻觉问题,并在多个数据集上实现了最先进的性能。
这篇论文介绍了Turn,一种基于actor的编程语言,用于构建自主的软件。Turn通过静态类型推断和动态类型值级别,结合大型语言模型(LLMs)进行推理,解决了现有方法中框架增强通用语言的问题。它引入了认知类型安全、信心操作符、基于actor的过程模型、基于能力的身份系统和编译时模式吸收等特性,以提高软件的自主性和安全性。
这篇论文提出了SCALAR,一个结合了LLM规划和深度强化学习的双向框架,通过学习技能库来提高智能体在执行复杂任务时的鲁棒性和效率。SCALAR通过LLM提出技能,RL训练策略,并通过轨迹分析和检查点来优化技能规格。
这篇论文提出了MM-Zero,一个基于强化学习的框架,能够实现视觉语言模型(VLM)的零数据自进化。它通过引入多角色自进化训练框架,包括生成视觉概念的Proposer、将概念转换为代码的Coder和进行多模态推理的Solver,实现了无需种子数据即可自进化。实验表明,MM-Zero在多个多模态基准测试中提升了VLM的推理性能。
这篇论文提出了AetherFloat架构,旨在解决现代计算中浮点数处理带来的硅面积和功耗问题,特别是针对大规模并行神经网络处理单元(NPUs)。通过使用Lexicographic One's Complement Unpacking、Quad-Radix(基4)缩放和显式尾数,AetherFloat实现了零周期原生整数比较、无分支异常处理,并在MAC单元上验证了33.17%的面积、21.99%的总功耗和11.73%的关键路径延迟减少。
这篇论文提出了一种基于Chow-Liu树的长上下文推理的块排序方法,用于链式代理(Chain-of-Agents)框架。通过将长上下文分解为块,并使用基于LLM的代理进行顺序处理,论文旨在通过限制内存使用来近似整个长上下文的联合推理条件分布。实验表明,这种方法在信息损失和答案相关性方面优于默认的文档块排序和基于语义分数的排序。
这篇论文提出了一种基于留一法(Leave-One-Out Strategy)的查询驱动上下文剪枝框架,用于提高问答系统的效率和准确性。该框架通过测量删除句子时线索丰富度的变化来识别关键句子,并在一个轻量级的编码器-only Transformer上实现,从而在保证性能的同时降低内存需求。
这篇论文介绍了MITRA,一个基于RAG(Retrieval-Augmented Generation)的AI助手,旨在帮助物理合作研究中的知识检索。MITRA通过自动化流程从内部数据库中检索文档,并使用OCR和布局解析进行高保真文本提取。该系统确保敏感数据隐私,并采用双层向量数据库架构来提高检索性能。