karpathy/nanochat:PyTorch LLM训练环境工具
nanochat是一个专注于训练和运行LLM的实验性工具,旨在提供简单、可访问的LLM训练环境。它填补了低成本、易用性强的LLM训练工具的空白,通过Python和PyTorch实现,支持从数据加载到模型训练的完整流程。该项目对研究者、开发者尤其有价值,因为它提供了一个强基线代码库,可以快速训练和评估LLM模型。
精选 76 篇,从 810+ 条中筛选
nanochat是一个专注于训练和运行LLM的实验性工具,旨在提供简单、可访问的LLM训练环境。它填补了低成本、易用性强的LLM训练工具的空白,通过Python和PyTorch实现,支持从数据加载到模型训练的完整流程。该项目对研究者、开发者尤其有价值,因为它提供了一个强基线代码库,可以快速训练和评估LLM模型。
GoogleCloudPlatform/generative-ai项目是一个专注于Google Cloud平台上的生成式AI工具和资源库,旨在帮助开发者使用Vertex AI构建和管理工作流。该项目提供了Gemini模型的使用示例、搜索功能、视觉和音频处理工具,以及设置环境的指南。它填补了在Google Cloud上使用生成式AI的空白,为研究者、开发者和企业提供了丰富的资源和工具。
Page Agent是一个基于TypeScript的JavaScript in-page GUI agent,旨在通过自然语言控制网页界面。它填补了网页自动化领域中的空白,为开发者提供了一种无需浏览器扩展或特殊权限的网页交互方式。其核心功能包括基于文本的DOM操作、集成自定义LLM以及可选的Chrome扩展支持。Page Agent在LLM生态中的价值在于其易用性和集成度,为开发者提供了强大的网页自动化工具。
AI Hedge Fund项目旨在利用AI技术进行投资决策,为教育和研究目的提供模拟交易环境。该项目通过集成多个投资策略代理,模拟真实投资过程,不进行实际交易。其核心功能是模拟投资决策,解决的是如何将AI应用于投资领域的问题。技术架构上,该项目基于Python,集成多个LLM和金融数据分析工具。在LLM生态中,该项目通过模拟投资策略,为研究者提供实践平台。
MiroFish是一款基于多智能体技术的AI预测引擎,旨在通过构建高保真数字世界,预测各种事件。它面向研究者、应用开发者及企业用户,提供独特的群体智能预测功能。MiroFish的核心价值在于其创新的技术架构,包括现实世界种子信息的提取、智能体交互与社会演化模拟,以及预测报告的生成。它填补了LLM生态中群体智能预测的空白,为决策者提供预演实验室,为个人用户创造创意沙盘。
NousResearch/hermes-agent是一个基于Python的开源AI代理平台,旨在提供自我改进的AI代理服务。该项目旨在解决LLM生态中代理的智能化和个性化问题,通过内置学习循环,从经验中创建和改进技能,支持多平台交互,并提供强大的工具集和自动化功能。其技术架构亮点在于支持多种模型集成和灵活的部署方式,为研究者、开发者及企业提供了一种高效、可扩展的AI代理解决方案。
Promptfoo是一个专注于LLM评估和红队测试的工具,旨在帮助开发者测试、比较和优化LLM应用。它提供了一套CLI和库,用于自动化评估、安全测试和性能比较,支持多种LLM模型,并强调本地运行和隐私保护。项目定位为开发者工具,通过提供高效、安全的LLM应用开发解决方案,在LLM生态中扮演着关键角色。
Qwen3.5-397B-A17B是一款通用大模型,具备强大的多模态学习能力和高效的推理性能。其核心架构采用Gated Delta Networks和sparse MoE,支持1M上下文长度,具有跨语言的广泛覆盖。在多模态学习、推理效率、适应性等方面表现出色,适用于需要高效率、高准确性的多模态任务。
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF 是一个基于 Qwen3.5 架构的推理模型,专注于结构化推理逻辑。该模型采用 CoT 技术和 Claude-4.6 Opus 的推理链进行微调,具有高效的推理效率和减少冗余认知循环的能力。模型定位为推理模型,具有 27B 参数量,支持多种语言,适用于需要复杂推理和精确解决方案的场景。性能方面,模型在相关基准测试中表现良好,具有开源协议,适合在多种硬件和推理框架上使用。
Qwen/Qwen3.5-9B是一款通用大模型,具备9B参数,支持多模态学习。其核心技术包括多模态融合训练、高效的混合架构、可扩展的强化学习泛化能力、全球语言覆盖和下一代训练基础设施。在基准测试中表现出色,尤其在多模态理解和推理任务上。适用于需要多语言、多模态理解和高效推理的场景,如对话系统、内容生成等。
Qwen/Qwen3.5-4B是一款通用大模型,具有4B参数,采用多模态学习技术。其核心能力包括高效的混合架构、可扩展的强化学习泛化能力以及全球语言覆盖。在基准测试中表现出色,尤其在多模态任务上。该模型适用于需要多语言能力和跨模态理解的场景,具有开源协议、高效的推理性能和与流行框架的兼容性。
🔥 unsloth/Qwen3.5-35B-A3B-GGUF 是一款基于 Qwen/Qwen3.5-35B-A3B 的多模态扩展模型,定位为通用大模型。该模型具有35B参数,支持图像到文本的转换,具备代码生成和工具调用能力。在性能上,GGUFs刷新后,模型在工具调用和编码性能上有所提升。该模型开源协议为Apache-2.0,适用于需要高性能代码生成和多模态交互的场景。
Qwen3.5-35B-A3B是一款定位在通用大模型领域的LLM,具备高效的混合架构和强大的多模态学习能力。该模型具有35B的参数量,支持1M的上下文长度,采用Apache-2.0开源协议。在性能上,Qwen3.5在多个基准测试中表现出色,尤其在多模态任务上具有显著优势。其主要应用场景包括多语言处理、代码生成和视觉理解等,适合需要高性能和高效推理的应用。
Qwen3.5-0.8B是一款通用大模型,具有0.8B参数,采用统一的视觉语言基础架构,支持多语言和模态。其核心能力包括高效的混合架构、可扩展的强化学习泛化能力以及全球语言覆盖。在MMLU、GPQA、IFEval等基准测试中表现出色。适用于原型设计、特定任务微调和研发等。
HauhauCS/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive 是一款通用大模型,具有9B参数和32层,支持多语言和上下文长度可扩展至1M。该模型在HuggingFace平台上具有较高下载量和点赞数,其核心能力在于无审查的文本生成,具有更强的拒绝处理能力。在性能表现上,该模型在MMLU、GPQA、IFEval等基准测试中表现良好,具有多模态支持,适用于需要无审查文本生成的场景。其开源协议为Apache-2.0,硬件需求较高,推理效率中等,与vLLM、TGI等流行推理框架兼容。
🔥 unsloth/Qwen3.5-9B-GGUF 是一款基于 Qwen3.5-9B 的多模态扩展模型,定位为通用大模型。其核心技术包括早期融合的多模态学习、Transformer 架构和 GGUF 技术,支持图像到文本的转换。该模型在 MMLU、GPQA、IFEval 等基准测试中表现出色,具有强大的推理和代码生成能力。开源协议为 Apache-2.0,适用于多种硬件平台,与 vLLM、TGI 等框架兼容。
Sarvam-30B是一款专注于印度语言和上下文的多语言混合专家模型,具有2.4B非嵌入活跃参数。该模型在22种印度语言中实现了最先进的性能,适用于资源受限的环境。它具有强大的推理、可靠的编码能力和一流的对话质量。Sarvam-30B在数学、代码生成和MBPP基准测试中表现出色,适用于需要多语言能力和高效推理的场景。
Sarvam-105B是一款定位为通用大模型的混合专家模型,拥有10.3B参数,擅长复杂推理和代理任务。其架构采用MLA风格注意力堆叠,具有高上下文长度和独特的路由机制。在基准测试中,Sarvam-105B在多个领域表现优异,特别是在印度语言上达到顶尖水平。该模型开源,适用于需要高性能推理和复杂任务处理的场景。
FireRedTeam/FireRed-Image-Edit-1.1是一款专注于图像编辑的多模态模型,定位为特定领域微调模型。其核心技术基于diffusers库,采用image-to-image的pipeline,支持多种语言。该模型在图像编辑任务上表现出色,具有丰富的功能,如风格迁移、图像修复等。在性能方面,虽然没有具体的基准测试结果,但根据其下载量和点赞数,可以推测其在社区中具有一定的认可度。主要应用场景包括图像编辑、艺术创作等,使用时需考虑其开源协议Apache-2.0,以及与流行推理框架的兼容性。
🔥 crownelius/Crow-9B-Opus-4.6-Distill-Heretic_Qwen3.5 是一款基于 Qwen 3.5 架构的 9B 参数模型,经过从 Claude Opus 4.6 精心蒸馏而来。该模型在保持深度推理、细致格式化和遵循指令能力的同时,具有高效的运行性能。它适用于推理、写作、编码和长篇对话,特别适合在消费级 GPU 和边缘设备上运行。模型在多个基准测试中表现出色,具有开源协议 Apache-2.0,适合在多种场景下使用。
Kijai/LTX2.3_comfy是一款专注于图像生成的模型,定位为特定领域微调模型。其核心技术为基于LTX2.3的改进,支持fp8量化,适用于Nvidia 40xx系列GPU。模型在性能上通过实验性输入缩放技术,在4090上进行了测试。该模型适用于图像生成和编辑等场景,具有开源协议,适合在支持fp8的硬件上运行。
Lightricks/LTX-2.3是一款专注于图像到视频生成的基础模型,定位为多模态模型。它基于DiT架构,具有高效的音频和视频生成能力,支持多种语言和格式。该模型在HuggingFace平台上具有较高的下载量和点赞数,表明其在社区中受到认可。LTX-2.3在性能上表现出色,尤其在图像到视频转换任务上具有显著优势。其开源协议和丰富的应用场景使其在多媒体内容创作领域具有广泛应用潜力。
🔥 unsloth/LTX-2.3-GGUF 是一款专注于图像到视频转换的多模态模型,定位为特定领域微调模型。它基于 Lightricks/LTX-2.3 模型,采用 GGUF 量化技术,具有高性能和高效的推理能力。该模型在图像到视频转换任务上表现出色,支持多种语言,并具有丰富的应用场景。其核心能力在于图像到视频的转换,技术特点包括高精度层上浮和 ComfyUI-GGUF 工具的使用。在性能上,模型在相关基准测试中表现优异,具有开源协议,适合在多种硬件平台上运行。
Phi-4-Reasoning-Vision-15B 是微软开发的多模态推理模型,定位为多模态模型。该模型具有15B参数,支持图像和文本的多模态交互,具备推理和数学能力。在多个视觉问答基准测试中表现优异,如AI2D、ChartQA等,准确率在75.2%至88.2%之间。该模型适用于需要多模态推理和数学计算的场景,如教育、科研等。其开源协议为MIT,对硬件要求较高,推理效率良好。
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 是一个基于 Qwen3.5 架构的推理模型,专注于结构化推理逻辑。该模型通过从 Claude-4.6 Opus 中提取的 CoT 技术进行微调,具有高效的推理效率和减少冗余认知循环的能力。模型定位为推理模型,具有 27B 参数量,支持文本生成。在性能上,模型在推理任务上表现出色,特别适合需要复杂推理和逻辑分析的场景。开源协议为 Apache-2.0,适合在多种硬件和推理框架上使用。
Jackrong/Qwen3.5-2B-Claude-4.6-Opus-Reasoning-Distilled-GGUF 是一个专注于推理的模型,基于 Qwen3.5-2B 模型,通过结合 Claude-4.6 Opus 的思维链蒸馏技术,实现了高效的推理能力。该模型在科学、指令遵循和数学等领域展现出强大的推理能力,特别适用于需要结构化推理和步骤分解的任务。模型具有19,478次下载和85个点赞,表明其在社区中受到认可。该模型适用于需要复杂推理和逻辑分析的场景,如代码生成、数学问题解决等。
这篇论文提出了ByteFlow Net,一种无需分词器的语言模型,通过自适应字节压缩直接在原始字节流上学习语义单元。它通过压缩驱动的分段策略,在保持静态计算图的同时,实现了自适应的边界,从而在性能上优于基于BPE的Transformer和之前的字节级架构。
这篇论文提出了Variational Flow Maps(VFM),一种用于条件采样的框架,通过学习适当的初始噪声来改进噪声与数据的对齐,从而在单步或少数步骤中生成高质量的图像。
这篇论文提出了LiveWorld,一个支持持久世界演化的视频世界模型框架,解决了现有模型中未观察到的动态(out-of-sight dynamics)问题,通过模拟未被观察到的实体的时间进展,确保在重新访问时渲染的空间一致性。
这篇论文提出了一种名为LIPAR的框架,用于视频生成模型的训练免费潜在帧间剪枝和注意力恢复。该方法通过检测和跳过重复的潜在帧来减少计算延迟,并引入注意力恢复机制以消除剪枝引起的视觉伪影,从而显著提高视频编辑的吞吐量。
这篇论文提出了一种名为PT-RAG的新框架,用于预测细胞对基因扰动的响应。该框架通过两个阶段的检索增强生成,结合基因PT嵌入和Gumbel-Softmax离散采样,实现了对细胞状态和输入扰动的自适应检索,从而在预测细胞响应方面取得了显著的性能提升。
这篇论文提出了一种通过在新鲜和具有挑战性的问题上使用强化学习来改进编码模型的方法。它通过一个四阶段的数据处理框架来解决现有数据集的难度不平衡、格式不一致和数据质量问题,并引入了一个名为MicroCoder的数据集,该数据集包含成千上万的经过精心挑选的实时编程问题,以解决难度和新鲜度问题。实验表明,与常用的基线数据集相比,MicroCoder在300个训练步骤内实现了3倍的性能提升。
这篇论文提出了一种名为MicroCoder-GRPO的改进的强化学习算法,用于解决代码生成模型训练中的瓶颈问题。该算法通过条件截断掩码、多样性确定的温度选择和移除高剪辑比率的KL损失,提高了模型的输出潜力和多样性,并在LiveCodeBench v6上实现了显著的性能提升。
这篇论文提出了MedSteer,一种无需训练的激活引导框架,用于内窥镜合成。该框架通过识别对比提示对中的病理向量,在推理时引导图像激活,从而生成具有不同概念的对抗事实对,同时保留所有其他结构。
这篇论文提出了一种基于离线强化学习的图像风格化方法,通过组合图像编辑工具和结构化代理规划,实现复杂风格的分解和解释性工具序列,从而提高图像编辑的质量。
这篇论文提出了Sparse-BitNet,一个结合1.58位量化与动态N:M稀疏化的统一框架,用于提高大型语言模型(LLMs)的效率。通过实验证明,这种结合在保持性能的同时,显著提升了训练和推理速度。
这篇论文提出了一种基于非自回归语言模型(LLM)的语音识别(ASR)方法,通过将语音识别视为条件转录编辑,实现了完全并行预测,从而提高了速度和效率。
这篇论文提出了PresentBench,一个基于细粒度评分标准的基准,用于评估自动化幻灯片生成。它通过提供详细的评估实例和检查清单,解决了现有幻灯片生成评估方法的粗粒度和主观性问题,并通过实验证明了其在评估幻灯片生成模型方面的有效性和可靠性。
这篇论文提出了一种名为CUDAMaster的自动化GPU内核优化方法,通过引入MSKernelBench基准测试,该系统可以优化多种场景下的CUDA内核,包括基本代数运算、常见LLM内核、稀疏矩阵运算和科学计算例程,显著提升了性能,在某些情况下甚至超过了高度优化的闭源库。
这篇论文研究了在金融领域利用数据价值,通过多阶段蒸馏和验证技术,构建了高质量的思维链监督数据集ODA-Fin-SFT-318k,以及针对困难但可验证任务的ODA-Fin-RL-12k数据集,展示了在标准微调和强化学习管道中,高质量思维链蒸馏和难度及可验证性感知采样如何提高模型性能。
这篇论文提出了HY-WU,一个基于记忆的适应框架,用于解决持续学习和即时个性化在模型部署中的挑战。该框架通过在实例条件下动态合成权重更新,避免了共享权重重复覆盖的问题,从而提高了模型在不同领域和用户偏好下的适应性和个性化能力。
这篇论文提出了MWM,一种用于基于规划的图像目标导航的移动世界模型。MWM通过结合结构预训练和动作条件一致性(ACC)后训练,以及推理一致性状态蒸馏(ICSD)方法,提高了动作条件下的预测一致性,从而在视觉保真度、轨迹精度、规划成功率和推理效率方面实现了显著的提升。
这篇论文提出了一种名为TAPFormer的基于Transformer的框架,用于进行鲁棒的任意点跟踪。该框架通过瞬态异步融合帧和事件,解决了传统方法在同步融合和模态可靠性上的问题,实现了高精度和长时运动推理。
这篇论文提出了一种名为HydroShear的触觉仿真器,用于触觉模拟到现实的强化学习。它通过建模粘滑过渡、路径相关的力和剪切积累以及全SE(3)对象-传感器交互,解决了现有方法在触觉任务中模拟力与剪切时的不足。实验表明,HydroShear在真实触觉剪切再现方面优于现有方法,并实现了强化学习策略在多个任务上的零样本模拟到现实的迁移。
这篇论文提出了SlowBA,一种针对基于视觉语言模型(VLM)的图形用户界面(GUI)代理的效率后门攻击。通过诱导过长的推理链,SlowBA能够在特定触发模式下操纵响应延迟,从而影响代理的响应效率。论文通过强化学习和现实场景中的弹出窗口触发器,实现了这种攻击,并通过实验证明了其有效性。
这篇论文介绍了OPENDEV,一个专为终端设计的开源AI编码代理,它通过复合AI系统架构、双代理架构、懒工具发现和自适应上下文压缩等方法,提供了一种安全、可扩展的终端优先AI辅助方案,旨在解决长周期开发任务中的自主辅助问题。
商汤科技与南洋理工大学合作推出了NEO-unify,这是一种端到端原生多模态统一模型,旨在直接处理原始像素和文本输入,摆脱传统多模态AI中视觉编码器和变分自编码器的依赖,实现文本和视觉的统一学习,并展现出高数据扩展效率。
NXAI 发布了其边缘计算时间序列模型 TiRex 的初步实验室结果,该模型在推理速度和能耗方面优于竞争对手 Chronos-2,预测质量略低但可接受。TiRex 被认为适合工业应用,并在多种边缘设备上进行了测试,包括工业 PC、树莓派和 NVIDIA Jetson 等。NXAI 正在开发 TiRex2,预计在未来几周内发布。
暂无摘要
Hugging Face 发布了 ALL Bench,一个旨在解决当前 AI 模型评估体系结构性问题的统一评估框架。该框架通过引入 5 轴智能框架和 3 层交叉验证系统,全面评估模型的各项能力,并强调元认知评估的重要性,以推动 AI 评估的标准化和可复现性。
本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。
本文介绍了从GRPO到DAPO再到GSPO的强化学习技术演进,重点关注了在大型语言模型中如何优化长文本输出和复杂任务的性能。文章详细讨论了每种方法的原理、优势和局限性,并展示了如何通过改进采样、剪枝和梯度计算等细节来提高效率和稳定性。
Photoroom宣布开源其文本到图像模型PRX,该模型现已在Hugging Face的Diffusers中提供。此次发布旨在开放整个训练过程,包括训练方法、经验教训等,旨在成为对文本到图像模型感兴趣的实用资源。Photoroom还计划分享一系列深入探讨模型设计实验、架构基准、加速技巧和后训练方法的文章。
Hugging Face发布了Tucano 2,一套针对葡萄牙语的开源语言模型,旨在提高透明度、性能和可复现性。这些模型基于大规模的葡萄牙语语料库,包括教育、毒性和指令质量分类器,以及用于编码、工具调用、结构化输出、推理和数学的监督微调数据集。
本文深入探讨了当前大型语言模型(LLM)背后的关键架构,包括自回归模型、状态空间模型和扩散模型,并介绍了它们的工作原理和应用特点。文章强调了理解这些基础架构对于优化模型性能和效率的重要性,并提供了对LLM技术发展的全面概览。
Hugging Face宣布推出Konkani LLM项目,旨在将Konkani语言引入现代AI生态系统。该项目包括一个大规模的多脚本指令微调数据集Konkani-Instruct-100k,以及针对Konkani语言进行微调的多个大型语言模型。这些模型在翻译和转写任务上表现出色,有助于提高低资源语言的数字数据。
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
Photoroom发布了其文本到图像基础模型PRX的架构实验结果,该模型采用混合Transformer架构,旨在提高文本到图像生成模型的效率、稳定性和对齐性。PRX在性能、吞吐量和内存效率之间取得了最佳平衡,并采用了T5Gemma作为文本编码器,以及FluxVAE和Deep-Compression Autoencoders (DC-AE)作为潜在空间自动编码器。Photoroom计划开源整个开发过程,并鼓励社区参与和贡献。
MiniMax AI 发布了Forge,一个可扩展的Agent强化学习框架和算法,旨在解决大规模Agent RL在系统吞吐量、训练稳定性和Agent灵活性之间的冲突。Forge通过灵活的系统架构、算法设计、优化的异步调度和极致的训练-推理效率,实现了对复杂现实世界Agent的大规模强化学习训练,并在MiniMax M2.5模型中取得了显著成果。
Kanon 2 Reranker,一款专为法律领域检索增强生成(RAG)优化的重排模型,由Hugging Face发布。该模型在Legal RAG Bench上排名第一,性能优于其他领先模型,并支持无限上下文窗口。Kanon 2 Reranker与Kanon 2 Embedder结合使用,显著提升了法律信息检索性能,并通过Isaacus API提供,定价为每百万token 0.35美元。
本文介绍了如何从头开始构建一个简单的检索增强生成(RAG)系统,该系统结合了信息检索和文本生成,以增强语言模型的表现。文章详细解释了RAG系统的关键组件,包括检索模型和语言模型,并提供了使用Python和ollama实现RAG系统的示例代码。
暂无摘要
暂无摘要
暂无摘要
OpenAI 发布了 ChatGPT 的新功能,即互动式视觉解释,旨在通过实时操作变量和观察结果来增强数学和科学概念的学习体验。这项功能旨在帮助用户从抽象的方程式转向直接的实验,加强概念理解,并已在全球范围内推出。
OpenAI 发布了 IH-Challenge 训练数据集,旨在提升前沿大型语言模型(LLMs)的指令层级、安全可控性和对抗性提示注入的鲁棒性。通过强化学习训练的模型在指令层级基准测试中表现出色,并在保持模型有用性的同时,提高了对新攻击和情况的泛化能力,从而增强了AI系统的安全性和可靠性。
这篇论文提出了Hit-RAG,一个多阶段偏好对齐框架,旨在通过渐进式优化流程解决长上下文中检索增强生成(RAG)模型的信息稀释和推理幻觉问题。Hit-RAG通过监督微调、判别性偏好对齐和组相对策略优化三个阶段,系统地优化外部证据的使用,从而在长上下文场景中实现显著的性能提升。
这篇论文提出了RetroAgent,一个基于强化学习的在线RL框架,通过后见之明自我反思机制,为智能体提供双重内在反馈,从而在复杂交互环境中不仅解决问题,还能不断进化。该框架通过增量子任务完成跟踪和语言反馈,显著提升了智能体的适应性和泛化能力。
这篇论文介绍了Covenant-72B,一个通过全球分布式预训练产生的巨大语言模型。它通过一个实时区块链协议支持开放、无权限的参与,使用高效的通信优化器SparseLoCo,实现了动态参与。该模型在1.1T个token上进行预训练,与在相似或更高计算预算下完全集中式预训练的模型相比,表现竞争力,证明了非白名单、完全民主化的参与不仅是可行的,而且可以实现前所未有的全球分布式预训练规模。
这篇论文提出了ConflictBench,一个用于评估人类与AI冲突的基准,通过150个多轮场景模拟真实世界的交互冲突。它结合了文本模拟引擎和视觉基础世界模型,使代理能够在动态条件下感知、计划和行动。实验表明,代理在直接危害人类时通常表现安全,但在延迟或低风险情况下会优先考虑自我保护或采取欺骗策略。
这篇论文提出了CoFiCot,一个自适应的粗到细状态化细化框架,用于解决大规模语言模型(LLM)推理能力在测试时计算扩展的问题。该框架通过动态调整推理策略来适应问题的难度,使用多指标分类器对查询进行分类,并实施一个高效的聚合阶段,同时将复杂查询路由到上下文感知的纠正循环。
这篇论文提出了一种基于检索增强的文本到CT图像生成方法,通过结合语义和结构信息,在保持语义灵活性的同时提供粗略的解剖学指导,从而提高图像的准确性和临床一致性。
这篇论文提出了aCAPTCHA,一种基于不对称难度的安全游戏,用于验证实体是否为具有能力的智能体。它通过时间阈值和可验证的智能体能力向量来区分人类、脚本和智能体三类实体,并通过自然语言理解的多轮HTTP验证协议实现。
这篇论文提出了LieCraft,一个用于评估语言模型欺骗能力的多智能体框架。该框架通过一个多玩家隐藏角色游戏,让玩家在长期时间范围内执行策略,以解决事件挑战并揭露不良行为者。通过10个基于现实世界的场景,如儿童保育、医院资源分配和贷款审批,LieCraft评估了12个最先进的语言模型在背叛倾向、欺骗技能和指控准确性方面的表现。
这篇论文提出了BRIDGE,一个针对长多模态文档中多跳推理的基准。该基准旨在评估大型语言模型在长文档中的推理能力,特别是跨文本、表格和图集的证据整合。通过支持链式和扇出结构,并提供多跳推理的显式标注,BRIDGE能够诊断在传统答案评估下隐藏的推理失败。