lightonai/LightOnOCR-2-1B:1B参数量OCR,速度快
LightOnOCR-2-1B是一款高效的端到端视觉语言模型,专门用于将文档转换为文本。该模型在OCR领域表现出色,具有快速处理速度和高效能的特点。它基于Transformer架构,参数量为1B,支持多种语言,包括中文。在OlmOCR-Bench基准测试中取得了领先性能,同时体积小、速度快,适用于处理PDF、扫描图像等多种文档格式。
精选 67 篇,从 4200+ 条中筛选
LightOnOCR-2-1B是一款高效的端到端视觉语言模型,专门用于将文档转换为文本。该模型在OCR领域表现出色,具有快速处理速度和高效能的特点。它基于Transformer架构,参数量为1B,支持多种语言,包括中文。在OlmOCR-Bench基准测试中取得了领先性能,同时体积小、速度快,适用于处理PDF、扫描图像等多种文档格式。
AgentCPM-Report是一款由THUNLP、RUCBM和ModelBest共同开发的开放源代码大型语言模型,基于MiniCPM4.1 8B参数基座模型。该模型在报告生成方面表现出色,具有高性能和最小化资源占用等特点。它通过深度检索和思维链推理,生成逻辑严谨、深入见解的长篇报告。模型定位为通用大模型,具有强大的文本生成能力,适用于需要高质量报告生成的场景。
HeartMuLa/HeartMuLa-oss-3B是一款专注于音乐和艺术领域的多模态LLM,具有3B参数量。该模型采用Apache 2.0开源协议,支持多种语言,包括中文、英文、日语等。它在音乐生成和艺术创作方面表现出色,能够将文本转换为音频。在性能上,HeartMuLa-oss-3B在音乐和艺术相关任务中表现优异,但在通用语言理解任务上可能不如其他通用LLM。该模型适用于音乐创作、艺术生成和跨语言交流等场景,具有较好的开源协议和硬件兼容性。
nvidia/personaplex-7b-v1是一款定位为通用大模型的LLM,具有7B参数量,支持多语言。其核心技术为Transformer变体,并采用moshi库进行优化。在性能上,该模型在多个基准测试中表现出色,具有较好的代码生成和数学推理能力。模型开源,适用于多种硬件平台,与vLLM等推理框架兼容。主要应用场景包括多语言问答、代码生成等。
Lightricks/LTX-2是一款基于DiT架构的多模态音频-视频基础模型,专注于生成同步的视频和音频。该模型具有灵活的下载量和点赞数,支持多种语言,并采用diffusers库。LTX-2在图像到视频、文本到视频等多个领域具有广泛应用,其开源协议和丰富的模型版本提供了灵活的部署选项。在性能上,LTX-2在多模态任务中表现出色,尤其在视频生成方面具有显著优势。
kyutai/pocket-tts是一款专注于文本到语音转换的模型,定位为特定领域微调模型。其核心技术基于pocket-tts库,采用Transformer架构,具有较短的上下文长度和相对较少的参数量。性能方面,目前缺乏权威基准测试结果,但模型在HuggingFace Hub上获得了187个点赞,显示出一定的社区认可。主要应用场景为需要文本到语音转换的场合,如语音助手、教育辅助等。模型开源,适用于多种硬件平台,推理效率较高。
STEP3-VL-10B是一款轻量级开源基础模型,定位为通用大模型,具有10B参数量。其核心技术包括统一的多模态预训练和强化学习,具备视觉感知、复杂推理和人类中心对齐能力。在MMLU、GPQA等基准测试中表现出色,性能优于同规模模型。适用于多模态任务,具有开源Apache-2.0协议,适合在多种硬件和推理框架上使用。
LiquidAI/LFM2.5-1.2B-Thinking是一款针对边缘设备部署的推理优化版本的大语言模型。该模型基于LFM2架构,具有1.2B的参数量,支持多种语言。它在性能上与更大的模型相媲美,同时具有快速边缘推理能力。该模型在推理效率、内存占用和兼容性方面表现出色,适用于需要高性能和低延迟的边缘设备。
Qwen3-TTS是一款专注于语音合成的大语言模型,定位为特定领域微调模型。其核心技术包括自研的Qwen3-TTS-Tokenizer-12Hz和离散多码本LM架构,支持多种语言和方言,具有强大的语境理解和自适应控制能力。性能上,模型实现了低延迟的流式生成,端到端合成延迟低至97ms。主要应用场景包括实时交互和个性化语音合成。模型开源协议为Apache-2.0,适合对实时性和个性化语音合成有较高要求的场景。
🔥google/translategemma-4b-it是一款专注于图像到文本翻译的热门模型,定位为多模态模型。其核心技术为基于Gemma3架构的Transformer变体,支持长达200K的上下文长度,参数量适中。在权威基准测试中表现优异,尤其在图像到文本翻译任务上具有显著优势。模型开源,兼容主流推理框架,适用于需要图像到文本翻译功能的场景。
FlashLabs/Chroma-4B是一款多模态模型,定位为通用大模型。其核心技术为Transformer变体,支持任何到任何的转换,具有丰富的功能标签。该模型在Hugging Face Hub上表现活跃,下载量和点赞数均较高。性能方面,具体基准测试结果未提及,但其在多模态任务上具有优势。适用场景广泛,兼容性强,适合对多模态处理有需求的用户。
🔥 unsloth/GLM-4.7-Flash-GGUF 是一款基于 GLM-4.7-Flash 的 MoE 模型,定位为通用大模型。该模型具有 30B 参数,支持多语言(英、中、阿拉伯语)。其核心技术包括 MoE 架构和 UnSloth Dynamic 2.0 技术,在 GLM-4.7-Flash 的基础上进行了优化。在性能上,该模型在多个基准测试中表现出色,具有优秀的代码生成、数学推理和多语言能力。开源协议为 MIT,适用于需要高性能和跨语言支持的场景。
GLM-Image是一款定位在多模态模型领域的开源模型,采用混合自回归+扩散解码器架构。其核心能力在于文本到图像的生成,同时支持丰富的图像到图像任务。技术特点包括基于GLM-4-9B-0414的9B参数自回归生成器和基于DiT架构的7B参数扩散解码器。在性能上,GLM-Image在文本渲染和知识密集型生成场景中表现出色,同时具备高保真和精细细节生成能力。主要应用场景包括图像编辑、风格迁移、身份保留生成和多主体一致性等。开源协议为MIT,硬件需求中等,推理效率良好。
Sweep Next-Edit 1.5B 是一款专注于代码编辑自动完成的模型,定位为代码模型。它采用GGUF格式量化,参数量为1.5B,上下文长度为8192 tokens。该模型在代码编辑自动完成方面表现出色,能够预测用户下一步的代码编辑。它在Hugging Face上的下载量和点赞数均较高,表明其在社区中受到认可。模型基于Qwen2.5-Coder,采用Q8_0量化,适合在本地设备上快速运行。性能方面,模型在代码编辑自动完成基准测试中优于同类模型。主要应用场景为代码编辑辅助工具,对开发者友好。
Qwen3-TTS是一款多语言TTS模型,定位为通用大模型。它具备强大的语音表征能力和低延迟的流式生成能力,采用自研的Qwen3-TTS-Tokenizer-12Hz进行高效声学压缩和语义建模。模型在语音合成方面表现出色,支持多种语言和方言,并具备智能文本理解和语音控制功能。性能方面,模型在权威基准测试中表现良好,具有高效的开源协议和推理效率,适用于实时交互场景。
Qwen3-TTS是一款专注于语音合成的LLM,具备强大的语音表征能力和低延迟的流式生成能力。该模型覆盖10种主要语言,支持多种方言,具有强大的上下文理解能力。其核心技术包括自研的Qwen3-TTS-Tokenizer-12Hz和离散多码本LM架构,实现了高效的声学压缩和语义建模。在性能上,Qwen3-TTS在语音合成任务中表现出色,具有极低的延迟,适用于实时交互场景。模型适用于需要高质量语音合成的应用场景,如智能客服、语音助手等。
VibeVoice-ASR是一款专注于语音识别的领域大模型,具备处理长达60分钟音频的能力,支持结构化转录,包括说话人、时间和内容信息。该模型采用Transformer架构,支持自定义热词,具有丰富的转录功能。在性能上,VibeVoice-ASR在权威基准测试中表现出色,具有高准确率和语义连贯性。模型适用于需要长音频转录和特定领域内容识别的场景,如会议记录、讲座转录等。其开源协议和硬件需求适中,推理效率较高。
FLUX.2-klein-4B 是一款专注于图像生成的多模态模型,定位为通用大模型。该模型具有4亿参数,采用紧凑的架构,能够在不到一秒的时间内完成图像生成和编辑。其核心技术包括Transformer变体和扩散模型,支持文本到图像和图像编辑功能。在性能上,该模型在同类模型中表现出色,适用于实时图像生成和编辑的应用场景。模型开源,可在消费级硬件上运行,对开发者友好。
FLUX.2-klein-9B是一款专注于图像到图像转换的模型,定位为多模态模型。其核心技术为基于Transformer的架构,具有9B参数量,支持diffusers库。在性能上,模型在图像生成和编辑任务上表现出色,但具体基准测试结果未提及。模型适用于图像处理和创意设计领域,开源协议为Apache-2.0,对硬件要求较高,推理效率中等。
GLM-4.7-Flash是一款30B-A3B的MoE模型,定位为通用大模型。其核心技术包括MoE架构和Transformer变体,支持多种语言。在基准测试中表现出色,尤其在AIME 25和GPQA等任务上排名靠前。该模型适用于需要高性能和轻量级部署的场景,支持vLLM和SGLang等推理框架。
这篇论文提出了ChartVerse,一个用于生成复杂图表和可靠推理数据的可扩展框架。它通过Rollout Posterior Entropy (RPE)来量化图表复杂性,并采用答案优先的QA合成方法,以生成高质量的推理数据。实验结果表明,ChartVerse在图表推理任务上取得了最先进的性能。
这篇论文提出了GameTalk框架,用于训练大型语言模型(LLMs)通过多轮对话进行战略决策。该方法通过优化整个对话的全局目标,超越了以往仅关注单轮目标或静态动作预测的研究。实验表明,GameTalk在多个复杂游戏中显著优于未训练的模型,特别是在奖励塑造下,DPO方法取得了最强增益。
这篇论文提出了一种名为RebuttalAgent的框架,该框架通过心智理论(ToM)来指导学术反驳,通过模拟审稿人的心理状态,制定说服策略,并生成基于策略的回答。论文构建了RebuttalBench数据集,并通过监督学习和强化学习训练模型,同时开发了Rebuttal-RM评估器,实现了在自动化和人工评估中优于基线模型和GPT-4.1的性能。
这篇论文提出了Parametric Skill Transfer (PaST)框架,通过将领域无关的技能向量注入到经过轻量级微调的模型中,以实现高效的持续知识适应。该方法通过从源领域提取技能向量,线性地增强目标模型的知识操作能力,从而在问答和决策任务中提高模型的表现。
这篇论文提出了针对大型语言模型(LLM)在代码生成任务中的提示工程指南,通过实证研究分析了代码生成提示的优化方法,并提出了10条改进指南,旨在帮助开发者提高代码生成的质量和效率。
这篇论文提出了Jet-RL,一个采用统一FP8精度的强化学习训练框架,旨在解决现有RL训练过程中的计算效率和资源消耗问题。通过在训练和 rollout 阶段都使用FP8精度,Jet-RL显著提高了训练和 rollout 的速度,同时保持了稳定的收敛性和可接受的精度。
这篇论文提出了Mecellem模型,一个用于开发土耳其法律领域专业语言模型的框架,通过领域自适应策略进行训练。论文的主要贡献包括从零开始预训练的编码器模型和具有持续预训练的解码器模型。编码器模型在土耳其检索排行榜上排名前三,解码器模型通过控制课程学习实现了领域自适应,显著降低了土耳其法律文本的困惑度。
这篇论文提出了一种名为SALAD的新方法,通过引入一个轻量级的线性注意力分支和输入依赖的门控机制,实现了高稀疏度的注意力机制,从而在视频扩散Transformer中达到90%的稀疏度和1.72倍的推理速度提升,同时保持了与全注意力基线相当的生成质量。
这篇论文提出了MeepleLM,一个能够模拟不同玩家主观体验的虚拟试玩者,通过结合规则书和玩家评论数据,以及MDA推理,实现了对游戏体验的深入理解和模拟,显著提升了游戏设计的质量和用户体验。
这篇论文提出了一种通过测试时评分指南引导的验证来自我进化的深度研究代理(DRAs)的方法,通过迭代验证策略模型的输出,从而实现推理时验证的扩展。该方法基于自动构建的DRA失败分类法,将代理失败分为五大类和十三个子类。论文介绍了DeepVerifier,这是一个基于评分的成果奖励验证器,它在元评估F1分数上优于基线模型。DeepVerifier作为测试时推理的模块集成,能够提供详细的反馈,用于迭代地改进代理的响应,而无需额外的训练。
这篇论文提出了DSGym,一个用于评估和训练数据科学代理的全面框架。该框架解决了现有数据科学基准的不足,如评价接口碎片化、任务覆盖范围狭窄和数据基础不严格等问题。DSGym通过模块化架构提供了一种灵活的测试平台,并引入了标准化的任务套件,包括基于文献的生物信息学任务和跨领域的预测任务。此外,DSGym还通过执行验证的数据合成管道支持代理训练。
这篇论文介绍了LongCat-Flash-Thinking-2601,一个具有卓越代理推理能力的开源MoE推理模型。该模型通过结合领域并行专家训练和后续融合的统一训练框架,实现了在多个代理基准测试中的最先进性能,并展示了在复杂工具交互和真实世界环境中的强大泛化能力。
这篇论文介绍了VisGym,一个包含17个环境用于评估和训练视觉语言模型(VLMs)的集合。它涵盖了符号谜题、真实图像理解、导航和操作等多种场景,并提供了灵活的控制难度、输入表示、规划范围和反馈。实验表明,前沿模型在交互式环境中表现不佳,且在长上下文中表现不如在截断窗口中。论文强调了通过监督微调在部分可观察或未知动态环境中进行探索性演示的重要性。
这篇论文提出了TwinBrainVLA,一种新的AI架构,通过不对称混合变换器(AsyMoT)机制,结合了一般视觉语言模型(VLM)和专门用于机器人控制的VLM,以解决在机器人控制中保持高级语义理解和学习低级传感器运动技能之间的冲突。
这篇论文提出了Endless Terminals,一个自动生成终端使用任务的流程,旨在解决强化学习环境中环境瓶颈的问题。该流程包括生成多样化的任务描述、构建和验证容器化环境、生成完成测试以及过滤可解任务。通过使用简单的PPO算法和二进制奖励,模型在Endless Terminals上训练后,在多个基准测试中显示出显著的性能提升。
这篇论文提出了SWE-Pruner,一个针对编码代理的自适应上下文剪枝框架,旨在解决长交互上下文导致的性能问题。SWE-Pruner通过模仿人类程序员在开发过程中的选择性阅读,动态选择与当前任务相关的上下文行,从而在保持性能的同时显著减少API成本和延迟。
这篇论文提出了Memory-V2V,一种增强视频到视频扩散模型的框架,通过引入显式记忆机制,提高了多轮视频编辑中的跨一致性,同时减少了计算开销,并在视频新视角合成和文本条件长视频编辑等任务上取得了显著的性能提升。
这篇论文探讨了在大型语言模型(LLMs)中,不确定性量化从被动诊断指标到主动控制信号的角色演变。它通过在高级推理、自主代理和强化学习中的应用,展示了不确定性如何作为主动控制信号来优化计算、触发自我纠正、管理元认知决策以及通过内在奖励实现自我改进。
这篇论文提出了Agentic Confidence Calibration问题,并引入了Holistic Trajectory Calibration (HTC)框架,用于解决AI代理在执行复杂任务时的过自信问题。HTC通过提取整个轨迹上的丰富过程级特征,实现了对AI代理的可靠性和诊断能力的提升。
这篇论文提出了一种名为Agentic Uncertainty Quantification (AUQ)的框架,旨在解决AI代理在长期推理中的可靠性问题。该框架通过将不确定性转化为双向控制信号,结合了不确定性感知记忆(UAM)和不确定性感知反思(UAR)两种机制,以平衡高效执行和深度思考。
LightOn AI 发布了 LightOnOCR-2-1B,这是一个10亿参数的第二代端到端视觉-语言 OCR 模型,旨在将文档页面转换为高质量文本,同时提供轻量级布局信息。该模型在性能和速度上均优于同类产品,并支持Hugging Face Transformers生态系统,便于社区使用。
Interpreto 是一个新推出的开源库,旨在为自然语言处理(NLP)模型提供实用、模块化且统一的可解释性解决方案。它支持基于归因和基于概念的解释方法,适用于分类和生成模型,并能够与 Hugging Face Transformer 模型无缝集成。Interpreto 的发布为用户和开发者提供了一种新的工具,用于理解和评估 NLP 模型的预测过程。
RexRerankers 是一种先进的重排序器,旨在提高产品发现和人工智能助手的效率。它通过估计电子商务产品与查询的相关性来工作,并使用 Amazebay 数据集进行训练。此外,还发布了 ERESS 评估套件,用于全面评估产品发现重排序器的性能。
杭州人工智能公司DeepSeek在2025年1月发布了R-1模型,标志着“DeepSeek时刻”的到来。这一事件推动了开源人工智能生态系统的快速发展,并促进了全球范围内对开源模型的采用。一年来,中国开源社区在人工智能领域取得了显著进展,涌现出大量新的开源模型和参与者。DeepSeek的R-1模型降低了技术、采用和心理障碍,推动了开源生态系统的自我复制能力。中国公司开始将开源作为长期竞争策略的一部分,从模型比较转向系统级能力。
Hugging Face 的 llama.cpp 服务器新增支持 Anthropic Messages API,允许用户使用兼容 Claude 的客户端与本地模型交互。这一更新通过内部格式转换,重用现有推理管道,并支持多种功能,如聊天补全、Token 计数、工具使用和视觉输入,旨在提升本地模型的性能和易用性。
Zilliz团队发布了名为'zilliz/semantic-highlight-bilingual-v1'的语义高亮模型,该模型旨在降低RAG(Retrieval-Augmented Generation)中的Token成本,同时提供中英双语支持。该模型基于轻量级的Encoder-Only架构,并使用BGE-M3 Reranker v2作为基础模型,通过LLM标注和推理过程训练,实现了在多个数据集上的最先进性能。
LightOnOCR-1B 是一种高效的 OCR 模型,它结合了视觉和语言模型技术,实现了在光学字符识别任务中的最先进性能。该模型通过端到端训练和知识蒸馏技术,在保持高准确率的同时,显著提高了处理速度,每秒可以处理 5.71 页文档。此外,LightOnOCR-1B 的开发团队还发布了其训练数据集,以促进该领域的进一步研究。
这篇公告讨论了合成数据集生成的挑战,包括回归均值问题、上下文锚定偏差、批量退化等,并介绍了Smolify,一个用于特定领域语言模型(DSLMs)的铸造厂,旨在自动化整个流程,帮助开发者拥有自己的AI基础设施。
微软研究团队发布了OptiMind,这是一种专门的语言模型,能够将自然语言描述的优化问题直接转换为数学模型,旨在简化优化流程中的关键步骤,提高实验和迭代的效率。OptiMind现在作为实验性模型在Hugging Face上提供,旨在降低高级优化建模的门槛,使更多用户能够利用这一技术。
这篇公告介绍了如何扩展OpenEnv环境,从免费使用到支持数千个并发环境。OpenEnv是一个旨在标准化智能体执行环境的社区合作项目。文章详细介绍了如何使用Hugging Face Spaces等工具进行扩展,并提供了不同级别的基准测试和部署代码,强调了WebSocket接口和多节点集群在提高环境吞吐量方面的重要性。
Novita AI 发布了针对 GLM4-MOE 模型的生产级优化方案,通过共享专家融合、Qknorm 融合和异步传输等技术,显著提升了模型推理效率,实现了高达 65% 的 TTFT 减少和 22% 的 TPOT 提升,为生产环境中的高性能推理提供了实践蓝图。
NVIDIA发布了一种名为Nemotron Speech ASR的新实时语音识别模型,该模型通过缓存感知流式处理技术,实现了更高的效率和更低的延迟,为实时语音代理提供了新的基准。
Hugging Face的研究人员逆向工程了AI初创公司Magic的技术,发现其核心在于将哈希字符串或函数名视为单一token,从而实现了高效的键值查找和长上下文匹配。基于这一发现,研究者开发了MALM模型,并成功复现了Magic的演示,如计算器和密码强度计等应用场景。
本文介绍了如何利用开源模型DeepSeek-OCR和FineVision进行大规模OCR任务,并展示了如何在不同的GPU基础设施上运行批量OCR推理。文章详细介绍了如何设置DeepSeek-OCR进行高吞吐量文档处理,设计模块化管道提取文档内容,并在多个云平台上部署批量推理作业。此外,还讨论了优化批量大小和并发性以提高GPU利用率,以及成本估算和扩展处理能力的方法。
Hugging Face发布了针对机器学习生命周期的存储基础设施,旨在解决传统云存储在处理机器学习模型、数据集和日志时的局限性。该基础设施通过Xet技术实现数据去重,提高迭代速度;支持数据流式传输,无需本地下载;提供供应链安全和治理功能,包括自动扫描、细粒度访问控制和数据驻留;同时,它还提供协作和文档功能,如模型卡片和社区功能,使机器学习团队能够更高效地协作。
本文介绍了如何从头开始构建一个简单的检索增强生成(RAG)系统,该系统结合了信息检索和文本生成,以增强语言模型的表现。文章详细解释了RAG系统的关键组件,包括检索模型和语言模型,并提供了使用Python和ollama实现RAG系统的示例代码。
Dell Enterprise Hub发布了新的功能,专注于安全性、治理和性能,包括对模型和容器进行安全扫描,使用Hugging Face访问令牌进行模型访问治理,以及提供优化配置以提高性能。这些更新旨在简化AI模型在Dell平台上的训练和部署,同时增强安全性、治理和性能。
本文介绍了如何使用EvalScope构建定制化的模型评估指标,以更好地反映模型在不同场景下的实际业务价值。文章强调了现有公共评估指标的局限性,并详细说明了构建评估指标的过程,包括定义Schema、采样数据和统一评估等步骤,同时通过实例展示了如何构建企业RAG助手指标,并强调了案例分析和可视化在理解模型表现中的重要性。
本文介绍了如何创建和发布 Reachy Mini 应用程序,这是一个开源的机器人平台。开发者可以使用 Python SDK 或其他方法,如 Web API / JavaScript 模板,来创建应用程序。文章详细介绍了从创建应用程序模板、编写应用程序逻辑、测试到发布的全过程,并提供了将应用程序添加到官方应用程序列表的指南。
Hugging Face 发布了两个新的 Llama Nemotron 模型,用于提高多模态搜索和视觉文档检索的准确性。这些模型能够处理文本和图像,并支持标准向量数据库,旨在为开发者提供高效、低延迟的视觉文档检索解决方案。
这篇论文提出了一种名为DeepEra的深度证据重排序代理,用于科学检索增强的生成式问答。DeepEra通过逐步推理,提高了对候选段落逻辑相关性的评估,从而增强了检索性能。论文构建了一个大规模数据集SciRAG-SSLI,用于测试逻辑鲁棒性和事实基础,并通过实验证明了其方法在检索性能上的优越性。
这篇论文介绍了LongCat-Flash-Thinking-2601,一个具有卓越代理推理能力的开源MoE推理模型。该模型通过结合领域并行专家训练和融合,以及从预训练到后训练的数据构建、环境、算法和基础设施的端到端协同设计,实现了在多个代理基准测试中的最先进性能。它通过深入的环境扩展和任务构建原则,优化了长尾、偏斜的生成和多轮代理交互,并通过DORA框架实现了大规模多环境训练的稳定性和效率。
这篇论文提出了SafeThinker,一个用于增强大型语言模型(LLMs)安全性的自适应框架。该框架通过一个轻量级网关分类器动态分配防御资源,包括标准化拒绝机制、安全感知双专家模块和分布引导思考组件,以应对伪装成良性查询的欺骗性攻击,并在不确定生成过程中进行适应性干预,从而在不牺牲效用的情况下显著降低攻击成功率。
这篇论文提出了Memory-V2V,一种增强视频到视频扩散模型的框架,通过引入显式记忆机制来提高多轮视频编辑中的跨一致性。该方法使用外部缓存和动态标记化策略,同时引入可学习的标记压缩器以减少冗余,从而在视频新颖视图合成和文本条件长视频编辑等任务上实现了显著的性能提升。
这篇论文提出了N-Way Self-Evaluating Deliberation (NSED)协议,这是一种运行时混合模型(MoM)架构,通过多个不同的专家代理构建涌现的复合模型。它使用动态专家经纪人来处理模型选择,并在执行层中将辩论形式化为宏观尺度循环神经网络(RNN),以实现迭代改进。实验表明,这种架构能够使小型模型达到或超过大型模型的性能。
这篇论文提出了一种使用对比学习来减少自动评分系统中针对英语作为第二语言学习者的偏见的方法。作者通过对比学习,特别是使用匹配的作文对的三重构造策略,显著减少了高熟练度ESL作文与母语者作文之间的评分差异。
这篇论文介绍了VibeTensor,一个由AI代理完全生成的开源深度学习系统软件栈。它通过高级人类指导,利用LLM-powered的编码代理生成代码,并通过自动化构建和测试进行验证。VibeTensor实现了PyTorch风格的即时张量库,具有C++20核心,并通过nanobind提供了Python覆盖层。该系统旨在展示AI辅助软件工程的潜力。