Hugging Face高效OCR处理30K论文,Markdown交互平台上线
Hugging Face通过使用Codex、开源OCR模型和Hugging Face Jobs,成功对30,000篇论文进行了OCR处理,使这些论文的Markdown版本可供用户在平台上进行交互。
精选 20 篇,从 2 条中筛选
Hugging Face通过使用Codex、开源OCR模型和Hugging Face Jobs,成功对30,000篇论文进行了OCR处理,使这些论文的Markdown版本可供用户在平台上进行交互。
Hugging Face 发布了 BidirLM,这是一种将生成式大型语言模型(LLM)转变为强大的双向编码器的方法。BidirLM 通过组合专门的因果模型并通过权重合并,将文本编码器转变为能够处理文本、图像和音频的单一紧凑模型,并在标准基准测试中击败了多模态和无模态的专家。
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。
本文介绍了作者Niels Rogge如何利用编码智能体Codex将VidEoMT模型贡献到Hugging Face的Transformers库中,强调了自2025年12月以来编码智能体在代码编写能力上的显著提升,以及如何通过提供清晰的提示和利用文件系统等方法,有效指导智能体完成模型移植等任务。
Metric AI Lab发布了ArmBench-LLM 1.0,这是一个全面评估大型语言模型在亚美尼亚语任务上表现的基准测试。该版本扩展了评估范围,包括多种任务和模型,并发布了API支出报告,强调了开源模型在亚美尼亚语任务上的竞争力。
这篇博客详细介绍了在Transformer模型中处理张量维度的重要性,包括矩阵乘法、嵌入层、位置编码、解码器层和注意力机制等关键概念,旨在帮助读者更好地理解Transformer架构。
NVIDIA发布Nemotron 3 Nano 4B,这是Nemotron 3系列中最紧凑的成员,采用混合Mamba-Transformer架构,专为边缘设备部署优化,提供高效、准确的小型语言模型,支持FP8和Q4_K_M GGUF量化,旨在降低模型大小和VRAM使用,提高吞吐量和降低延迟。
本文详细介绍了如何使用PyTorch和Hugging Face工具微调大型语言模型(LLM),以将英文翻译成尤达语(Yoda-speak)。通过量化模型、设置低秩适配器(LoRA)、格式化数据集以及使用Hugging Face的`trl`库中的`SFTTrainer`进行监督式微调,展示了整个过程。LoRA技术允许在量化模型上进行高效训练,显著减少了可训练参数的数量,使其仅占原始大小的1%或更少,从而能在资源有限的消费级GPU上进行训练。
暂无摘要
暂无摘要
这篇公告详细介绍了小型语言模型(SLM)的概念、制作方法、优势、局限性以及在实际应用中的使用。SLM是一种轻量级的语言模型,适用于资源受限的环境,如智能手机和嵌入式系统。它们保留了核心的自然语言处理能力,同时具有低计算需求、低能耗和快速推理等优势。公告还介绍了如何使用Ollama和PocketPal等工具在边缘设备上运行SLM,以及如何通过微调来提高模型性能。
本文介绍了从GRPO到DAPO再到GSPO的强化学习技术演进,重点关注了在大型语言模型中如何优化长文本输出和复杂任务的性能。文章详细讨论了每种方法的原理、优势和局限性,并展示了如何通过改进采样、剪枝和梯度计算等细节来提高效率和稳定性。
这篇公告详细记录了一位AI技术分析师在训练Action Chunking Transformer (ACT)模型上的经历,包括遇到的挑战、解决方案和经验教训。文章描述了如何使用SO-101机器人进行数据收集和训练,以及如何通过改进硬件设置、数据收集流程和评估流程来提高模型的性能。
NVIDIA 发布了首个医疗机器人开放数据集 Open-H-Embodiment,包含 778 小时训练数据,旨在推动医疗机器人领域物理人工智能的发展。同时推出了两个开源模型 GR00T-H 和 Cosmos-H-Surgical-Simulator,用于手术机器人任务和动作条件式手术机器人模拟,以实现更精确和高效的手术操作。