Jina AI推出一款1.5B参数的小型语言模型ReaderLM-v2:专注于将原始HTML高效准确地转换为Markdown或JSON格式

ReaderLM-v2 是由Jina AI开发的一款1.5B参数的小型语言模型,专注于将原始HTML高效准确地转换为Markdown或JSON格式。这款第二代模型在长上下文处理能力和多语言支持方面有了显著提升,能够处理多达512K tokens的输入输出长度,并支持包括中文、英语、日语在内的29种语言。(官方介绍

产品背景与发展历程

  • 2024年4月,Jina AI推出了Jina Reader API,通过简单的URL前缀r.jina.ai即可将网页转化为适合大型语言模型(LLM)处理的Markdown格式。
  • 2024年9月,Jina AI发布了两款专用于HTML到Markdown转换的小型语言模型——reader-lm-0.5breader-lm-1.5b
  • 现在,Jina AI自豪地推出ReaderLM-v2,这标志着HTML转换技术的新里程碑,特别是在Markdown语法生成和长文档处理方面。

主要特点与改进

  • 改进的长上下文处理能力:ReaderLM-v2解决了前代模型中的退化问题,确保了无论文本长度如何,模型性能的一致性。
  • 真正的翻译而非选择性复制:新模型视HTML到Markdown的转换为翻译过程,从而更好地掌握Markdown语法,尤其是复杂元素如代码块、嵌套列表等的生成。
  • 直接HTML到JSON生成:除了Markdown转换,ReaderLM-v2还引入了从原始HTML直接提取信息并生成JSON的功能,简化了许多数据清理和提取流程。

核心功能

1. HTML 到 Markdown 转换

ReaderLM v2 能够将原始 HTML 转换为格式优美的 Markdown,支持高达 512K tokens 的输入输出长度。这一功能不仅保留了原始 HTML 的完整信息,还能巧妙地使用 Markdown 语法结构化内容。例如,在转换 HackerNews 首页时,ReaderLM v2 能够巧妙地使用嵌套列表组织局部元素,通过正确的标题层次结构保持全局格式的一致性。

2. HTML 到 JSON 提取

除了 Markdown 转换,ReaderLM v2 还引入了直接从 HTML 到 JSON 的生成功能。用户可以根据给定的 JSON 模式从原始 HTML 中提取特定信息,无需中间的 Markdown 转换。这一功能在数据清理和提取流程中尤为实用,能够显著提高效率。

技术亮点

1. 高质量训练数据

得益于新的训练范式和更高质量的训练数据,ReaderLM v2 在长上下文处理和 Markdown 语法生成方面有了显著提升。第一代模型将 HTML 到 Markdown 的转换视为“选择性复制”任务,而 v2 则将其视为真正的翻译过程。这一转变使模型能够熟练运用 Markdown 语法,擅长生成复杂元素,如代码块、嵌套列表、表格和 LaTeX 公式。

2. 退化问题的解决

第一代模型的一个主要问题是退化,尤其是在生成长序列后出现重复和循环现象。ReaderLM v2 通过在训练中添加对比损失,大大缓解了这一问题,无论上下文长度或已生成的 token 数量如何,其性能始终保持一致。

3. 多语言支持

ReaderLM v2 支持 29 种语言的多语言支持,包括英语、中文、日语、韩语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、越南语、泰语、阿拉伯语等。这使得它能够满足不同语言环境下的用户需求。

性能表现

1. 定量和定性基准测试

在定量和定性基准测试中,ReaderLM v2 在 HTML 到 Markdown 任务上表现优于更大的模型,如 Qwen2.5-32B-Instruct、Gemini2-flash-expr 和 GPT-4o-2024-08-06,同时在 HTML 到 JSON 提取任务上表现出可比性能,而使用的参数数量显著减少。

2. 手动评估

Jina AI 的手动评估涵盖了 10 种不同的 HTML 来源,包括新闻文章、博客文章、产品落地页、电子商务网站以及英语、日语和中文的法律文档。测试语料库包含具有挑战性的元素,如多行表格、动态布局、链接表格、数学公式(行内和显示)、代码块和深度嵌套列表。定性评估聚焦于三个关键维度,模型评分范围为 1(最低)到 5(最高),分数归一化为每方面最高 1.0 以便比较。

这些结果表明,设计良好的 1.5B 参数模型不仅可以在结构化数据提取任务中与更大的模型匹敌,甚至常常超越它们。从 ReaderLM v2 到 ReaderLM v2-pro 的逐步改进证明了 Jina AI 新训练策略在提高模型性能的同时保持计算效率的有效性。

0

评论0

没有账号?注册  忘记密码?