艾伦AI研究所推出Tülu 3 405B:超越 DeepSeek V3 的性能表现艾伦AI研究所在成功推出Tülu 3之后,又在昨天宣布推出Tülu 3 405B——这是首次将完全开放的后训练方法应用于最大规模的开放权重模型。此次发布不仅展示了艾伦AI研究所在大规模参数模型上的可扩...大语言模型# Tülu 3# Tülu 3 405B# 艾伦AI研究所2个月前01230
法国AI初创企业Mistral发布高效模型 Mistral Small 3:24亿参数的模型特别针对延迟进行了优化法国AI初创公司Mistral最近发布了其最新的人工智能模型——Mistral Small 3。这款拥有24亿参数的模型特别针对延迟进行了优化,并根据Apache 2.0许可证开放源代码。Mistra...大语言模型# Mistral# Mistral Small 32个月前01160
阿里通义团队推出Qwen2.5-1M:支持100万Token上下文的开源大语言模型阿里通义团队于两个月前升级了 Qwen2.5-Turbo,使其支持最多一百万个Tokens的上下文长度。1月27日,通义团队正式推出开源的 Qwen2.5-1M 模型及其对应的推理框架支持。以下是本次...大语言模型# Qwen2.5-1M2个月前01320
深度求索发布开源推理大语言模型DeepSeek-R1,性能对标 OpenAI o1 正式版幻方量化旗下的AI公司深度求索(DeepSeek)今日正式发布了其最新的大语言模型DeepSeek-R1,并同步开源了模型权重。这一举措旨在通过提供高性能的开源解决方案,推动人工智能领域的发展。 地址...大语言模型# DeepSeek# DeepSeek-R1# 深度求索2个月前01820
Jina AI推出一款1.5B参数的小型语言模型ReaderLM-v2:专注于将原始HTML高效准确地转换为Markdown或JSON格式ReaderLM-v2 是由Jina AI开发的一款1.5B参数的小型语言模型,专注于将原始HTML高效准确地转换为Markdown或JSON格式。这款第二代模型在长上下文处理能力和多语言支持方面有了...大语言模型# ReaderLM-v22个月前01220
微软正式开源了Phi-4:拥有140亿参数的小型语言模型去年12月,微软推出了其Phi系列的最新成员——Phi-4,该模型在解决数学问题等方面展现了显著的进步。这些进步主要得益于训练数据质量的提升,特别是采用了高质量的合成数据集和人类生成的内容数据集。然而...大语言模型# Phi-4# 微软2个月前01270
阿里通义团队开源了其最新代码模型Qwen2.5-Coder系列,代码能力比肩 GPT4o 和 Claude 3.5 Sonnet阿里通义团队开源了其最新代码模型Qwen2.5-Coder,这是一个从其前身CodeQwen1.5显著升级的代码特定模型系列,这个系列包括六个模型:Qwen2.5-Coder-(0.5B/1.5B/3...大语言模型# Qwen2.5-Coder# 代码模型# 阿里通义2个月前01940
多语言文本编码器Glyph-ByT5-v2:提高在图形设计图像中渲染多种语言文本的准确性和美观度来自微软亚洲研究院、清华大学、北京大学和利物浦大学的研究人员推出新型多语言视觉文本渲染技术Glyph-ByT5-v2,这是之前介绍的Glyph-ByT5升级版,此技术的目标是提高在图形设计图像中渲染多...大语言模型# Glyph-ByT5-v2# Glyph-SDXL-v2# 文本编码器2个月前06710
谷歌推出新一代开源模型Gemma,轻量级高性能,助力AI创新谷歌推出开源模型Gemma,这是一款轻量级、先进的开源模型,供开发者和研究人员用于AI构建。Gemma模型家族包括Gemma 2B和Gemma 7B两种尺寸,能够在不同的设备类型上运行,包括笔记本电脑...大语言模型# Gemma# 大语言模型# 谷歌2个月前05690