微软与 OpenAI 支持,哈佛法学院发起:首个大规模公共 AI 图书数据集正式开源上周,由微软与 OpenAI 联合资助、起源于哈佛大学法学院图书馆研究计划的 机构资料计划(Institutional Data Initiative,简称 IDI)宣布开源其首个大型 AI 数据集...大语言模型# OpenAI# 哈佛法学院# 微软8个月前02450
Tessa-T1:专为 React 前端开发打造的推理模型在前端开发领域,React 一直是构建现代 Web 应用的核心框架之一。然而,随着项目复杂度的增加,手动编写和优化 React 组件变得越来越耗时且容易出错。为了提升开发效率并简化前端工作流程,Tes...大语言模型# Qwen2.5-Coder# Tessa-T1# 推理模型10个月前02450
LongWriter-Zero:通过强化学习从零开始训练大语言模型,以实现超长文本生成新加坡科技设计大学和清华大学的研究人员推出新型模型LongWriter-Zero,基于 Qwen 2.5-32B-Base 构建,通过强化学习(RL)从零开始训练大语言模型(LLMs),以实现超长文本...大语言模型# LongWriter-Zero# 大语言模型7个月前02440
基于 Qwen3 的混合专家(MoE)模型Arcana Qwen3 2.4B A0.6BArcana Qwen3 2.4B A0.6B 是一个基于 Qwen3 的混合专家(MoE)模型,总参数量为 24 亿,每个专家模型拥有 6 亿参数。该模型旨在提供更高的准确性、更高的效率和更低的内存...大语言模型# Arcana Qwen3 2.4B A0.6B# MoE模型# Qwen39个月前02440
谷歌推了个能装进手机的大模型Gemma 3n,速度快、内存低、还能听会说谷歌宣布推出其最新开源模型 Gemma 3n 的预览版,这是继 Gemma 3 和 Gemma 3 QAT 后,谷歌在轻量级大模型领域的又一重要进展。 Gemma 3n 专为手机、平板和笔记本电脑等设...大语言模型# Gemma 3n# 谷歌8个月前02430
DeepSeek推出基于Qwen3-8B的小型推理模型:DeepSeek-R1-0528-Qwen3-8B深度求索在本周对DeepSeek R1进行了升级,还开源了此版本模型DeepSeek-R1-0528,官方还推出了一个基于Qwen3-8B的小型推理模型:DeepSeek-R1-0528-Qwen3...大语言模型# DeepSeek# DeepSeek-R1-0528-Qwen3-8B# 深度求索8个月前02400
新型检索器ReasonIR-8B:专门针对需要推理的复杂任务进行优化Meta、华盛顿大学、新加坡国立大学、艾伦人工智能研究所、斯坦福大学、麻省理工学院和加州大学伯克利分校的研究人员推出一种名为 ReasonIR-8B 的新型检索器,专门针对需要推理的复杂任务进行优化...大语言模型# ReasonIR-8B# 检索器9个月前02400
Meta发布Web-SSL系列模型:无语言也能学视觉,探索纯视觉自监督学习的潜力近年来,对比语言-图像模型(如CLIP)在多模态任务中表现出色,成为学习视觉表征的主流选择。这些模型通过大规模的图像-文本对进行训练,利用语言监督来融入语义信息,广泛应用于视觉问答(VQA)、文档理解...大语言模型# Meta# Web-SSL9个月前02370
新型轨迹感知过程奖励模型(PRM) ReasonFlux-PRM:专门用于评估大型语言模型在长链推理中的轨迹-响应型推理痕迹伊利诺伊大学厄巴纳-香槟分校、普林斯顿大学、康奈尔大学和字节跳动的研究人员推出新型轨迹感知过程奖励模型(PRM) ReasonFlux-PRM,专门用于评估大型语言模型(LLMs)在长链推理(Long...大语言模型# ReasonFlux-PRM# 轨迹感知过程奖励模型7个月前02360
艾伦AI研究所发布10 亿参数的小模型Olmo 2 1B艾伦AI研究所(AI2)于周四发布了 Olmo 2 1B,这是一个拥有 10 亿参数的 AI 模型。AI2 宣称,该模型在多项基准测试中击败了谷歌、Meta 和阿里巴巴的同规模模型。尽管参数数量相对较...大语言模型# Olmo 2 1B# 艾伦AI研究所9个月前02360
谷歌推出Gemini 2.5 Flash:更强大的推理能力与灵活的成本控制谷歌于今日通过Google AI Studio和Vertex AI的Gemini API,发布了Gemini 2.5 Flash的早期预览版。这一新版本在广受欢迎的2.0 Flash基础上进行了重大升...大语言模型# Gemini 2.5 Flash# 谷歌10个月前02350
阿里达摩院开源多语言大语言模型Babel:解决现有开源多语言模型在语言覆盖上的不足阿里达摩院推出开源多语言大语言模型Babel,旨在解决现有开源多语言模型在语言覆盖上的不足。Babel 支持全球前 25 种使用人数最多的语言,覆盖超过 90% 的全球人口,并特别关注那些被现有模型忽...大语言模型# Babel# 多语言大语言模型# 阿里达摩院11个月前02320