阿里推出 Qwen3 系列大模型:开源 8 款模型,性能飞跃,多语言支持,推理能力显著提升阿里 QWEN 团队在今天推出 Qwen3,这是 Qwen 系列大言模型的最新力作。Qwen3 以其卓越的性能和广泛的应用潜力,正在成为开源AI领域的新焦点。 性能突破:超越行业标杆 Qwen3 的旗...大语言模型# QWEN 团队# 阿里巴巴7个月前03750
360推出Light-R1-32B:通过SFT和DPO以低成本超越DeepSeek-R1-Distill-Qwen-32B在数学竞赛 AIME24 上,尽管许多研究者尝试在 72B 或更小的模型上复现 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分,但一直未能成功。 模型 集成模型 推出日期 ...大语言模型# 360# Light-R1-32B# 推理模型9个月前03700
腾讯混元发布四款小尺寸开源模型,端侧 AI 应用迎来新选择继此前开源大尺寸模型后,腾讯混元团队近日推出四款全新小尺寸开源模型,参数量分别为 0.5B、1.8B、4B 和 7B。这些模型专为低功耗、资源受限场景设计,可在消费级显卡、笔记本电脑、手机、智能座舱及...大语言模型# 腾讯混元4个月前03660
开源框架OpenDeepSearch,挑战Perplexity和ChatGPT搜索Sentient Foundation的研究团队近日发布了开源深度搜索(Open Deep Search,简称ODS),这是一款开源框架,能够匹敌如Perplexity和ChatGPT Search等...大语言模型# ODS# Open Deep Search# 开源深度搜索8个月前03620
Snowflake 开源两款 AI 工具Arctic-Text2SQL-R1 和 Arctic Inference,专治企业最头疼的两个难题!生成式 AI 发展到今天,很多问题已经解决,但仍有两大“顽疾”困扰着企业用户: 文本转 SQL 的准确性问题:AI 写出来的 SQL 看起来像模像样,但在真实数据库上却执行失败; AI 推理的速度与成...大语言模型# Arctic Inference# Arctic-Text2SQL-R1# Snowflake6个月前03600
AI21开源大语言模型Jamba 1.6系列,适合企业私有部署AI21 正式发布开源模型Jamba 1.6 系列,专为企业私有部署设计,兼具卓越性能和数据安全性。 模型地址:https://huggingface.co/collections/ai21labs...大语言模型# AI21# Jamba 1.6# 大语言模型9个月前03600
Deep Cogito发布Cogito v2 预览版:从“思考更多”到“直觉更强”的推理范式跃迁Deep Cogito 今日正式发布 Cogito v2 预览版,推出四款开源混合推理模型: 70B 密集型 109B MoE 405B 密集型 671B MoE 其中,671B MoE 是当前全球最...大语言模型# Cogito v2# Deep Cogito4个月前03590
基于扩散模型的大语言模型LLaDA:通过一个前向掩码过程和一个反向过程来建模,能够同时优化双向依赖关系,并通过似然下界优化来生成文本中国人民大学和蚂蚁集团的研究人员推出新型大语言模型LLaDA,基于扩散模型(Diffusion Model)从头开始训练,挑战了自回归模型(ARM)在大型语言模型中的主导地位。与传统的从左到右的生成方...大语言模型# LLaDA# 大语言模型# 扩散模型9个月前03580
A-M-team推出32B密集语言模型AM-Thinking-v1:专注增强推理能力A-M-team推出了AM-Thinking-v1,一款基于Qwen 2.5-32B-Base构建的32B密集语言模型,专注于提升推理能力。在推理基准测试中,AM-Thinking-v1表现出色,可媲...大语言模型# AM-Thinking-v1# 推理模型7个月前03570
阿里通义千问推出机器翻译模型Qwen-MT:92种语言互译,打造高效智能翻译新体验阿里通义千问团队近日通过Qwen API平台正式发布机器翻译模型Qwen-MT的最新升级版本——qwen-mt-turbo。该模型基于强大的Qwen3架构,结合超大规模多语言翻译数据与强化学习技术,在...大语言模型# Qwen-MT# 翻译模型5个月前03540
老显卡福音!美团技术团队开源INT8无损满血版DeepSeek R1美团技术团队于3月6日宣布对 DeepSeek R1 模型进行了 INT8 精度量化,使其能够在如 A100 等老型号 GPU 上进行部署。这一技术突破为 DeepSeek R1 的广泛应用提供了更多...大语言模型# DeepSeek-R1# 美团9个月前03540
谷歌发布 Gemma 3 270M:专为微调而生的超高效小模型在开源大模型领域持续发力的谷歌,近日为其 Gemma 模型家族再添新成员——Gemma 3 270M。这是一款拥有 2.7 亿参数的紧凑型模型,专为特定任务微调设计,旨在为开发者提供一个高效、节能、生...大语言模型# Gemma 3 270M# 小模型# 谷歌4个月前03530