1、openAI取消GPT 4使用时3 小时 40条的限制
GPT 4取消了3 小时 40条的限制,可以无限量使用,这是因为竞争加剧还是因为GPT 5要来了呢?
2、OpenAI首推语音引擎 用15秒音频复刻人声
OpenAI宣布推出语音引擎,输入文本和一个15秒的音频样本,即可生成与原始说话者非常相似的自然人声。这项工具尚未公开。OpenAI认为该技术可用于有声读物、翻译视频和播客内容、改善偏远地区的咨询服务、为有语言障碍的人士提供辅助甚至是帮助恢复声音。
去年年底,OpenAI开始与一小群值得信赖的合作伙伴私下测试这项技术。OpenAI于2022年底首次开发语音引擎,并已将其用于支持文本转语音API以及ChatGPT Voice和Read Aloud中可用的预设语音。基于这些对话和这些小规模测试的结果,OpenAI将就是否以及如何大规模部署这项技术做出更明智的决定。(来源)
3、AI21 Labs推出基于生产级Mamba的先进模型Jamba
AI21 Labs推出了名为Jamba的模型,这是一款基于生产级Mamba的先进模型。通过将Mamba结构化状态空间模型(SSM)技术与传统Transformer架构的元素相融合,Jamba成功克服了纯SSM模型所固有的局限性。Jamba在内存、吞吐量和性能方面都进行了优化,从而实现了出色的综合表现。在同类规模的模型中,Jamba的表现要么优于其他最先进的模型,要么与之相当。该模型以开源形式发布,采用Apache 2.0许可。目前,Jamba已在Hugging Face平台上可供使用,并计划不久后纳入英伟达 API目录。(来源)
4、Databricks推出开源大语言模型DBRX
Databricks推出了DBRX,这是一款开放且通用的大语言模型(LLM)。它采用了精细粒度的混合专家(MoE)架构,拥有总计1320亿个参数,在处理任何输入时,会激活其中的360亿个参数。在多个标准基准测试中,DBRX的表现超越了其他开放的LLM,例如Mixtral、LLaMA2-70B和Grok-1。不仅如此,它的性能甚至超过了GPT-3.5,与Gemini 1.0 Pro相当。
在编程领域,DBRX尤其出色,其性能超越了如CodeLLaMA-70B等专用模型。作为一款通用LLM,它也展现出了强大的实力。此外,该模型现已在Databricks API上提供,供用户使用。(来源)
5、Hume AI推出首款具备情感智能的会话式人工智能EVI
Hume AI发布了首款具备情感智能的会话式人工智能——Empathic Voice Interface(EVI)。EVI运用了一种创新的多模态生成式人工智能技术,该技术将大型语言模型(LLMs)与情感度量相结合,Hume将其命名为情感大型语言模型(eLLM)。这种eLLM技术使得EVI能够根据对话的上下文和用户的情感表达,灵活调整其用词和语调。
6、腾讯推出创新框架AniPortrait
腾讯推出创新框架AniPortrait,它可以根据音频和一张参考肖像图片生成高质量的动画。这个系统可以捕捉到音频中的微妙表情和唇部动作,并将这些动作应用到一个静态的肖像图片上,从而创建出看起来像是在说话或做出表情的动画。(来源)
7、马斯克旗下xAI 推出Grok-1.5
X公司宣布对其AI聊天机器人Grok-1.5进行了更新,显著提升了其在编码和数学相关任务方面的性能,同时扩展了上下文长度至128,000个标记。不久后,Grok-1.5将开放给早期测试者试用。此前,马斯克已经宣布,本周起,所有X平台的Premium订阅用户都将能够访问Grok,这一变化意味着不仅仅是之前的Premium+用户,所有Premium用户都能享受到这一服务。(来源)
8、阿里旗下通义千问开源首个MoE模型Qwen1.5-MoE-A2.7B
阿里宣布开源MoE技术大模型Qwen1.5-MoE-A2.7B,这个模型以现有的Qwen-1.8B模型为基础。Qwen1.5-MoE-A2.7B激活参数为2.7亿,但在一系列基准评估中可以达到7B模型的性能。此外,与7B模型相比,它在训练成本和推理速度上具有显著优势。据官方评测显示,Qwen1.5-MoE-A2.7B在与最佳的7B模型相比取得了非常接近的性能。(官方介绍)
9、Claude 3 Opus击败GPT-4 Turbo登顶模型竞技场榜首
Claude 3模型在LMSYS Chatbot Arena排行榜上占据领先地位。其中,Claude 3 Opus表现卓越,超越了GPT-4 Turbo,荣登榜首;Claude 3 Sonnet则展现出强大的性能,超越了旧版的GPT-4模型;同时,Claude 3 Haiku也表现出色,击败了Mistral Large模型。(来源)
10、Adobe为Firefly AI和GenStudio品牌推出了结构参考功能、定制模型功能
Adobe为Firefly AI和GenStudio品牌推出了结构参考功能。用户可以通过这一功能上传一张图片,并生成一系列新图片,这些新图片虽然在风格上可能与原图截然不同,但内部元素的排列和大小却与原图保持相似。
Adobe推出了Firefly服务和定制模型功能。其中,Firefly服务为开发者提供了超过20个新的生成式和创意API,供其使用。而定制模型功能则允许企业根据自身资产对Firefly模型进行精细调整,以满足特定需求。(来源)
11、Meta推出新型框架OPT2I
Meta推出新型框架OPT2I,它旨在通过优化文本提示(prompt)来提高文本到图像(T2I)生成模型的图像与输入提示的一致性。尽管现有的T2I模型能够生成高质量和逼真的图像,但它们在确保生成的图像与输入文本完全对应方面仍然存在挑战。OPT2I通过使用大型语言模型(LLM)来迭代地改进文本提示,从而生成与原始文本提示更一致的图像。(来源)
12、Stability AI发布Stable Code Instruct 3B
Stability AI发布了Stable Code Instruct 3B,这是一款以Stable Code 3B为基础,经过指令微调的代码语言模型。借助自然语言提示,该模型能够胜任多种任务,包括代码生成、数学运算,以及其他与软件开发相关的查询。(来源)
13、Mistral AI发布了Mistral-7B-v0.2基础模型
Mistral AI发布了Mistral-7B-v0.2基础模型。这是2023年12月发布的Mistral-7B-Instruct-v0.2模型的底层基础模型。
14、昆仑万维开源数字智能体研发工具包AgentStudio
昆仑万维2050全球研究院、新加坡南洋理工大学、苏黎世联邦理工学院研究团队联手开源了数字智能体全流程研发工具包AgentStudio,旨在为研究人员和开发者提供一个覆盖智能体完整开发流程的综合性平台。据了解,AgentStudio是一个完全免费的开源项目。目前,AgentStudio相关论文、代码、数据、文档已全部公开。
本周AI产品精选
1、开源AI软件工程师Devika
Devika是一款开源的AI软件工程师,能够深入理解人类的高层次指令,并将其细化为具体步骤,深入研究相关信息,编写出精确的代码以达成目标。凭借大语言模型、规划与推理算法以及网页浏览能力,Devika智能地助力软件的开发。
2、以Web为核心的跨平台机器学习推理框架Ratchet
Ratchet是一个以Web为核心的跨平台机器学习推理框架。它利用WebGPU技术,使得Ratchet能在Web浏览器、桌面以及移动设备上运行。Ratchet设计得既快速又轻量,同时易于操作使用。
3、Suno AI V3发布
Suno推出文生音乐模型v3,该模型可在几秒钟内创建完整的两分钟歌曲。该工具可以通过其免费的独立网站访问,也可以通过启用Suno的第三方插件Microsoft Copilot访问。
3、MoneyPrinterTurbo:利用大模型,一键生成高清短视频
只需提供一个视频 主题 或 关键词 ,就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视频。
4、全自动人工智能代理codel
codel是一款能够使用终端、浏览器和编辑器执行复杂任务和项目的全自动人工智能代理。
5、开源AI搜索引擎llm-answer-engine
llm-answer-engine是一个受Perplexity启发的开源项目,使用Next.js、Groq、Mixtral、Langchain、OpenAI、Brave以及Serper等技术构建一个搜索引擎。该项目旨在基于用户查询,高效地提供相关的来源、答案、图像、视频以及后续问题。
6、非官方Suno API
基于 Python和 FastAPI 的非官方 Suno API,目前支持生成歌曲,歌词等功能。自带维护 token 与保活功能,无需担心 token 过期问题。
评论0