Reve ImageReve Image在人像和设计排版方面表现尤为出色,能够精准地根据用户输入的文本生成高质量的图像,同时也支持图生图功能,为创意工作者和普通用户提供了强大的工具。07370AI绘画# AI绘画# Reve AI# Reve Image
星流星流 AI是由LiblibAI平台推出的一站式AI图像生成解决方案,它基于Star-3 Alpha模型,致力于为用户提供高精度、多样化的图像生成服务。该平台特别适合电商、广告、设计等多个领域的需求,支持写实、插画、动漫等多种风格。03730AI绘画# AI 图像生成# LiblibA# 星流
LiblibAILiblibAI 是一家位于中国的 AI 图像生成平台,成立于 2023 年,为用户提供创建、分享和互动 AI 生成图像的工具。它基于开源的SD、Flux等模型,适合设计师、艺术家和内容创作者使用,提供文本到图像生成、图像操作和个性化模型训练等功能。03150AI绘画# AI绘画# Flux# LiblibAI
MidjourneyMidjourney是目前最强的AI绘画工具,输入提示词即可通过AI算法生成相对应的图片,只需要不到一分钟。对于新用户,官方提供一段时间的免费试用,用户可以直接通过谷歌账号注册体验。 03070AI绘画# AI绘画# Midjourney
Stability AIStability AI 是一家英国AI公司,成立于 2019 年,总部位于伦敦,该公司的使命是使 AI 民主化,并构建激发人类潜力的全球基础。其以SD(Stable Diffusion )系列开源模型而闻名。02970AI绘画# AI绘画# SD3.5# Stability AI
Adobe FireflyFirefly是老牌设计软件企业Adobe旗下生成式 AI 模型,其在2023年初就已经推出,目前已经支持全球逾 100 种语言的文字输入,让大家用自己的语言就可以进行AI创作,无需担心自己的英文水平。目前Adobe Firefly也已与旗下的Photoshop、Illustrator等进行融合。02550AI绘画# Adobe Firefly# AI绘画
Qwen ChatQwen Chat是阿里通义团队在海外市场推出了一款全新的AI助手,可以看作是通义千问的海外版,这款助手基于开源的Open WebUI框架开发而成。01,6090AI助手# Qwen Chat# 通义实验室# 阿里巴巴
扣子空间扣子空间(Coze Space)是一个通用型 AI Agent 平台,允许用户用自然语言描述任务,比如生成一份研究报告或一个 PPT。平台会自动分析需求,调用合适的工具和插件来完成任务,输出如网页、文档或表格等内容。它特别适合没有编程经验的用户,通过可视化界面快速搭建 AI 应用。09770智能体# AI助手# AI智能体# Coze Space
GensparkGenspark 超级智能体——您的全能AI伙伴,从拨打电话、制作幻灯片到生成TikTok短视频,轻松应对日常任务。内置80+预装工具与海量数据集,更快、更可靠、更可控。06580智能体# AI助手# AI智能体# Genspark
JuchatsJuchats是一个基于GPT、Claude、Gemini、DeepSeek等模型API打造的聊天平台,由Hermstudio推出,支持个性化设置和实时互动,界面设计直观,适合各种用户。05040AI助手# AI聊天机器人# Claude# DeepSeek
GrokGrok是一款先进的对话式人工智能。Grok 旨在提供高效、准确且自然的对话交互体验,适用于多种应用场景,包括客户服务、虚拟助手、教育辅导等。04870AI助手# DeepSearch# Grok# Grok 3
DeepClaudeDeepClaude 是一款高性能 LLM 推理 API,它结合了 DeepSeek R1 的思维链 (CoT) 推理能力与 Anthropic Claude 的创造力和代码生成能力。它提供了一个统一的接口,可以利用两种模型的优势,同时保持对 API 密钥和数据的完全控制。02730AI助手# API# Claude# DeepClaude
通义万象通义万象是阿里云旗下的图像及视频生成平台,凭借其强大的多模态生成能力,正在引领生成式 AI 的发展。除了传统的文生图能力,通义万象现已支持文生视频、图生视频等多种功能,并在插画设计、涂鸦作画、局部重绘、短片创作、配乐生成等场景化应用中表现出色。03,8520AI视频# WanX# 图像生成# 视频生成
Higgsfield AIHiggsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。01,3600AI视频# Higgsfield AI# Higgsfield DoP I2V-01-preview# 图生视频
PixVersePixVerse是一个AI视频创作平台,用户可以通过简单的文本提示或上传图像,快速生成高质量的AI视频。平台支持多种风格,包括写实、动漫和3D动画,并配备了内置的视频质量增强器,让创作更加高效、专业。06670AI视频# AI视频# PixVerse# 爱诗科技
FLORAFLORA 是一款创意图像和视频创作工具,接入了顶级 AI 绘画和视频模型。它通过优雅的交互设计,帮助创意团队构建结构化、可扩展的工作流,提升创作速度和控制力,支持多人实时协作。06290AI视频# AI绘画# AI视频# ComfyUI
HiDream智象未来(HiDream.ai)倾力打造的基于国际领先且自主可控生成式人工智能(AIGC)多模态大模型的全中文易上手AIGC创作平台和社区。05400AI视频# AI绘画# AI视频# HiDream
MagiMAGI-1是由Sand AI研究团队开发的一种新型视频生成模型。该模型通过自回归预测视频块序列来生成视频,每个视频块由固定长度的连续帧组成。这是首个具有顶级质量输出的自回归视频模型,而且还是开源的,目前Sand AI还推出了视频生成平台Magi,不过目前仅支持图生视频。04950AI视频# MAGI-1# Sand AI# 自回归视频生成模型
新Google I/O 2025 发布 Native Speech Generation:AI 语音迈入拟真新纪元,免费支持多角色播客制作!早报# Native Speech Generation# 原生语音生成# 谷歌4小时前050
DiffRhythm(谛韵)DiffRhythm(中文名“谛韵”)是由西北工业大学音频、语音与语言处理研究组(ASLP Lab)和香港中文大学(深圳)深圳大数据研究院联合开发的新型端到端全长度歌曲生成模型。基于潜扩散(Latent Diffusion)技术,DiffRhythm 能够快速生成包含人声和伴奏的完整歌曲,解决了现有音乐生成方法的诸多局限性。02,4410AI音乐# AI歌曲# AI音乐# DiffRhythm
MurekaMureka是昆仑万维的一款出海产品,这是一款AI歌曲生成器,让您可以轻松创建个性化的曲目,涵盖流行、电音、嘻哈、爵士等多种流派。它不仅支持多种音乐流派和语言,还提供了独特的定制功能,确保用户能够创作出符合自己独特品味的音乐。01810AI音乐# AI音乐# Mureka# Mureka O1
Dark Ghibli Dark Ghibli是一款融合了吉卜力工作室与黑暗童话风格的LoRA,此Lora提供了多个版本(Flux、SDXL、SD1.5等),具有水彩背景与赛璐珞风格的角色,空灵的光影,奇幻的自然环境,既异想天开又带有一丝诡谲。它的灵感来源于宫崎骏、布赖恩·弗劳德和凯·尼尔森的永恒作品。
artyvibe_balloons_v2 小时候大家应该都玩过魔术气球,这种气球经过手来回的扭折,可以制作成各式各样有趣的形状,像各种动物、花朵、武器等,今天分享的artyvibe_balloons_v2就是这样的一个Flux模型,使用非常简答的提示词即可创作出不错的作品。
Tabletop Miniatures Tabletop Miniatures是一款桌面微缩模型Flux Lora,自然就是适合出桌面微缩模型图片,再搭配混元或Wan2.1模型来生成视频,效果会非常好。
朱雀大模型检测腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。05,1682AI工具# AI生成图像检测# AI生成文本检测# 朱雀大模型检测
DeepWiki Cognition Labs 推出了 DeepWiki,号称“涵盖所有 GitHub 代码库的免费百科全书”。只需将 GitHub 仓库 URL 中的 “github” 替换为 “deepwiki”,即可生成类似维基百科的详细文档页面,无需注册即可免费访问公共仓库的文档。04840AI工具# Cognition Labs# DeepWiki# Devin
魔搭MCP广场魔搭MCP广场的推出,AI开发者们将迎来一个更加开放、高效的开发环境。无论是通过MCP实验场快速搭建服务,还是利用MCPBench优化应用性能,开发者都可以在魔搭社区找到所需资源。02270MCP# 魔搭# 魔搭MCP广场
NotebookLMNotebookLM是谷歌推出的一款个性化AI协作工具,旨在帮助用户更高效地进行信息整理和笔记记录。利用强大的语言模型帮助用户更快地从各种文本、图像以及网页中提取主要信息。02240AI工具# AI笔记# NotebookLM# 谷歌
MiniMax-MCPMiniMax 的 MCP 服务器为开发者提供了一个强大且灵活的工具,帮助您快速构建支持语音、视频和图像生成的智能应用。无论是个人创作者还是企业开发者,都可以通过简单的配置,将 MiniMax 的 AI 能力无缝集成到您的项目中。01920MCP# MCP# MiniMax# MiniMax-MCP
MarkItDown MCP通过 MarkItDown-MCP,您可以轻松将各种格式的内容转换为 Markdown,无论是本地文件还是网页内容,都能快速处理。结合 Docker 和 Claude 等工具,MarkItDown-MCP 为文档处理和自动化提供了强大的支持。01670MCP# MarkItDown# MarkItDown MCP# 微软
Same.DevSame Dev 是一款前沿的 AI 工具,旨在通过自动化 UI 复制和代码生成,弥合设计与开发之间的差距。其像素级精度和多输入支持使其在快速原型开发和效率提升方面具有潜力。01,5390AI编程# AI编程# Same.Dev# 前端开发
Yourware.soYourware.so 是一个创新的 AI 项目,旨在简化 AI 生成的网页代码的部署过程。它主要允许用户将通过 AI 工具生成的 HTML 或 TSX 代码,快速转换为可访问的实时网站,只需点击一下,无需任何技术配置。每个部署都会生成一个可分享的 URL,支持即时扩展,适合非专业程序员和 AI 爱好者快速分享他们的创意。01,0810AI编程# AI编程# Vibe Coding# Yourware
MGXMGX (MetaGPT X) 是你的专属 AI 软件开发团队,由团队负责人 Mike、产品经理 Emma、架构师 Bob、工程师 Alex 和数据分析师 David 组成,你可以像与工作中真人同事一样与他们协作。04090AI编程# AI 软件开发# AI编程# MetaGPT X
Mercury CoderMercury Coder 是专为代码生成优化的 dLLM,在标准编码基准测试中表现优异,甚至超越了 GPT-4o Mini 和 Claude 3.5 Haiku 等速度优化模型,同时速度快 10 倍 。03850AI编程# dLLM# Inception# Mercury Coder
秒哒百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。03660AI编程# AI编程# 无代码# 百度
RowboatRowboat 是一款低代码 AI IDE,用于构建连接 MCP 工具的多智能体助手。Rowboat 智能助手会根据你的需求为你构建智能体,同时你也可以选择完全手动操作。02110AI编程# AI IDE# AI编程# MCP服务器
纳米AI搜索纳米AI搜索,简称纳米搜索,是360集团于2024年11月推出的基于大语言模型等多模态学习技术的搜索及内容创作工具,已发布Android、iOS和鸿蒙原生版本,并提供网页版、PC客户端。该产品支持文字、语音、拍照、视频等多种搜索方式。03,4050AI搜索# 360# 纳米AI搜索# 纳米搜索
WebsetsWebsets 是一款专为知识工作者设计的工具,能够帮助用户高效地查找符合特定标准的实体列表(如公司、人员、研究论文等)。根据基准测试,Websets 在复杂查询方面的表现远超谷歌,检索到的正确结果数量比谷歌多 20 倍以上。01660AI搜索# AI搜索# Exa# Websets
Perplexity AIPerplexity AI 是一个创新的AI搜索引擎,通过对话方式回答用户问题,提供总结性答案,并引用来源。它实时搜索互联网,确保信息最新,适合快速变化的主题,如新闻。01580AI搜索# AI搜索# Perplexity AI# 深度研究
秘塔AI搜索秘塔 AI 搜索凭借其强大的技术优势和创新功能,为用户带来了全新的搜索体验。它不仅提升了搜索效率,还通过智能辅助工具和信息溯源功能,增强了搜索结果的可信度和用户体验。01090AI搜索# AI搜索# DeepSeek-R1# Shallow Research
PhindPhind 是一个为开发者设计的智能问答引擎。它专注于帮助你解决具有挑战性的问题,并使用生成式 AI 在几秒钟内而不是几小时内为你提供所需的答案。Phind 连接到互联网,并且可以选择连接到你的代码库,始终保持正确的上下文。01000AI搜索# AI搜索# Phind
知乎直答知乎于2024年6月推出了其全新的AI产品——“知乎直答”。这标志着知乎在AI搜索领域的功能正式产品化,并拥有了自己的独立域名和服务入口。“知乎直答”利用知乎平台丰富的真实问答数据,通过AI技术为用户提供两种答案生成方式:“简略”和“深入”,以满足不同用户的需求。此外,该产品还支持“找内容”和“找人”功能,旨在进一步缩短用户与优质回答之间的距离,提升社区创作者及其内容的可见度和流通效果。01000AI搜索# AI搜索# DeepSeek-R1# 专业搜索
NaturalReaderNaturalReader 是一款功能强大、易于使用的文本转语音工具,适合各种场景下的阅读需求。无论您是希望节省时间的学生、需要无障碍支持的读者,还是寻求高质量语音内容的创作者,NaturalReader 都能为您提供卓越的体验。04430AI语音# NaturalReader# TTS# 文本转语音
AI SpeakerAI Speaker 是一款基于微软 TTS 服务的在线文字转语音(TTS)工具,能够将文字即时转换为自然流畅的 语音,支持100多种语言和600多种AI语音。02001AI语音# AI Speaker# TTS# 微软
ElevenLabsElevenLabs 成立于 2022 年,总部位于英国和波兰,致力于利用 AI 技术生成自然、富有表现力的语音。它的平台支持从文本到语音的转换、语音克隆和多语言配音,服务于各种需求。01840AI语音# AI语音# ElevenLabs# 语音克隆
ZonosZonos模型基于约 20 万小时的语音数据进行训练,涵盖中性和富有表现力的语音模式。虽然主要数据集为英语内容,但也包含大量中文、日语、法语、西班牙语和德语的语音数据,从而支持多语言合成。01740AI语音# Zonos# Zyphra# 开源TTS模型
星野APP星野APP是一款由MiniMax开发的AI伴侣应用,专为中国用户设计,旨在提供个性化的虚拟交互体验。用户可以通过星野APP创建自己的AI角色,定制其外貌、声音、性格和技能。02770AI数字人# AI伴侣# MiniMax# 星野APP
Open Avatar ChatOpenAvatarChat 是一个功能强大且高度模块化的数字人系统,能够在单台 PC 上流畅运行,支持多模态交互。其开源特性为开发者提供了极大的自由度,可以根据具体需求进行定制和优化。02520AI数字人# Open Avatar Chat# 数字人# 阿里巴巴
CaptionsCaptions利用先进的人工智能技术,让任何人都能通过几次简单的点击,使用手机制作出录音室品质的视频。无论是脚本编写、录制、编辑还是分享,Captions都能无缝支持您的每一个创作环节。01540AI数字人# AI视频# Captions# 数字人
WeCloneWeClone为我们提供了一个从聊天记录和声音创造数字分身的开源解决方案。它不仅能够模拟你的语言风格,还能复制你的声音,并将数字分身绑定到多个聊天平台上。01050AI数字人# WeClone# 微信# 数字分身
HummingbirdHummingbird 是一款突破性的唇形同步模型,凭借其零样本能力、高精度和低成本,成为当前市场上的领先解决方案。结合 Tavus 提供的易用性极高的 API 服务,开发者和内容创作者可以轻松生成高质量的音画同步视频。0510AI数字人# Hummingbird# Tavus# 唇形同步模型
慧播星百度慧播星平台推出的 高说服力数码主播依托文心大模型的剧本生成与多模驱动能力,这一技术实现了数码主播在表情、语气、动作及情绪转换上的超拟真表现,甚至超越传统真人主播体验。0500AI数字人# 慧播星# 数字人# 电商
TripoTripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。02,48803D# 3D 建模# 3D模型# Tripo
MeshyMeshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!034203D# 3D 模型# 3D生成# Meshy
Alpha3DAlpha3D 是一款尖端工具,旨在帮助用户轻松地将文本和 2D 图像转换为完全实现的 3D 模型。这款由生成式 AI 驱动的平台对于参与创建增强现实 (AR) 内容的人来说是天赐之物,因为它简化了传统上昂贵且复杂的 3D 模型创建过程。无需深入的 3D 建模专业知识或高级设计技能,Alpha3D 使数字资产的创建大众化,使其可供从专业人士到业余爱好者等广泛受众使用。033203D# 3D模型# 3D生成# Alpha3D
GenieGenie 是 Luma AI 推出的一款强大的文生 3D 模型工具,能够在极短时间内生成包含材质、四维网格重拓扑、可变多边形数量和所有标准格式的 3D 模型。它通过解析用户提供的文本描述,利用 AI 技术生成逼真的 3D 模型,并支持复杂的提示,用户可以指定颜色、材质和形状等属性。018403D# 3D模型# Genie# Luma AI
腾讯混元3D腾讯上线的混元 3D AI 创作引擎,号称是“业界首个一站式 3D 内容 AI 创作平台”。该技术宣称一句话、一张图,甚至画个草图都能生成一个 3D 模型,甚至还能加动作、换纹理、捏人物、做动画。012503D# 3D模型# 3D生成# 腾讯混元3D
Claw Cloud RunClaw Cloud Run 是一个非常实用的在线开发平台,特别适合个人开发者和小型团队。它提供了丰富的开源项目支持、强大的免费资源,以及无需绑卡的便捷体验。无论是搭建个人项目、快速部署 AI 应用,还是作为开发测试环境,Claw Cloud Run 都能提供高效、稳定的解决方案。01020模型API# Claw Cloud# Claw Cloud Run# 阿里云
Google AI StudioGoogle AI Studio 是一个功能齐全的工具,特别适合希望快速构建和试验 AI 应用的开发者。其多模态支持、提示库和与 Gemini API 的无缝集成使其成为生成 AI 开发的有力平台。01,3880模型API# API# Gemini# Google AI Studio
MiniMax开放平台MiniMax 是一个多模态 AI 技术的领导者,其强大的计算能力和丰富的功能使其成为企业和开发者的重要工具。无论是文本生成、语音合成还是视频制作,MiniMax 都能提供高质量的解决方案,助力用户实现技术创新和商业价值的最大化。02470模型API# MiniMax# 海螺 AI# 海螺视频
硅基流动硅基流动作为集合顶尖大模型的一站式云服务平台,致力于为开发者提供更快、更全面、体验更丝滑的模型 API,助力开发者和企业聚焦产品创新,无须担心产品大规模推广所带来的高昂算力成本。01750模型API# ChatBox# Cherry Studio# DeepSeek-R1
火山方舟大模型服务平台方舟是火山引擎推出的大模型服务平台,为您提供模型的训练、推理、评测、精调等全流程服务,帮助您快速应用的模型服务。01730模型API# API# 火山引擎# 火山方舟大模型服务平台
2233.ai2233.ai提供了一个便捷、安全且经济实惠的解决方案,让用户能够体验到原生的ChatGPT Plus和Claude Pro服务。同时,通过合理选择网络工具和使用API等方式,也可以在一定程度上改善使用体验,避免常见的网络和账号问题。01650模型API# 2233.ai# ChatGPT# Claude
Open ASR 排行榜Open ASR 排行榜 对 Hugging Face Hub 上的语音识别模型进行排名和评估。我们报告平均 WER(字错误率)(⬇️ 越低越好)和 RTFx(实时因子)(⬆️ 越高越好),模型根据其平均 WER 从低到高进行排名。03,9650基准测试# Hugging Face# 语音识别
WebDev ArenaWebDev Arena 是一个实时的 AI编程竞赛平台,由 LMArena 开发,各种 AI代码模型在其中进行面对面的 Web 开发挑战。02880基准测试# AI编程# WebDev Arena# 网页开发
MagicArenaMagicArena是字节跳动推出的一个采用Elo积分机制的视觉生成大模型公开对战平台。平台上有多个视觉生成大模型(文生图、文生视频、图生视频)随机两两对战,用户对生成的结果进行评价,累积定对战数据后可以查看自己的大模型排行榜。02360基准测试# Elo# MagicArena# 大模型
Chatbot ArenaChatbot Arena是一个开放平台,专注于通过人类偏好评估大型语言模型(LLMs)的性能。该平台由加州大学伯克利分校的SkyLab和LMSYS研究团队开发,旨在为LLMs提供一个公正、透明的评估环境。01740基准测试# Chatbot Arena# 大语言模型
Artificial AnalysisArtificial Analysis 是一个专注于 AI 模型和提供商分析的网站,通过提供性能基准测试和区域性报告,帮助用户做出明智的选择。其内容覆盖广泛,包括语言模型、图像模型等,并特别关注全球AI趋势,如中国市场的动态。对于需要深入了解 AI 选项的用户,该网站是一个有用的工具,尤其是在性能比较和趋势分析方面。01380基准测试# AI模型# Artificial Analysis
imgsysimgsys.org 是一个专注于开源文本引导图像生成模型的评估平台,通过用户偏好数据的收集和开源,推动图像生成领域的研究和开发。01330基准测试# Fal.ai# imgsys# 文生图模型
野卡野卡为国内用户订阅海外AI服务提供了一个便捷、安全且可靠的途径。如果你也对海外AI服务感兴趣,不妨尝试一下野卡,开启你的海外AI服务之旅!03870实用工具# ChatGPT# Claude# Cursor
MinerUMinerU是一款功能强大、操作简单的文档解析工具。它不仅支持多种格式和导入方式,还能精准提取复杂元素,适用于多种场景。无论是学术研究、数据分析还是日常办公,MinerU都能为你带来流畅、准确的解析体验。在科研、学习和工作中,处理复杂文档格式一直是一个让人头疼的问题。无论是科技文献中的公式、表格,还是多语言扫描版PDF,传统工具往往难以满足高效、精准的解析需求。而今天要介绍的 MinerU,正是一款专为解决这些问题而生的免费文档解析神器。它不仅能精准提取复杂元素,还支持多种格式一键转换,适用于从机器学习到大模型语料生产的多种场景。 全格式兼容,轻松导入 MinerU 的一大亮点是其强大的格式兼容性。无论你的文档是 PDF、Word、PPT 还是图片,MinerU 都能轻松应对。通过简单的拖拽、截图或批量上传,你就可以快速将文件导入工具中,无需繁琐的操作。 支持格式:PDF、Word、PPT、图片等主流文档类型。 操作便捷:拖拽、截图、批量上传,一键完成导入。 智能识别:自动检测扫描版PDF和乱码PDF,并启用OCR功能,支持84种语言的检测与识别。 复杂元素精准提取 对于科技文献、学术论文等包含复杂排版的文档,MinerU 表现尤为出色。它能够精准定位并提取图表、公式等复杂元素,确保内容完整且语义连贯。 精准定位:自动识别文档中的图表、公式、表格等复杂元素,并进行精准提取。 结构保留:输出结果保留原文档的标题、段落、列表等结构,确保逻辑清晰。 多模态解析:支持图像描述、表格标题、脚注等内容的提取,适配多种使用场景。 多场景极速输出 MinerU 不仅擅长解析文档,还提供了丰富的输出格式选择,满足不同场景的需求。无论是用于机器学习训练、大模型语料生产,还是构建 RAG(检索增强生成)系统,MinerU 都能提供高效的解决方案。 多种输出格式: Markdown:适合多模态与NLP任务。 JSON:按阅读顺序排序,便于后续处理。 LaTeX:自动识别并转换公式,极大提升科研效率。 HTML:自动转换表格,方便网页展示。 可视化支持:提供 layout 可视化、span 可视化等功能,便于高效确认输出效果与质检。 技术亮点与性能优化 MinerU 在技术层面同样表现出色,兼顾了易用性与性能优化: 跨平台支持:兼容 Windows、Linux 和 Mac 平台,满足不同用户的设备需求。 硬件加速:支持纯 CPU 环境运行,同时可选 GPU(CUDA)、NPU(CANN)、MPS 加速,显著提升处理速度。 高精度 OCR:针对扫描版PDF和乱码文档,MinerU 内置高精度OCR功能,支持84种语言的检测与识别。 主要功能一览 MinerU 的核心功能覆盖了文档解析的方方面面,帮助用户高效完成复杂的文档处理任务: 删除冗余元素:自动移除页眉、页脚、脚注、页码等内容,确保输出文本语义连贯。 阅读顺序优化:输出符合人类阅读习惯的文本,无论是单栏、多栏还是复杂排版都能轻松应对。 公式与表格转换: 自动识别并转换公式为 LaTeX 格式。 自动识别并转换表格为 HTML 格式。 多语言支持:OCR 功能支持84种语言,满足国际化需求。 灵活输出:支持多种格式输出(Markdown、JSON、LaTeX、HTML 等),适配多种应用场景。 适用场景广泛 MinerU 的设计初衷是为了服务于科研和技术发展,但它的应用范围远不止于此。以下是一些典型的应用场景: 机器学习与大模型训练:将大量文档转化为高质量的训练数据,助力模型语料生产。 RAG 系统构建:为检索增强生成系统提供结构化数据支持。 学术研究:快速解析科技文献,提取关键信息,提升科研效率。 企业办公:批量处理合同、报告等文档,节省人工整理时间。 为什么选择 MinerU? 相比其他文档解析工具,MinerU 的优势在于其全面性和精准性。它不仅能够处理各种复杂文档,还能根据用户需求输出多样化的结果。更重要的是,MinerU 完全免费,且持续优化以解决科技文献中的符号转化问题,为大模型时代的技术进步贡献力量。06850实用工具# MinerU# PDF# 数据提取
The Ultra-Scale PlaybookHugging Face旗下的Nanotron团队近期推出了一本免费、开源的综合性书籍——《Ultrascale-Playbook》。这本书旨在为读者提供关于如何在大规模GPU集群上高效训练大语言模型的全面指导,涵盖了分布式/并行化技术以及低级优化技巧。03000实用工具# The Ultra-Scale Playbook# 大语言模型# 模型训练
DaanDaan 是一款简洁、高效的LLM客户端,适合那些希望快速上手并享受流畅AI体验的用户。它不仅支持多种模型和API,还提供了丰富的个性化设置,让你能够根据自己的需求打造专属的AI助手。02880AI小应用# Daan# LLM客户端# 答案
Little Language Lessons谷歌推出了三项基于其多模态大模型 Gemini 的 AI 实验项目,旨在通过更加个性化、情境化的方式帮助人们提升口语表达能力。些 AI 实验工具为语言学习者提供了全新的视角和方法。无论是通过“微型课程”快速掌握实用短语,还是通过“俚语交流”学习更自然的表达,亦或是利用“单词相机”在实际场景中学习新单词,这些工具都旨在帮助用户更高效地学习新语言。02760AI小应用# Little Language Lessons# 语言学习
字体秀FontShow 字体秀是一款简单实用的在线工具,专为设计师和文字工作者打造。它不仅解决了传统字体预览方式效率低下的问题,还提供了丰富的自定义选项和便捷的对比功能,让字体选择变得更加轻松高效。02000实用工具# FontShow# 字体# 字体秀
Upscayl - 最新版阿普升图是一款免费且开源的 AI 图片放大软件,通过AI技术提升低分辨率图片的分辨率和质量。它支持 Linux、macOS 和 Windows,适合个人用户和专业用户,用于处理老照片、社交媒体图片或打印用高分辨率图像。
ChatWise - 最新版ChatWise是一款集性能、隐私保护和用户体验于一身的AI聊天应用。它不仅支持多种LLM模型和多模态交互,还通过本地存储和优化设计,确保数据安全和高效使用。无论是日常聊天、文件处理还是专业创作,ChatWise都能满足你的需求。
Cherry Studio - 最新版Cherry Studio 作为一款全能 AI 助手平台,凭借其广泛的模型兼容性、丰富的功能、高度自定义能力和强大的数据安全保障,成为提升工作效率和激发创造力的理想工具。
Jan - 最新版Jan 是一款功能强大且易用的本地 AI 应用程序,专为普通人设计,注重隐私和灵活性。无论您是希望运行本地模型还是连接云端服务,Jan 都能提供全面的支持。结合其跨平台兼容性和社区支持,Jan 成为了本地化 AI 应用的理想选择。
卡卡字幕助手(VideoCaptioner) - 最新版VideoCaptioner是一款功能强大且易于使用的视频字幕处理工具。它不仅支持语音识别、字幕优化和翻译全流程处理,还提供了丰富的配置选项,满足不同用户的需求。
NoteGen - 最新版NoteGen 是一款集记录、写作和 AI 辅助于一体的跨端笔记应用。它通过多种记录方式和强大的写作工具,帮助用户高效整理碎片化知识,并辅助完成高质量的创作。无论是学生、研究人员还是创作者,NoteGen 都是一个值得尝试的工具。
鲸喷 - 最新版DeepRant(鲸喷)是一款专为游戏玩家量身定制的翻译工具,它不仅解决了语言障碍的问题,还提供了丰富的功能以适应不同的游戏场景。无论您是想与国际玩家交流、参与跨服竞技,还是在团队中更高效地沟通,DeepRant 都能为您提供强大的支持。
Cortex - 最新版Cortex 是一款类似于 Ollama 的开源命令行软件,专为运行大语言模型而设计。它通过简洁的命令行操作,让用户能够快速启动和运行大型语言模型,支持 macOS、Windows 和 Linux 等多种操作系统。
OOMOL Studio - 最新版OOMOL Studio 是一款基于 VSCode 打造的现代化集成开发工具,支持 Windows 和 macOS 两大平台。它通过整合容器化技术、AI 功能和社区资源,简化了开发者的日常工作流程。
PocketPal AI - v1.6.7PocketPal AI 是一款开源的 AI 助手应用,专为 iOS 和 Android 用户设计。它通过小型语言模型(SLM)直接在你的手机上运行,让你无需互联网连接即可与各种 AI 模型进行交互。这款应用不仅提供了强大的功能,还确保了数据的安全性和隐私性。