Reve ImageReve Image在人像和设计排版方面表现尤为出色,能够精准地根据用户输入的文本生成高质量的图像,同时也支持图生图功能,为创意工作者和普通用户提供了强大的工具。09860AI绘画# AI绘画# Reve AI# Reve Image
星流星流 AI是由LiblibAI平台推出的一站式AI图像生成解决方案,它基于Star-3 Alpha模型,致力于为用户提供高精度、多样化的图像生成服务。该平台特别适合电商、广告、设计等多个领域的需求,支持写实、插画、动漫等多种风格。09400AI绘画# AI 图像生成# LiblibA# 星流
LiblibAILiblibAI 是一家位于中国的 AI 图像生成平台,成立于 2023 年,为用户提供创建、分享和互动 AI 生成图像的工具。它基于开源的SD、Flux等模型,适合设计师、艺术家和内容创作者使用,提供文本到图像生成、图像操作和个性化模型训练等功能。06960AI绘画# AI绘画# Flux# LiblibAI
RunningHubRunningHub 是一个云平台,让用户轻松开发和分享 AI 应用。它特别适合那些希望通过浏览器直接操作的创作者,无需复杂的本地设置。平台基于 ComfyUI 工作流,提供强大的 GPU 云计算支持,确保高效任务执行。04990AI绘画# ComfyUI# ComfyUI工作流# RunningHub
Adobe FireflyFirefly是老牌设计软件企业Adobe旗下生成式 AI 模型,其在2023年初就已经推出,目前已经支持全球逾 100 种语言的文字输入,让大家用自己的语言就可以进行AI创作,无需担心自己的英文水平。目前Adobe Firefly也已与旗下的Photoshop、Illustrator等进行融合。04940AI绘画# Adobe Firefly# AI绘画
Stability AIStability AI 是一家英国AI公司,成立于 2019 年,总部位于伦敦,该公司的使命是使 AI 民主化,并构建激发人类潜力的全球基础。其以SD(Stable Diffusion )系列开源模型而闻名。04700AI绘画# AI绘画# SD3.5# Stability AI
Qwen ChatQwen Chat是阿里通义团队在海外市场推出了一款全新的AI助手,可以看作是通义千问的海外版,这款助手基于开源的Open WebUI框架开发而成。02,1880AI助手# Qwen Chat# 通义实验室# 阿里巴巴
VideoTutorVideoTutor 是一款 AI 驱动的教育工具,专注于生成学习视频,它提供定制的 AI 解释视频和 24/7 AI 教师支持,覆盖数学、科学和语言等主题。它适合 K-12 学生自主学习,但具体效果可能因用户而异。 01,6480智能体# K-12# VideoTutor# 教育助手
扣子空间扣子空间(Coze Space)是一个通用型 AI Agent 平台,允许用户用自然语言描述任务,比如生成一份研究报告或一个 PPT。平台会自动分析需求,调用合适的工具和插件来完成任务,输出如网页、文档或表格等内容。它特别适合没有编程经验的用户,通过可视化界面快速搭建 AI 应用。01,3620智能体# AI助手# AI智能体# Coze Space
JuchatsJuchats是一个基于GPT、Claude、Gemini、DeepSeek等模型API打造的聊天平台,由Hermstudio推出,支持个性化设置和实时互动,界面设计直观,适合各种用户。01,0490AI助手# AI聊天机器人# Claude# DeepSeek
GensparkGenspark 超级智能体——您的全能AI伙伴,从拨打电话、制作幻灯片到生成TikTok短视频,轻松应对日常任务。内置80+预装工具与海量数据集,更快、更可靠、更可控。08440智能体# AI助手# AI智能体# Genspark
GrokGrok是一款先进的对话式人工智能。Grok 旨在提供高效、准确且自然的对话交互体验,适用于多种应用场景,包括客户服务、虚拟助手、教育辅导等。06380AI助手# DeepSearch# Grok# Grok 3
Nunchaku正式支持FLUX.1 Kontext Dev:低显存用户的福音工作流# FLUX.1 Kontext [dev]# Nunchaku# nunchaku-flux.1-kontext-dev2周前04730
SeedVR2 视频修复模型 ComfyUI 插件 ComfyUI-SeedVR2_VideoUpscaler发布:支持高质量视频/图像放大工作流# ComfyUI-SeedVR2_VideoUpscaler# SeedVR2# 视频修复模型3周前01890
通义万象通义万象是阿里云旗下的图像及视频生成平台,凭借其强大的多模态生成能力,正在引领生成式 AI 的发展。除了传统的文生图能力,通义万象现已支持文生视频、图生视频等多种功能,并在插画设计、涂鸦作画、局部重绘、短片创作、配乐生成等场景化应用中表现出色。04,5700AI视频# WanX# 图像生成# 视频生成
Higgsfield AIHiggsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。01,8540AI视频# Higgsfield AI# Higgsfield DoP I2V-01-preview# 图生视频
PixVersePixVerse是一个AI视频创作平台,用户可以通过简单的文本提示或上传图像,快速生成高质量的AI视频。平台支持多种风格,包括写实、动漫和3D动画,并配备了内置的视频质量增强器,让创作更加高效、专业。08880AI视频# AI视频# PixVerse# 爱诗科技
FLORAFLORA 是一款创意图像和视频创作工具,接入了顶级 AI 绘画和视频模型。它通过优雅的交互设计,帮助创意团队构建结构化、可扩展的工作流,提升创作速度和控制力,支持多人实时协作。08000AI视频# AI绘画# AI视频# ComfyUI
HiDream智象未来(HiDream.ai)倾力打造的基于国际领先且自主可控生成式人工智能(AIGC)多模态大模型的全中文易上手AIGC创作平台和社区。07750AI视频# AI绘画# AI视频# HiDream
腾讯混元 AI 视频腾讯已经开源了两款重要的模型——文生视频和图生视频模型,这些工具不仅支持官网上的互动体验,还引入了对口型、动作驱动等创新玩法,并且能够生成背景音效及2K高质量视频。07730AI视频# 动作驱动# 图生视频# 对口型
DiffRhythm(谛韵)DiffRhythm(中文名“谛韵”)是由西北工业大学音频、语音与语言处理研究组(ASLP Lab)和香港中文大学(深圳)深圳大数据研究院联合开发的新型端到端全长度歌曲生成模型。基于潜扩散(Latent Diffusion)技术,DiffRhythm 能够快速生成包含人声和伴奏的完整歌曲,解决了现有音乐生成方法的诸多局限性。02,6180AI音乐# AI歌曲# AI音乐# DiffRhythm
MurekaMureka是昆仑万维的一款出海产品,这是一款AI歌曲生成器,让您可以轻松创建个性化的曲目,涵盖流行、电音、嘻哈、爵士等多种流派。它不仅支持多种音乐流派和语言,还提供了独特的定制功能,确保用户能够创作出符合自己独特品味的音乐。03260AI音乐# AI音乐# Mureka# Mureka O1
Dark Ghibli Dark Ghibli是一款融合了吉卜力工作室与黑暗童话风格的LoRA,此Lora提供了多个版本(Flux、SDXL、SD1.5等),具有水彩背景与赛璐珞风格的角色,空灵的光影,奇幻的自然环境,既异想天开又带有一丝诡谲。它的灵感来源于宫崎骏、布赖恩·弗劳德和凯·尼尔森的永恒作品。
朱雀大模型检测腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。07,5372AI工具# AI生成图像检测# AI生成文本检测# 朱雀大模型检测
DeepWiki Cognition Labs 推出了 DeepWiki,号称“涵盖所有 GitHub 代码库的免费百科全书”。只需将 GitHub 仓库 URL 中的 “github” 替换为 “deepwiki”,即可生成类似维基百科的详细文档页面,无需注册即可免费访问公共仓库的文档。07050AI工具# Cognition Labs# DeepWiki# Devin
MCP Filesystem ServerMCP Filesystem Server 是一套功能齐全、结构清晰、安全性高的文件系统访问解决方案。无论是用于开发调试、自动化脚本还是远程管理,都能提供稳定可靠的支持。05910MCP# MCP# MCP Filesystem Server
魔搭MCP广场魔搭MCP广场的推出,AI开发者们将迎来一个更加开放、高效的开发环境。无论是通过MCP实验场快速搭建服务,还是利用MCPBench优化应用性能,开发者都可以在魔搭社区找到所需资源。04040MCP# 魔搭# 魔搭MCP广场
NotebookLMNotebookLM是谷歌推出的一款个性化AI协作工具,旨在帮助用户更高效地进行信息整理和笔记记录。利用强大的语言模型帮助用户更快地从各种文本、图像以及网页中提取主要信息。03480AI工具# AI笔记# NotebookLM# 谷歌
MarkItDown MCP通过 MarkItDown-MCP,您可以轻松将各种格式的内容转换为 Markdown,无论是本地文件还是网页内容,都能快速处理。结合 Docker 和 Claude 等工具,MarkItDown-MCP 为文档处理和自动化提供了强大的支持。03360MCP# MarkItDown# MarkItDown MCP# 微软
SameSame 是一款前沿的 AI 工具,旨在通过自动化 UI 复制和代码生成,弥合设计与开发之间的差距。其像素级精度和多输入支持使其在快速原型开发和效率提升方面具有潜力。01,8420AI编程# AI编程# Same.Dev# 前端开发
Yourware.soYourware.so 是一个创新的 AI 项目,旨在简化 AI 生成的网页代码的部署过程。它主要允许用户将通过 AI 工具生成的 HTML 或 TSX 代码,快速转换为可访问的实时网站,只需点击一下,无需任何技术配置。每个部署都会生成一个可分享的 URL,支持即时扩展,适合非专业程序员和 AI 爱好者快速分享他们的创意。01,2500AI编程# AI编程# Vibe Coding# Yourware
秒哒百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。06840AI编程# AI编程# 无代码# 百度
MGXMGX (MetaGPT X) 是你的专属 AI 软件开发团队,由团队负责人 Mike、产品经理 Emma、架构师 Bob、工程师 Alex 和数据分析师 David 组成,你可以像与工作中真人同事一样与他们协作。05530AI编程# AI 软件开发# AI编程# MetaGPT X
Mercury CoderMercury Coder 是专为代码生成优化的 dLLM,在标准编码基准测试中表现优异,甚至超越了 GPT-4o Mini 和 Claude 3.5 Haiku 等速度优化模型,同时速度快 10 倍 。05140AI编程# dLLM# Inception# Mercury Coder
RowboatRowboat 是一款低代码 AI IDE,用于构建连接 MCP 工具的多智能体助手。Rowboat 智能助手会根据你的需求为你构建智能体,同时你也可以选择完全手动操作。03510AI编程# AI IDE# AI编程# MCP服务器
纳米AI搜索纳米AI搜索,简称纳米搜索,是360集团于2024年11月推出的基于大语言模型等多模态学习技术的搜索及内容创作工具,已发布Android、iOS和鸿蒙原生版本,并提供网页版、PC客户端。该产品支持文字、语音、拍照、视频等多种搜索方式。03,6920AI搜索# 360# 纳米AI搜索# 纳米搜索
WebsetsWebsets 是一款专为知识工作者设计的工具,能够帮助用户高效地查找符合特定标准的实体列表(如公司、人员、研究论文等)。根据基准测试,Websets 在复杂查询方面的表现远超谷歌,检索到的正确结果数量比谷歌多 20 倍以上。02880AI搜索# AI搜索# Exa# Websets
Perplexity AIPerplexity AI 是一个创新的AI搜索引擎,通过对话方式回答用户问题,提供总结性答案,并引用来源。它实时搜索互联网,确保信息最新,适合快速变化的主题,如新闻。02510AI搜索# AI搜索# Perplexity AI# 深度研究
Reddit AnswersReddit Answers 是一款基于 AI 的对话式搜索工具,允许用户提出问题并获得简洁的回答。这些回答是从相关社区(subreddits)中的真实用户帖子中提取的信息,并以简明的格式呈现,类似于 ChatGPT 或 Perplexity 等工具的回答风格。02100AI搜索# AI 聊天机器人# AI搜索# Reddit Answers
秘塔AI搜索秘塔 AI 搜索凭借其强大的技术优势和创新功能,为用户带来了全新的搜索体验。它不仅提升了搜索效率,还通过智能辅助工具和信息溯源功能,增强了搜索结果的可信度和用户体验。02010AI搜索# AI搜索# DeepSeek-R1# Shallow Research
飞书知识问答飞书知识问答是飞书智能办公平台推出的一款AI工具,帮助企业高效整合和检索内部知识资源,提升知识共享效率。它集成了DeepSeek R1和豆包大模型,支持实时联网搜索和多格式文件解析,用户可免费构建AI知识库,实现精准问答和智能创作。特别适合需要快速获取信息的企业场景,尤其在处理高频问题时,能显著提高工作效率。01870AI搜索# DeepSeek-R1# 知识管理# 豆包大模型
NaturalReaderNaturalReader 是一款功能强大、易于使用的文本转语音工具,适合各种场景下的阅读需求。无论您是希望节省时间的学生、需要无障碍支持的读者,还是寻求高质量语音内容的创作者,NaturalReader 都能为您提供卓越的体验。07860AI语音# NaturalReader# TTS# 文本转语音
AI SpeakerAI Speaker 是一款基于微软 TTS 服务的在线文字转语音(TTS)工具,能够将文字即时转换为自然流畅的 语音,支持100多种语言和600多种AI语音。04241AI语音# AI Speaker# TTS# 微软
ElevenReaderAI 语音初创公司 ElevenLabs 旗下的文本转语音(TTS)应用 ElevenReader是一款强大的移动文本转语音应用程序,旨在帮助用户随时随地聆听任何文本内容。03240AI语音# ElevenLabs# ElevenReader# GenFM
ElevenLabsElevenLabs 成立于 2022 年,总部位于英国和波兰,致力于利用 AI 技术生成自然、富有表现力的语音。它的平台支持从文本到语音的转换、语音克隆和多语言配音,服务于各种需求。03230AI语音# AI语音# ElevenLabs# 语音克隆
星野APP星野APP是一款由MiniMax开发的AI伴侣应用,专为中国用户设计,旨在提供个性化的虚拟交互体验。用户可以通过星野APP创建自己的AI角色,定制其外貌、声音、性格和技能。05620AI数字人# AI伴侣# MiniMax# 星野APP
Open Avatar ChatOpenAvatarChat 是一个功能强大且高度模块化的数字人系统,能够在单台 PC 上流畅运行,支持多模态交互。其开源特性为开发者提供了极大的自由度,可以根据具体需求进行定制和优化。04960AI数字人# Open Avatar Chat# 数字人# 阿里巴巴
CaptionsCaptions利用先进的人工智能技术,让任何人都能通过几次简单的点击,使用手机制作出录音室品质的视频。无论是脚本编写、录制、编辑还是分享,Captions都能无缝支持您的每一个创作环节。02870AI数字人# AI视频# Captions# 数字人
WeCloneWeClone为我们提供了一个从聊天记录和声音创造数字分身的开源解决方案。它不仅能够模拟你的语言风格,还能复制你的声音,并将数字分身绑定到多个聊天平台上。01940AI数字人# WeClone# 微信# 数字分身
HummingbirdHummingbird 是一款突破性的唇形同步模型,凭借其零样本能力、高精度和低成本,成为当前市场上的领先解决方案。结合 Tavus 提供的易用性极高的 API 服务,开发者和内容创作者可以轻松生成高质量的音画同步视频。01690AI数字人# Hummingbird# Tavus# 唇形同步模型
慧播星百度慧播星平台推出的 高说服力数码主播依托文心大模型的剧本生成与多模驱动能力,这一技术实现了数码主播在表情、语气、动作及情绪转换上的超拟真表现,甚至超越传统真人主播体验。01540AI数字人# 慧播星# 数字人# 电商
TripoTripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。04,86403D# 3D 建模# 3D模型# Tripo
MeshyMeshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!057803D# 3D 模型# 3D生成# Meshy
Alpha3DAlpha3D 是一款尖端工具,旨在帮助用户轻松地将文本和 2D 图像转换为完全实现的 3D 模型。这款由生成式 AI 驱动的平台对于参与创建增强现实 (AR) 内容的人来说是天赐之物,因为它简化了传统上昂贵且复杂的 3D 模型创建过程。无需深入的 3D 建模专业知识或高级设计技能,Alpha3D 使数字资产的创建大众化,使其可供从专业人士到业余爱好者等广泛受众使用。042303D# 3D模型# 3D生成# Alpha3D
GenieGenie 是 Luma AI 推出的一款强大的文生 3D 模型工具,能够在极短时间内生成包含材质、四维网格重拓扑、可变多边形数量和所有标准格式的 3D 模型。它通过解析用户提供的文本描述,利用 AI 技术生成逼真的 3D 模型,并支持复杂的提示,用户可以指定颜色、材质和形状等属性。029003D# 3D模型# Genie# Luma AI
腾讯混元3D腾讯上线的混元 3D AI 创作引擎,号称是“业界首个一站式 3D 内容 AI 创作平台”。该技术宣称一句话、一张图,甚至画个草图都能生成一个 3D 模型,甚至还能加动作、换纹理、捏人物、做动画。020903D# 3D模型# 3D生成# 腾讯混元3D
Claw Cloud RunClaw Cloud Run 是一个非常实用的在线开发平台,特别适合个人开发者和小型团队。它提供了丰富的开源项目支持、强大的免费资源,以及无需绑卡的便捷体验。无论是搭建个人项目、快速部署 AI 应用,还是作为开发测试环境,Claw Cloud Run 都能提供高效、稳定的解决方案。02240模型API# Claw Cloud# Claw Cloud Run# 阿里云
Google AI StudioGoogle AI Studio 是一个功能齐全的工具,特别适合希望快速构建和试验 AI 应用的开发者。其多模态支持、提示库和与 Gemini API 的无缝集成使其成为生成 AI 开发的有力平台。02,0160模型API# API# Gemini# Google AI Studio
MiniMax开放平台MiniMax 是一个多模态 AI 技术的领导者,其强大的计算能力和丰富的功能使其成为企业和开发者的重要工具。无论是文本生成、语音合成还是视频制作,MiniMax 都能提供高质量的解决方案,助力用户实现技术创新和商业价值的最大化。03840模型API# MiniMax# 海螺 AI# 海螺视频
火山方舟大模型服务平台方舟是火山引擎推出的大模型服务平台,为您提供模型的训练、推理、评测、精调等全流程服务,帮助您快速应用的模型服务。03230模型API# API# 火山引擎# 火山方舟大模型服务平台
硅基流动硅基流动作为集合顶尖大模型的一站式云服务平台,致力于为开发者提供更快、更全面、体验更丝滑的模型 API,助力开发者和企业聚焦产品创新,无须担心产品大规模推广所带来的高昂算力成本。03190模型API# ChatBox# Cherry Studio# DeepSeek-R1
2233.ai2233.ai提供了一个便捷、安全且经济实惠的解决方案,让用户能够体验到原生的ChatGPT Plus和Claude Pro服务。同时,通过合理选择网络工具和使用API等方式,也可以在一定程度上改善使用体验,避免常见的网络和账号问题。02840模型API# 2233.ai# ChatGPT# Claude
Open ASR 排行榜Open ASR 排行榜 对 Hugging Face Hub 上的语音识别模型进行排名和评估。我们报告平均 WER(字错误率)(⬇️ 越低越好)和 RTFx(实时因子)(⬆️ 越高越好),模型根据其平均 WER 从低到高进行排名。07,7740基准测试# Hugging Face# 语音识别
WebDev ArenaWebDev Arena 是一个实时的 AI编程竞赛平台,由 LMArena 开发,各种 AI代码模型在其中进行面对面的 Web 开发挑战。04070基准测试# AI编程# WebDev Arena# 网页开发
MagicArenaMagicArena是字节跳动推出的一个采用Elo积分机制的视觉生成大模型公开对战平台。平台上有多个视觉生成大模型(文生图、文生视频、图生视频)随机两两对战,用户对生成的结果进行评价,累积定对战数据后可以查看自己的大模型排行榜。03540基准测试# Elo# MagicArena# 大模型
imgsysimgsys.org 是一个专注于开源文本引导图像生成模型的评估平台,通过用户偏好数据的收集和开源,推动图像生成领域的研究和开发。02760基准测试# Fal.ai# imgsys# 文生图模型
Chatbot ArenaChatbot Arena是一个开放平台,专注于通过人类偏好评估大型语言模型(LLMs)的性能。该平台由加州大学伯克利分校的SkyLab和LMSYS研究团队开发,旨在为LLMs提供一个公正、透明的评估环境。02720基准测试# Chatbot Arena# 大语言模型
Artificial AnalysisArtificial Analysis 是一个专注于 AI 模型和提供商分析的网站,通过提供性能基准测试和区域性报告,帮助用户做出明智的选择。其内容覆盖广泛,包括语言模型、图像模型等,并特别关注全球AI趋势,如中国市场的动态。对于需要深入了解 AI 选项的用户,该网站是一个有用的工具,尤其是在性能比较和趋势分析方面。02470基准测试# AI模型# Artificial Analysis
MinerUMinerU是一款功能强大、操作简单的文档解析工具。它不仅支持多种格式和导入方式,还能精准提取复杂元素,适用于多种场景。无论是学术研究、数据分析还是日常办公,MinerU都能为你带来流畅、准确的解析体验。在科研、学习和工作中,处理复杂文档格式一直是一个让人头疼的问题。无论是科技文献中的公式、表格,还是多语言扫描版PDF,传统工具往往难以满足高效、精准的解析需求。而今天要介绍的 MinerU,正是一款专为解决这些问题而生的免费文档解析神器。它不仅能精准提取复杂元素,还支持多种格式一键转换,适用于从机器学习到大模型语料生产的多种场景。 全格式兼容,轻松导入 MinerU 的一大亮点是其强大的格式兼容性。无论你的文档是 PDF、Word、PPT 还是图片,MinerU 都能轻松应对。通过简单的拖拽、截图或批量上传,你就可以快速将文件导入工具中,无需繁琐的操作。 支持格式:PDF、Word、PPT、图片等主流文档类型。 操作便捷:拖拽、截图、批量上传,一键完成导入。 智能识别:自动检测扫描版PDF和乱码PDF,并启用OCR功能,支持84种语言的检测与识别。 复杂元素精准提取 对于科技文献、学术论文等包含复杂排版的文档,MinerU 表现尤为出色。它能够精准定位并提取图表、公式等复杂元素,确保内容完整且语义连贯。 精准定位:自动识别文档中的图表、公式、表格等复杂元素,并进行精准提取。 结构保留:输出结果保留原文档的标题、段落、列表等结构,确保逻辑清晰。 多模态解析:支持图像描述、表格标题、脚注等内容的提取,适配多种使用场景。 多场景极速输出 MinerU 不仅擅长解析文档,还提供了丰富的输出格式选择,满足不同场景的需求。无论是用于机器学习训练、大模型语料生产,还是构建 RAG(检索增强生成)系统,MinerU 都能提供高效的解决方案。 多种输出格式: Markdown:适合多模态与NLP任务。 JSON:按阅读顺序排序,便于后续处理。 LaTeX:自动识别并转换公式,极大提升科研效率。 HTML:自动转换表格,方便网页展示。 可视化支持:提供 layout 可视化、span 可视化等功能,便于高效确认输出效果与质检。 技术亮点与性能优化 MinerU 在技术层面同样表现出色,兼顾了易用性与性能优化: 跨平台支持:兼容 Windows、Linux 和 Mac 平台,满足不同用户的设备需求。 硬件加速:支持纯 CPU 环境运行,同时可选 GPU(CUDA)、NPU(CANN)、MPS 加速,显著提升处理速度。 高精度 OCR:针对扫描版PDF和乱码文档,MinerU 内置高精度OCR功能,支持84种语言的检测与识别。 主要功能一览 MinerU 的核心功能覆盖了文档解析的方方面面,帮助用户高效完成复杂的文档处理任务: 删除冗余元素:自动移除页眉、页脚、脚注、页码等内容,确保输出文本语义连贯。 阅读顺序优化:输出符合人类阅读习惯的文本,无论是单栏、多栏还是复杂排版都能轻松应对。 公式与表格转换: 自动识别并转换公式为 LaTeX 格式。 自动识别并转换表格为 HTML 格式。 多语言支持:OCR 功能支持84种语言,满足国际化需求。 灵活输出:支持多种格式输出(Markdown、JSON、LaTeX、HTML 等),适配多种应用场景。 适用场景广泛 MinerU 的设计初衷是为了服务于科研和技术发展,但它的应用范围远不止于此。以下是一些典型的应用场景: 机器学习与大模型训练:将大量文档转化为高质量的训练数据,助力模型语料生产。 RAG 系统构建:为检索增强生成系统提供结构化数据支持。 学术研究:快速解析科技文献,提取关键信息,提升科研效率。 企业办公:批量处理合同、报告等文档,节省人工整理时间。 为什么选择 MinerU? 相比其他文档解析工具,MinerU 的优势在于其全面性和精准性。它不仅能够处理各种复杂文档,还能根据用户需求输出多样化的结果。更重要的是,MinerU 完全免费,且持续优化以解决科技文献中的符号转化问题,为大模型时代的技术进步贡献力量。01,5140实用工具# MinerU# PDF# 数据提取
The Ultra-Scale PlaybookHugging Face旗下的Nanotron团队近期推出了一本免费、开源的综合性书籍——《Ultrascale-Playbook》。这本书旨在为读者提供关于如何在大规模GPU集群上高效训练大语言模型的全面指导,涵盖了分布式/并行化技术以及低级优化技巧。07160实用工具# The Ultra-Scale Playbook# 大语言模型# 模型训练
BabelDOCBabelDOC 是新一代智能 PDF 翻译工具,采用先进的排版保持技术,为您提供专业级的双语对照翻译体验。无论是前沿学术论文,还是商业分析报告,BabelDOC 都能帮您轻松跨越语言藩篱,同时完美呈现原文档的精致排版。05540实用工具# BabelDOC# PDF 翻译工具# 沉浸式翻译
Little Language Lessons谷歌推出了三项基于其多模态大模型 Gemini 的 AI 实验项目,旨在通过更加个性化、情境化的方式帮助人们提升口语表达能力。些 AI 实验工具为语言学习者提供了全新的视角和方法。无论是通过“微型课程”快速掌握实用短语,还是通过“俚语交流”学习更自然的表达,亦或是利用“单词相机”在实际场景中学习新单词,这些工具都旨在帮助用户更高效地学习新语言。04680AI小应用# Little Language Lessons# 语言学习
DaanDaan 是一款简洁、高效的LLM客户端,适合那些希望快速上手并享受流畅AI体验的用户。它不仅支持多种模型和API,还提供了丰富的个性化设置,让你能够根据自己的需求打造专属的AI助手。04160AI小应用# Daan# LLM客户端# 答案
OCRFluxOCRFlux 是一个基于多模态大语言模型的工具包,可以将 PDF 和图像转换为干净、可读的纯 Markdown 文本,显著提升当前技术水平。03960实用工具# Markdown# OCR# OCRFlux
Norton Neo - 最新版安全公司诺顿宣布推出全新 Neo 浏览器,已进入早期测试阶段,以 AI 为核心,希望颠覆传统浏览器的静态搜索和手动管理模式。Neo 浏览器的核心是“魔法盒”(Magic Box),取代了传统的 URL 栏和搜索栏,通过自然语言处理用户问题,主动搜索网络并提供答案。此外,“魔法盒”支持 AI 辅助写作,实现直接草拟邮件等操作。
Amuse - 最新版AMD联合新西兰新创公司TensorStack合作推出了AI图像生成软件Amuse。目前,Amuse已经更新至3.0 Beta版本,致力于为AMD平台用户提供更加轻松易用的AI图像生成体验。
LM Studio - 最新版LM Studio 是一款开源程序,旨在帮助用户在本地设备上运行和实验各种大语言模型,它提供了一个简单而强大的界面,用于配置和推理模型,并能够利用显卡加速计算。此外,该程序完全支持离线运行,适合个人用户在笔记本电脑或台式机上部署开源模型。
Upscayl - 最新版阿普升图是一款免费且开源的 AI 图片放大软件,通过AI技术提升低分辨率图片的分辨率和质量。它支持 Linux、macOS 和 Windows,适合个人用户和专业用户,用于处理老照片、社交媒体图片或打印用高分辨率图像。
Krillin AI - 最新版Krillin AI 是一款全能型音视频本地化与增强解决方案。这款简约而强大的工具,集音视频翻译、配音、语音克隆于一身,支持横竖屏格式输出,确保在所有主流平台(哔哩哔哩,小红书,抖音,视频号,快手,YouTube,TikTok等)都能完美呈现。
K3U Installer - 最新版K3U Installer v2 Beta是一款功能强大、灵活且可视化的ComfyUI安装工具。它不仅简化了安装流程,还提供了丰富的配置选项和自动化支持,非常适合初次使用者和需要版本控制与自动化的高级开发者。
llama.cpp - 最新版llama.cpp 是一个轻量、高效的开源 AI 项目,适合在各种硬件上运行 LLM,提供丰富的工具和后端支持,开发者可通过 CLI 和 HTTP 服务器轻松使用。它支持模型微调、量化技术,并与 Hugging Face 和 ModelScope 等平台无缝集成,是构建 AI 应用程序的理想选择。