分类归档

AI教程

ChatGPT、Copilot、xAI、Meta AI 等

FWQ
AI教程
MarkItDown深入研究
是 Microsoft 开发的 Python 包,旨在将各种文件格式转换为 Markdown。 自首次亮相以来,该库的人气飙升,在短短两周内就获得了超过 25,000 个 GitHub 星!🤯 1、是什么让 MarkItDown 如此受欢迎? MarkItDown 为各种文件类型提供强大的支持,例如: Office 格式:Word、PowerPoint、Excel 媒体文件:图像(带有 EXIF 数据和描述)、音频(带有转录支持) Web 和数据格式:HTML、JSON、XML、CSV 档案:ZIP 文件 它不仅可以处理 Word 等标准格式,还可以处理多模式数据,这使其脱颖而出。例如,它使用…
2025-02-16 阅读全文 →
FWQ
AI教程
DeepSeek API+SearXNG联网搜索
本文最初发布在我的Substack通讯中:“。” 那个通讯是为那些技术背景不如我的Medium读者的读者准备的。因此,如果你已经安装了这些工具,可以跳过设置部分。 在这篇文章中,我将提供一个快速概述,说明如何使用开源的DeepSeek R1模型在本地搭建一个能够进行网络搜索的聊天机器人。 这将是一项相当技术性的任务,我在考虑时感到很困难,因为通讯定位为以非技术性的方式解释技术内容,但为了帮助那些想开始AI之旅的人们,我还是决定写这篇文章。 我尽力以非技术性的方式解释(因为我们是半专家,对吧?),但如果您仍然有任何问题,请在Substack上给我发私信(特别是如果您使用的是Windows;我是用Mac完成这个设置的)。 1、期望 按照这个快速指南操作后,你可以在笔记本电脑或台式机上启动一个简化的聊天机器人,如下所示: 一个由DeepSeek R1驱动的基本聊天机器人,能够执行网络搜索 (输出格式可以更美观一些,但稍后再做。我强迫自己今天发布这篇文章) 我们将通过基本设置和分步指南来启动您的AI学习之旅。 2、为什么在本地运行? 我不能使用DeepSeek应用程序/网页版本吗? 当然可以。 随着DeepSeek AI助手越来越受欢迎,我看到这种情况的频率越来越高: 我可以想象它有多忙。 ……而且这种情况可能会持续一段时间。 此外,人们可能对使用这些公司的AI助手服务有隐私顾虑。 如果仅在你的计算机上运行,则不会有这种担忧。 最后,如果你想学习AI,这也是熟悉一些开发工具的好方法。 3、设置资源 在开始之前,我们需要以下内容: 你的本地命令终端(只需在Mac上进入“终端”,在Windows上进入“命令提示符”) Python Docker Desktop…
2025-02-16 阅读全文 →
FWQ
AI教程
19个头像生成必备AI工具
没有人比他们的驾照照片更丑,也没有人比他们的个人资料照片更好看。 这句话仍然很有趣,但事情是这样的。 几年后,我们的个人资料照片将被更具互动性和动态的东西所取代:会说话的AI头像。 事实上,AI头像已经用于许多用例。想想我们在社交媒体上使用的视频游戏角色、虚拟助手和个性化贴纸。 AI头像的主要目的是(并且将是)在虚拟环境中代表人们,并使他们的互动更加人性化。 3 个互联网头像示例:来自 Windows 的 ducky,一个 3 角色头像和 Synthesia 的人工智能视频头像 Alex 互联网内容正在从静态转向动态,头像也不例外。很快,每个人都会有自己的 3D 头像来代表他们在数字世界中。 有些头像非常逼真,有些则完全可定制。有些是 3D 的,有些是 2D 的。有些可以说话,有些可以说话和思考。有些可以帮你找到一辆完美的汽车,有些可以让你爱上它们。 不,我们不是在科幻电影里。这是新常态。 那么,让我们看看如何使用 AI 头像,以及目前可用的一些最佳 AI…
2025-02-16 阅读全文 →
FWQ
AI教程
Vibe Coding:AI驱动的编程方法
在这个 ChatGPT 时代,人类的习惯正在快速改变。在这个革命性的时代,Andrej Karpathy(前 OpenAI 联合创始人)创造了一个新术语氛围编码 ( Vibe Coding )。 1、什么是 Vibe Coding? 氛围编码就像让 AI 伙伴处理编码的细节,而你则放松下来,并给它传达你想要的高级氛围。这是自动编码,你相信 AI 可以完成大部分繁重的工作。 根据 Andrej Karpathy 的消息,“氛围编码”是一种编程方法,你可以: 充分利用 AI 的功能:你信任并严重依赖 AI 系统(例如大型语言模型 (LLM))来处理编码任务。…
2025-02-16 阅读全文 →
FWQ
AI教程
用网站内容构建RAG应用
最近,大型语言模型(LLMs)的进步为复杂的自然语言应用解锁了令人兴奋的可能性。这些模型,如ChatGPT、LLAMA和Mistral,正在革新我们与AI的互动方式,从生成类人文本到驱动个性化聊天机器人。然而,一个主要的限制仍然存在:这些模型受限于它们训练时的知识,并且无法更新新的信息。这种限制阻碍了它们应对时间敏感或领域特定查询的能力。 这就是检索增强生成(RAG)发挥作用的地方。RAG使我们能够将实时上下文信息输入到LLMs中,使它们能够提供更相关和精确的答案。一个有价值的上下文信息来源是网站内容。 在这篇指南中,我们将解释如何从网站提取内容并利用它来改进LLMs在RAG应用程序中的响应。我们将涵盖从网络抓取的基础知识到分块策略以及创建向量嵌入以实现高效检索的所有内容。让我们开始吧! 1、网络抓取基础 为了将网站内容集成到RAG系统中,第一步是从网站提取内容。这个过程被称为网络抓取。虽然一些网站提供了访问其数据的API,但许多没有。在这种情况下,网络抓取变得非常有价值。 有几个流行的Python库可以帮助提取网页数据。在这个例子中,我们将使用Beautiful Soup解析HTML内容和requests进行HTTP请求。还可以使用更高级的工具,如Selenium(用于动态内容)或Scrapy(用于大规模抓取)。 示例:抓取维基百科 让我们从使用BeautifulSoup抓取维基百科页面开始。 import requests from bs4 import BeautifulSoup # 向维基百科的数据科学页面发送请求 response = requests.get( url="https://en.wikipedia.org/wiki/Data_science", ) # 解析HTML内容 soup = BeautifulSoup(response.content, 'html.parser')…
2025-02-16 阅读全文 →
FWQ
AI教程
ExtractThinker+Gemini 2.0
在本文中,我们将探讨 Google 的 Gemini 2.0 模型如何与 ExtractThinker(一种旨在协调 OCR、分类、文档拆分和数据提取管道的开源框架)结合使用,从而增强智能文档处理 (IDP)。我们将介绍 Google Document AI 如何融入其中,以及 Gemini 2.0 Flash 的新功能,并通过代码示例和定价见解总结所有内容。 1、简介 智能文档处理 (IDP) 是将非结构化数据(如发票、驾驶执照和报告)转换为结构化、可操作信息的关键工作流程。虽然大型语言模型 (LLM) 现在可以直接处理图像和 PDF,但仅仅将图像输入 LLM 并希望获得完美的结果通常是不够的。相反,强大的 IDP 管道结合了:…
2025-02-16 阅读全文 →
FWQ
AI教程
多模态文档图像数据增强
在这篇博文中,我们提供了一个教程,介绍如何使用与 Albumentations AI 合作开发的一种新的文档图像数据增强技术。 1、动机 视觉语言模型 (VLM) 具有广泛的应用范围,但它们通常需要针对特定​​用例进行微调,特别是对于包含文档图像的数据集,即具有大量文本内容的图像。在这些情况下,文本和图像在模型训练的所有阶段相互作用至关重要,而对两种模式应用增强可确保这种相互作用。本质上,我们希望模型能够学会正确阅读,这在最常见的数据缺失情况下具有挑战性。 因此,在解决数据集有限的微调模型中的挑战时,对文档图像的有效数据增强技术的需求变得显而易见。一个常见的担忧是,典型的图像转换(例如调整大小、模糊或更改背景颜色)会对文本提取准确性产生负面影响。 我们认识到需要数据增强技术,在增强数据集的同时保留文本的完整性。这种数据增强可以促进新文档的生成或现有文档的修改,同时保持其文本质量。 2、简介 为了满足这一需求,我们引入了与 Albumentations AI 合作开发的新数据增强管道。该管道处理图像和其中的文本,为文档图像提供全面的解决方案。此类数据增强是多模态的,因为它同时修改图像内容和文本标注。 正如之前的博客文章中所讨论的,我们的目标是检验这样一个假设:在 VLM 的预训练期间集成对文本和图像的增强是有效的。详细参数和用例说明可在 Albumentations AI 文档中找到。Albumentations AI 支持动态设计这些增强并将其与其他类型的增强集成。 3、实现方法 为了增强文档图像,我们首先随机选择文档中的行。超参数 fraction_range 控制要修改的边界框分数。 接下来,我们将几种文本增强方法中的一种应用于相应的文本行,这些方法通常用于文本生成任务。这些方法包括随机插入、删除和交换以及停用词替换。…
2025-02-16 阅读全文 →
FWQ
AI教程
DeepSeek R1驱动的PDF机器人
本指南将引导你使用DeepSeek R1 + RAG构建一个功能性的PDF聊天机器人。逐步学习如何增强AI检索能力,并创建一个能够高效处理和响应文档查询的智能聊天机器人。 想象一下:您刚刚部署了一个聊天机器人来处理客户查询,但与其让用户印象深刻,它却在基本问题上磕磕绊绊,吐出无关的答案,甚至更糟——完全捏造虚假信息。听起来熟悉吗?这是当今大多数AI聊天机器人的现实,即使是那些由尖端语言模型驱动的也不例外。但是,如果您可以构建一个不仅猜测而且知道答案的聊天机器人呢?一个系统,它可以深入您的PDF文件,提取所需的内容,并以精准的准确性交付答案。这就是检索增强生成(RAG)和DeepSeek R1的用武之地。那么,如何实现呢?让我们一探究竟。 1、DeepSeek R1:一种更智能的RAG方法 传统的RAG模型常常检索不相关或过于宽泛的内容,但DeepSeek R1采用先进的矢量化技术,能够从密集的PDF中提取精确且上下文相关的片段。 可以把DeepSeek R1想象成一个图书管理员,他不仅能找到正确的书,还能高亮显示您需要的确切段落。在法律科技领域,它可以提取冗长合同中的关键条款,而在医疗领域,它可以精确定位医疗手册中的剂量指南——没有废话,只有事实。 本地部署确保了数据隐私,使其非常适合金融和医疗等行业。展望未来,多模态集成可以增强其将文本与视觉数据结合的能力,从而提供更丰富的见解。 2、DeepSeek R1与RAG技术的协同作用 大多数RAG系统失败的原因在于它们将检索和生成视为独立的孤岛。DeepSeek R1通过紧密集成这些过程改变了游戏规则。它的语义矢量化不仅仅是检索数据——它检索相关数据,即使是从密集的PDF中也是如此。当回答复杂查询时,相关性就是一切。 在法律科技领域,DeepSeek R1可以精确提取案例法先例。它不会随机抽取段落;而是将检索与用户的意图对齐,确保生成的响应具有可操作性。 真正的魔力发生在您使用特定领域的嵌入对其进行微调时。这种方法弥合了通用AI与专业需求之间的差距,使其成为医疗、金融和教育等行业的强大工具。 3、设置开发环境 设置开发环境可能感觉像在没有说明书的情况下组装宜家家具。但是,如果您知道正确的步骤,使用DeepSeek R1会非常简单。 首先,确保您的系统满足最低硬件要求:8 GB RAM和现代CPU。DeepSeek R1的语义矢量化计算量很大。把它想象成一辆高性能跑车——它需要合适的赛道才能发光。 接下来,安装Python(3.8或更高版本)和所需的库。使用以下命令开始:…
2025-02-16 阅读全文 →
FWQ
AI教程
OpenAI o3-mini vs. DeepSeek R1
整个一月份,我都是 OpenAI 的反对者。 我多次公开抨击他们。我广泛讨论了他们的开源竞争对手 DeepSeek R1,以及一小队中国研究人员如何在他们自己的游戏中摧毁了 OpenAI。 我还谈到了 Operator,这是OpenAI试图制作一个有用的“AI 代理”的失败尝试,该代理可以完全自主地执行任务。 所以当 Sam Altman 宣布他们今天将发布 o3-mini 时,我认为这将是另一次从实际成功的 AI 公司那里抢风头的失败尝试。 我 110% 错了。O3-mini 简直太棒了。 1、什么是 O3-mini? OpenAI 的 o3-mini 是他们新改进的大型推理模型。…
2025-02-16 阅读全文 →
FWQ
AI教程
3个DeepSeek-R1平替推理模型
人工智能在逻辑推理、问题解决和可解释性方面正在迅速发展。虽然 DeepSeek 的 R1 引起了关注,但它并不是唯一在推理任务中表现出色的免费 AI 模型。几种新模型提供了强大的推理能力——而且它们完全免费使用! 在本文中,我们将探讨三种顶级免费推理模型: Gemini 2.0 Flash Thinking Experimental(由 Google 提供) OpenAI 的 o3 Mini Moonshot 的 Kimi k1.5 每个模型都有独特的优点和缺点,所以让我们逐一分析一下。 1、Google Gemini 2.0 Flash…
2025-02-16 阅读全文 →