作者文章

fwq

FWQ
AI教程
Vibe Coding:AI驱动的编程方法
在这个 ChatGPT 时代,人类的习惯正在快速改变。在这个革命性的时代,Andrej Karpathy(前 OpenAI 联合创始人)创造了一个新术语氛围编码 ( Vibe Coding )。 1、什么是 Vibe Coding? 氛围编码就像让 AI 伙伴处理编码的细节,而你则放松下来,并给它传达你想要的高级氛围。这是自动编码,你相信 AI 可以完成大部分繁重的工作。 根据 Andrej Karpathy 的消息,“氛围编码”是一种编程方法,你可以: 充分利用 AI 的功能:你信任并严重依赖 AI 系统(例如大型语言模型 (LLM))来处理编码任务。…
2025-02-16 阅读全文 →
FWQ
AI教程
用网站内容构建RAG应用
最近,大型语言模型(LLMs)的进步为复杂的自然语言应用解锁了令人兴奋的可能性。这些模型,如ChatGPT、LLAMA和Mistral,正在革新我们与AI的互动方式,从生成类人文本到驱动个性化聊天机器人。然而,一个主要的限制仍然存在:这些模型受限于它们训练时的知识,并且无法更新新的信息。这种限制阻碍了它们应对时间敏感或领域特定查询的能力。 这就是检索增强生成(RAG)发挥作用的地方。RAG使我们能够将实时上下文信息输入到LLMs中,使它们能够提供更相关和精确的答案。一个有价值的上下文信息来源是网站内容。 在这篇指南中,我们将解释如何从网站提取内容并利用它来改进LLMs在RAG应用程序中的响应。我们将涵盖从网络抓取的基础知识到分块策略以及创建向量嵌入以实现高效检索的所有内容。让我们开始吧! 1、网络抓取基础 为了将网站内容集成到RAG系统中,第一步是从网站提取内容。这个过程被称为网络抓取。虽然一些网站提供了访问其数据的API,但许多没有。在这种情况下,网络抓取变得非常有价值。 有几个流行的Python库可以帮助提取网页数据。在这个例子中,我们将使用Beautiful Soup解析HTML内容和requests进行HTTP请求。还可以使用更高级的工具,如Selenium(用于动态内容)或Scrapy(用于大规模抓取)。 示例:抓取维基百科 让我们从使用BeautifulSoup抓取维基百科页面开始。 import requests from bs4 import BeautifulSoup # 向维基百科的数据科学页面发送请求 response = requests.get( url="https://en.wikipedia.org/wiki/Data_science", ) # 解析HTML内容 soup = BeautifulSoup(response.content, 'html.parser')…
2025-02-16 阅读全文 →
FWQ
AI教程
ExtractThinker+Gemini 2.0
在本文中,我们将探讨 Google 的 Gemini 2.0 模型如何与 ExtractThinker(一种旨在协调 OCR、分类、文档拆分和数据提取管道的开源框架)结合使用,从而增强智能文档处理 (IDP)。我们将介绍 Google Document AI 如何融入其中,以及 Gemini 2.0 Flash 的新功能,并通过代码示例和定价见解总结所有内容。 1、简介 智能文档处理 (IDP) 是将非结构化数据(如发票、驾驶执照和报告)转换为结构化、可操作信息的关键工作流程。虽然大型语言模型 (LLM) 现在可以直接处理图像和 PDF,但仅仅将图像输入 LLM 并希望获得完美的结果通常是不够的。相反,强大的 IDP 管道结合了:…
2025-02-16 阅读全文 →
FWQ
AI教程
多模态文档图像数据增强
在这篇博文中,我们提供了一个教程,介绍如何使用与 Albumentations AI 合作开发的一种新的文档图像数据增强技术。 1、动机 视觉语言模型 (VLM) 具有广泛的应用范围,但它们通常需要针对特定​​用例进行微调,特别是对于包含文档图像的数据集,即具有大量文本内容的图像。在这些情况下,文本和图像在模型训练的所有阶段相互作用至关重要,而对两种模式应用增强可确保这种相互作用。本质上,我们希望模型能够学会正确阅读,这在最常见的数据缺失情况下具有挑战性。 因此,在解决数据集有限的微调模型中的挑战时,对文档图像的有效数据增强技术的需求变得显而易见。一个常见的担忧是,典型的图像转换(例如调整大小、模糊或更改背景颜色)会对文本提取准确性产生负面影响。 我们认识到需要数据增强技术,在增强数据集的同时保留文本的完整性。这种数据增强可以促进新文档的生成或现有文档的修改,同时保持其文本质量。 2、简介 为了满足这一需求,我们引入了与 Albumentations AI 合作开发的新数据增强管道。该管道处理图像和其中的文本,为文档图像提供全面的解决方案。此类数据增强是多模态的,因为它同时修改图像内容和文本标注。 正如之前的博客文章中所讨论的,我们的目标是检验这样一个假设:在 VLM 的预训练期间集成对文本和图像的增强是有效的。详细参数和用例说明可在 Albumentations AI 文档中找到。Albumentations AI 支持动态设计这些增强并将其与其他类型的增强集成。 3、实现方法 为了增强文档图像,我们首先随机选择文档中的行。超参数 fraction_range 控制要修改的边界框分数。 接下来,我们将几种文本增强方法中的一种应用于相应的文本行,这些方法通常用于文本生成任务。这些方法包括随机插入、删除和交换以及停用词替换。…
2025-02-16 阅读全文 →
FWQ
AI教程
DeepSeek R1驱动的PDF机器人
本指南将引导你使用DeepSeek R1 + RAG构建一个功能性的PDF聊天机器人。逐步学习如何增强AI检索能力,并创建一个能够高效处理和响应文档查询的智能聊天机器人。 想象一下:您刚刚部署了一个聊天机器人来处理客户查询,但与其让用户印象深刻,它却在基本问题上磕磕绊绊,吐出无关的答案,甚至更糟——完全捏造虚假信息。听起来熟悉吗?这是当今大多数AI聊天机器人的现实,即使是那些由尖端语言模型驱动的也不例外。但是,如果您可以构建一个不仅猜测而且知道答案的聊天机器人呢?一个系统,它可以深入您的PDF文件,提取所需的内容,并以精准的准确性交付答案。这就是检索增强生成(RAG)和DeepSeek R1的用武之地。那么,如何实现呢?让我们一探究竟。 1、DeepSeek R1:一种更智能的RAG方法 传统的RAG模型常常检索不相关或过于宽泛的内容,但DeepSeek R1采用先进的矢量化技术,能够从密集的PDF中提取精确且上下文相关的片段。 可以把DeepSeek R1想象成一个图书管理员,他不仅能找到正确的书,还能高亮显示您需要的确切段落。在法律科技领域,它可以提取冗长合同中的关键条款,而在医疗领域,它可以精确定位医疗手册中的剂量指南——没有废话,只有事实。 本地部署确保了数据隐私,使其非常适合金融和医疗等行业。展望未来,多模态集成可以增强其将文本与视觉数据结合的能力,从而提供更丰富的见解。 2、DeepSeek R1与RAG技术的协同作用 大多数RAG系统失败的原因在于它们将检索和生成视为独立的孤岛。DeepSeek R1通过紧密集成这些过程改变了游戏规则。它的语义矢量化不仅仅是检索数据——它检索相关数据,即使是从密集的PDF中也是如此。当回答复杂查询时,相关性就是一切。 在法律科技领域,DeepSeek R1可以精确提取案例法先例。它不会随机抽取段落;而是将检索与用户的意图对齐,确保生成的响应具有可操作性。 真正的魔力发生在您使用特定领域的嵌入对其进行微调时。这种方法弥合了通用AI与专业需求之间的差距,使其成为医疗、金融和教育等行业的强大工具。 3、设置开发环境 设置开发环境可能感觉像在没有说明书的情况下组装宜家家具。但是,如果您知道正确的步骤,使用DeepSeek R1会非常简单。 首先,确保您的系统满足最低硬件要求:8 GB RAM和现代CPU。DeepSeek R1的语义矢量化计算量很大。把它想象成一辆高性能跑车——它需要合适的赛道才能发光。 接下来,安装Python(3.8或更高版本)和所需的库。使用以下命令开始:…
2025-02-16 阅读全文 →
FWQ
AI教程
OpenAI o3-mini vs. DeepSeek R1
整个一月份,我都是 OpenAI 的反对者。 我多次公开抨击他们。我广泛讨论了他们的开源竞争对手 DeepSeek R1,以及一小队中国研究人员如何在他们自己的游戏中摧毁了 OpenAI。 我还谈到了 Operator,这是OpenAI试图制作一个有用的“AI 代理”的失败尝试,该代理可以完全自主地执行任务。 所以当 Sam Altman 宣布他们今天将发布 o3-mini 时,我认为这将是另一次从实际成功的 AI 公司那里抢风头的失败尝试。 我 110% 错了。O3-mini 简直太棒了。 1、什么是 O3-mini? OpenAI 的 o3-mini 是他们新改进的大型推理模型。…
2025-02-16 阅读全文 →
FWQ
AI教程
3个DeepSeek-R1平替推理模型
人工智能在逻辑推理、问题解决和可解释性方面正在迅速发展。虽然 DeepSeek 的 R1 引起了关注,但它并不是唯一在推理任务中表现出色的免费 AI 模型。几种新模型提供了强大的推理能力——而且它们完全免费使用! 在本文中,我们将探讨三种顶级免费推理模型: Gemini 2.0 Flash Thinking Experimental(由 Google 提供) OpenAI 的 o3 Mini Moonshot 的 Kimi k1.5 每个模型都有独特的优点和缺点,所以让我们逐一分析一下。 1、Google Gemini 2.0 Flash…
2025-02-16 阅读全文 →
FWQ
AI教程
用Smolagents开发AI代理
本教程探讨了一个实用的示例,通过将强大的 Llama 2 语言模型与 smolagents 框架集成来构建 AI 代理。我们将分析一个代码片段(可在 上找到),该片段作为问答任务的概念验证(POC)。这个练习为构建更强大和自主的 AI 系统提供了宝贵的见解。 1、加载和优化语言模型 第一步涉及从 Hugging Face Transformers 加载 Llama 2 7B 聊天模型的量化版本。这里使用了 4 位量化。 像 Llama 2 这样的大型语言模型具有数百万或数十亿个参数,需要大量的内存和处理能力。4 位量化是一种技术,可以在不显著牺牲性能的情况下减少这些模型的内存占用。…
2025-02-16 阅读全文 →
FWQ
AI教程
vLLM/ollama综合对比
欢迎来到我们深入研究 LLM 推理框架的最后一部分!在第一部分和第二部分中,我们分别探讨了 Ollama 和 vLLM,了解了它们的架构、功能和基本性能特征。现在到了决定性的一轮:面对面的比较,以帮助您根据特定需求选择合适的框架。 这次比较并不是要宣布绝对的赢家——而是要了解哪种框架在不同场景中表现出色。我们将重点关注: 资源利用率和效率 部署和维护的简易性 具体用例和建议 安全和生产准备 文档 让我们深入研究数据,看看我们的测试揭示了什么! 只有一个可以成为冠军,或者可能不是? 🤔 1、基准测试设置 为了确保公平比较,我们将对两个框架使用相同的硬件和模型: 硬件配置: GPU:NVIDIA RTX 4060 16GB Ti RAM:64GB RAM CPU:AMD Ryzen 7…
2025-02-16 阅读全文 →
FWQ
AI教程
DeepSeek-R1的3个关键思想
来自中国的新型大型语言模型 DeepSeek R1 的发布在 AI 研究界引起了轰动。这不仅仅是又一次渐进式改进。DeepSeek 代表着一次重大飞跃。大多数新的 AI 模型感觉都像是小步。DeepSeek R1 则不同。这是近期第一个让你停下来思考的模型,这可能很重要。 中国的一个团队上周日发布了它,它已经引起了轰动。它的基准接近 OpenAI 的 01 模型在推理任务(数学、编码和科学)中的基准。但有趣的不仅仅是数字。而是他们如何达到这一水平。 DeepSeek R1 背后有三个关键思想: 思维链 — 让模型自我解释。 强化学习 — 让它自我训练。 蒸馏 — 在不损失能力的情况下缩小模型。…
2025-02-16 阅读全文 →