分类归档

AI教程

ChatGPT、Copilot、xAI、Meta AI 等

FWQ
AI教程
DeepSeek GRPO强化学习算法
如果你在地球上,你现在一定听说过 DeepSeek 以及它是如何导致美国股市崩盘的。这个革命性模型的根源是“我的初恋”,即强化学习。因此,在这篇文章中,我们将尝试了解 GRPO,这是一种使这一切成为可能的强化学习算法。 1、预备知识 1.1 什么是强化学习中的策略? 在强化学习 (RL) 中,策略(policy)是代理用来决定在给定状态下采取哪种行动的策略。 确定性策略 (π(s)) → 始终为给定状态选择相同的动作。 随机策略 (π(a|s)) → 定义给定状态下动作的概率分布。 强化学习的目标是学习最大化累积奖励的最佳策略 (π*)。 1.2 什么是价值函数? 价值函数(value function)告诉我们一个状态或行动在未来奖励方面有多好。 状态值 (V) → 处于某种状态有多好。…
2025-02-16 阅读全文 →
FWQ
AI教程
12个数据可视化必备数据集
数据可视化不仅是一种强大的工具,可让数据科学家和分析师以易于理解的格式传达复杂的见解和发现,而且它也是希望进入该领域并展示新学到的技能的有抱负的数据科学家/分析师的第一步。 但还有另一件重要的事情需要考虑——数据集的选择。为数据可视化选择正确的数据集对于任何数据可视化项目的成功都至关重要——它可能意味着提供引人入胜的叙述或失败之间的区别。 但这就是我们来到 ODSC 的原因!让我们来看看各个领域的最佳数据可视化数据集列表,它们非常适合增强你的数据可视化项目并让你的数据故事栩栩如生,甚至只是帮助你丰富你的投资组合。 政府和开放数据源 1、美国政府开放数据 作为最全面的政府数据存储库之一,提供多个领域的数据集,包括农业、气候、教育和健康。该平台对于政策分析、经济可视化和公共部门项目特别有用,使用户能够探索美国政府格局中的趋势和见解。这些数据可视化数据集非常多样化,为新手和高级数据科学家提供了大量主题选择。 2、世界银行开放数据 对于那些对全球发展感兴趣的人,提供了有关健康、教育和经济指标等主题的大量数据集。它是可视化全球趋势和金融数据的首选来源,非常适合专注于国际发展、经济比较和贫困分析的项目。 社交媒体和网络数据 3、Google 趋势 提供了人们随时间搜索内容的见解,使其成为时间序列可视化、流行度分析和趋势预测的绝佳工具。通过利用这些数据,你可以创建可视化效果,捕捉公众对从政治到娱乐等各种主题的兴趣脉搏。 4、Twitter API / Twitter 数据 Twitter 庞大的实时和历史数据存储库是情绪分析、社交聆听和网络可视化的金矿。无论你是在研究最近事件的公众意见,还是分析围绕特定主题标签的参与度,都可以提供可视化所需的社交背景和深度。 科学和环境数据集 5、NASA 地球观测 (NEO) 对于环境和地理空间可视化,提供了卫星图像和各种地球相关变量的数据,例如温度、植被和云量。这些数据集对于专注于环境变化、气候分析和自然灾害可视化的项目来说是无价的。 6、NOAA 气候数据在线…
2025-02-16 阅读全文 →
FWQ
AI教程
3个最有效的表格提取SDK
本文深入探讨了从表格中提取数据的微妙世界,这项任务比提取纯文本要复杂得多。这种复杂性源于表格中经常出现的非常规结构,尤其是在研究论文中。与标准表格不同,这些表格可能没有清晰的界定,或者列标题和内容之间可能存在错位。这种半结构化表格对传统的提取方法提出了挑战,需要更高级的方法。 本文重点介绍旨在有效应对这些挑战的免费开源工具和技术。它探讨了处理非标准表格格式的各种策略,提供了有效提取数据的见解,即使是从格式最不规则的表格中也是如此。重点是提供实用、可访问的解决方案,这些解决方案可以处理表格数据提取的复杂性,而无需承担高昂的成本。通过这种探索,本文旨在让读者掌握在传统方法无法满足需求的世界中应对表格数据提取的知识。 在本文中,我们将研究用于表格数据提取的各种工具和技术,并将指导你完成有效实施这些解决方案所需的 Python 代码。 1、PDF 到图像转换(用于 OCR 工具) 我们探索一种基于 Python 的方法,用于将 PDF 文档转换为图像,这是使用 OCR(光学字符识别)工具的关键步骤。此过程涉及 PyMuPDF 库(称为 fitz)和 Python 图像库 (PIL)。提供的脚本将每个 PDF 页面转换为 PNG 图像,使其可供 OCR 软件读取。该方法保留 PDF…
2025-02-16 阅读全文 →
FWQ
AI教程
5个值得借鉴的AI SaaS产品
以下是最近推出的一些很酷的 AI SaaS 产品,它们以最显著的方式使用了 AI。 请不要直接复制和粘贴这些想法;相反,尝试在你的 SaaS 版本中查找漏洞并填补补丁。 有时它甚至可以是在其他 SaaS 上运行的 Google Chrome 扩展程序。 1、Stormy AI:网红营销 随着 2024 年的到来,我们看到来自 TikTok 和 Instagram Reels 的销售额超过了亚马逊或广告。 我相信,到 2025 年,对网红的需求将非常大,以满足我们已经拥有的 Patreon…
2025-02-16 阅读全文 →
FWQ
AI教程
8个最强大的OCR工具与服务
在快节奏的 IT 世界中,光学字符识别 (OCR) 已成为从图像中提取文本的不可或缺的工具。但是,当这些图像质量低下、模糊或不完美时会发生什么?这正是我在当前工作中面临的挑战,它促使我深入研究 OCR 工具和服务的世界以寻找解决方案。 我探索了各种 OCR 工具和服务,并根据它们的特点(例如价格、准确性和实施工作量)将它们分为三个不同的类别: 生成式AI:在这里,我研究了 Gemini 和 OpenAI 等尖端解决方案,它们利用生成模型的强大功能来解决复杂的 OCR 任务。 视觉 AI:此类别专注于专门的计算机视觉服务,旨在精确处理基于图像的挑战并从图像中提取特征。 开源库:对于那些希望构建内部解决方案的人,我评估了可用的最佳开源工具,平衡了灵活性和控制力。 在整个研究过程中,我针对一组低质量图像测试了这些工具,以评估它们在实际场景中的表现。我强烈建议你创建图像数据集,以确保它最能满足你的特定需求和目标。 如果你对详细信息感到好奇,可以在找到用于本研究的完整代码。我用来测试解决方案的图像可在获得,基准测试代码可在访问。 1、OpenAI – 生成式AI 在我探索 OCR 工具的过程中,一种有趣的方法是利用…
2025-02-16 阅读全文 →
FWQ
AI教程
Parler-TTS 微调和推理技巧
Parler-TTS 项目很高兴地宣布发布两个新的文本转语音模型!本文介绍如何使用Gemma制作自己的数据集,如何微调Parler-TTS,以及如何使用Parler-TTS模型进行推理。 1、Parler-TTS 模型简介 首先,我们有 ,这是一款轻量级模型,非常适合快速轻松地生成语音。受最近研究论文《使用合成标注的高保真文本转语音的自然语言指导》的启发,Parler-TTS Mini v0.1 让你通过简单的文本提示直观地控制各种语音方面,例如性别、背景噪音和语速。 对于那些寻求最大表现力和控制力的人,我们还有 。这个 2.2B 参数模型经过大量 45K 小时的音频数据训练,可提供真正高质量、听起来自然的语音,并可广泛控制各种特征,包括性别、背景噪音、语速、音调和混响。 使用合成标注的高保真文本转语音的自然语言指导论文介绍了一种新颖的文本转语音 (TTS) 系统,该系统通过利用大规模数据集和自然语言描述实现高保真和多样化的语音生成。 动机:现有的 TTS 系统通常依赖参考音频来控制说话者的身份和风格,限制了它们的创造性应用。虽然自然语言提示提供了更直观的解决方案,但之前的尝试受到缺乏具有语音属性详细自然语言描述的大规模数据集的限制。 主要贡献: 自动标记:作者通过提出一种可扩展的方法来解决数据稀缺问题,该方法用于自动标记大量 45k 小时的语音数据集 (Multilingual LibriSpeech),其中包含性别、口音、语速、音调和录音质量等各种属性。它们还包括一个较小的高保真数据集 (LibriTTS-R),以提高音频质量。…
2025-02-16 阅读全文 →
FWQ
AI教程
DeepSeek GRPO vs. OpenAI RLHF
DeepSeek-R1 论文让整个 AI 社区都为之振奋。据说这是一篇革命性的论文,可能会在“注意力就是你所需要的一切”的传统中找到自己的位置。 1、为什么 DeepSeek-R1 论文如此重要? 它引入了一个新颖的想法,即使用简单的“强化学习”来训练像 DeepSeek-R1 这样的 LLM。 没有什么花哨的,只是普通的 RL。 但是等等,即使是其他 LLM 也以某种方式使用强化学习。对吧? 是的,即使是 OpenAI 或 Meta 的 LLM 也使用了一种强化学习形式,但不是 DeepSeek-R1 使用的简单强化学习。 在这篇文章中,我们将尝试了解这两种模型使用的强化学习有何不同 2、RLHF(OpenAI 和其他…
2025-02-16 阅读全文 →
FWQ
AI教程
图像数据集自动标注指南
在这个激动人心的冒险中,我们将深入研究用于物体检测和图像分割的小型但强大的模型的世界。我们的目标是什么?利用大型模型的力量来创建高效、高质量的数据集,这些数据集可以训练更快、更小的模型,而不会影响性能。让我们开始吧! 本文适用于那些准备使用 Grounding DINO、SAM 和 AutoDistill 等最先进的模型/工具构建自己的数据集的人。如果你曾经因模型速度慢或手动标注的麻烦而感到沮丧,请不要害怕!我们将自动生成标注数据的过程,并使用 Roboflow 对其进行改进以确保质量。 1、数据集创建简介 创建高质量的数据集是任何成功的机器学习项目的基础。在本节中,我们将探讨如何利用 Grounding DINO 和 SAM 等大型模型自动标记图像。我们还将使用 Roboflow 等工具来优化这些标签,从而实现流畅高效的工作流程。 在这次冒险中,我们将重点关注以下基本步骤: Grounding DINO 用于基于文本提示的自动检测 SAM模型用于精确的图像分割 AutoDistill 用于简化数据集创建 Roboflow 用于标签改进和增强 Grounding…
2025-02-16 阅读全文 →
FWQ
AI教程
程序员AI淘金综合指南
新一轮编程淘金热正在如火如荼地展开。只是这一次,你不需要昂贵的铲子,你会得到免费的挖掘机。我在 90 年代经历过互联网淘金热,在 21 世纪初经历过移动淘金热,现在,我们终于迎来了 AI 淘金热。听起来有些夸张,但事实并非如此。 OpenAI、Anthropic、DeepSeek 和 X 等公司都需要大量的 Nvidia GPU。像我这样的独立开发者根本负担不起或投资。正如你从我的文章中了解到的那样,只有 10% 的用户可能会在免费增值模式下付费。这意味着你必须为 90% 的免费用户保持 AI 推理能力。对于独立开发者来说这是不可能的。 现在情况已经改变。使用 llama.cpp 库的 Ollama 等软件上的本地 AI 和本地 LLM 正在兴起。文本转语音、文本转文本、文本转图像、图像转文本和大量其他模型现在可以在最终用户设备上运行,甚至可以在…
2025-02-16 阅读全文 →
FWQ
AI教程
DSPy.Image:视觉模型支持
DSPy 最近在测试版中增加了对 VLM 的支持。本文介绍使用 DSPy 从图像中提取属性。对于此示例,我们将了解如何从网站屏幕截图中提取有用的属性 1、定义签名 定义DSPy签名。注意 dspy.Image 输入字段: import dspy class WebsiteDataExtractionSignature(dspy.Signature): """Website data extraction""" website_screenshot: dspy.Image = dspy.InputField( desc="A screenshot of the website" ) hero_text:…
2025-02-16 阅读全文 →