作者文章

fwq

FWQ
AI教程
AI的真正威力:智能机器
虽然每个人都继续专注于 AI 写论文和创作艺术,但真正的革命正在表面之下发生——在机器人技术中。人工智能机器已经进入工厂、杂货店、仓库、医院和家庭。 让机器人真正智能是 AI 的下一个主要前沿。这不仅仅是将LLM交给一组人形或狗形的螺丝和废金属——它涉及物理、感知、控制和决策,即使在看不见或不确定的条件下也是如此。 运动是人类认为理所当然的事情,但对于机器来说却异常复杂。与处理静态文本的 AI 模型不同,机器人必须实时运行,对动态世界的变化做出反应。多年来,我们一直让机器人在自己的房间或工厂中独自工作,但让机器人与人类一起工作或在不受控制的环境中工作要困难得多。它们必须首先通过传感器(LiDAR、摄像头和 IMU)感知环境,然后准确解释这些数据,通常在信息不完整时做出推断。感知的难度延伸到路线规划、物体检测和深度估计等基本任务,即使是很小的计算错误也可能造成灾难性的后果。 来源: (Elijs Dima) 更不用说图像根本没有深度所需的信息,因为它是 3D 世界的 2D 投影。如果没有足够的线索,如阴影、纹理渐变、遮挡或立体视觉,就无法直接从单个图像推断出深度。随着深度神经网络的出现,让计算机以某种方式看待世界是一项艰巨的任务,研究人员花了几十年的时间才发现这一点。 一旦机器人建立了周围环境的模型,它就面临着控制的挑战——如何与世界互动。无论机器人是在组装微芯片还是移动仓库库存,精度和适应性都至关重要。然而,控制不仅仅是执行编程的动作;它需要对意外情况做出反应。物体会不可预测地滑动、变形或移动,迫使人工智能驱动的操纵模型实时调整。在复杂的环境中,运动规划变得越来越困难,因为机器人必须躲避移动的障碍物或与人类工人协调。与人类不同,机器人在泛化方面很吃力;一个被训练来处理咖啡杯的模型在面对酒杯或香蕉时可能会失败。迁移学习仍然是一个重大障碍,而知与行之间的差距仍然是当今机器人技术中最艰难的前沿之一。多年来,我们在某些特定领域开发了特别强大的模型,但仍然面临着集成和泛化的挑战。 除了抓取困难之外——接下来会发生什么?人类可以看一眼刀,根据情况立即知道它是用来切蔬菜、打开包裹还是涂抹黄油。然而,机器人需要明确的训练才能识别物体的功能以及如何在上下文中正确地与其交互。目前,多模态人工智能正被用于将物体识别与上下文配对,以便它们可以动态调整方法。然而,许多模型仍然依靠预编程或预训练的启发式方法运行。机器人感知的另一个基本问题不仅是识别物体,还包括语义理解——对它们的目的和交互动态的理解。 或者,在控制较少的环境中与人类一起工作时,如何使用该物体?如今,大多数人工智能机器人都是孤立运行的。无论是在配送仓库还是在自动驾驶测试轨道上,它们都针对受控环境进行了优化,以最大限度地减少人类的不可预测性。但要让机器人真正融入日常生活,它们不仅必须感知和行动,还必须实时解读人类的意图。例如,想象一个机器人在餐厅厨房工作。如果人类厨师伸手去拿机器人即将抓起的平底锅,机器人必须立即识别优先级的变化并改变路线。人工智能驱动的人形机器人必须在交流并不总是口头或清晰的环境中处理隐含的社会等级、基于手势的线索和语音语调。这不是一件容易的事。传统的基于规则的方法在这里失败了,因为它们缺乏适应性。相反,人们正在探索强化学习与人类反馈 (RLHF),以帮助机器人更好地驾驭协作空间。 尽管面临这些挑战和更多挑战,人工智能正在将机器人技术推向一个新时代,机器正在学习在非结构化环境中运行环境中,灵活地操纵物体,并在不可预测的条件下做出瞬间决策。在人形机器人领域,强化学习正在帮助特斯拉的 Optimus 和 Figure AI 的机器人改进其运动和操纵能力。这个想法是,机器人将被放进世界,根据奖励和惩罚自行学习物理、运动和控制。换句话说,就像人类儿童学习与世界互动的方式一样。…
2025-02-16 阅读全文 →
FWQ
AI教程
Phidata代理开发简明教程
你看,即使是强大的 LLM 也并不总是无所不知(尽管他们可能表现得像个万事通!)。就像所有伟大的事物一样,他们有时也需要外界的一点帮助——在推理、数学、编码或任何复杂任务中需要额外的帮助,而不仅仅是“精心设计的文字”。这就是代理发挥作用的地方。 有很多工具可以构建 LLM 代理,但并非所有工具都易于使用。今天,我们将查看一个简单但功能强大的框架 Phidata,看看它如何让使用 LLM 代理变得轻而易举! 1、Web代理:通向外部世界的窗口 LLM 通常无法访问互联网,因此让他们体验一下外部世界会立即让他们与时俱进。 例如,让我们在 Python 中设置我们最喜欢的专有 LLM: from openai import OpenAI import os os.environ["OPENAI_API_KEY"] = "get-your-own-api-key" prompt = "Is…
2025-02-16 阅读全文 →
FWQ
AI教程
蒸馏DeepSeek-R1到自己的模型
深度学习模型彻底改变了人工智能领域,但其庞大的规模和计算需求可能会成为实际应用的瓶颈。模型蒸馏是一种强大的技术,它通过将知识从大型复杂模型(教师)转移到较小、更高效的模型(学生)来解决这一挑战。 在本博客中,我们将介绍如何使用 LoRA(低秩自适应)等专门技术将 DeepSeek-R1 的推理能力蒸馏到较小的模型(如 Microsoft 的 Phi-3-Mini)中。 1、什么是蒸馏? 蒸馏是一种机器学习技术,其中较小的模型(“学生”)经过训练以模仿较大的预训练模型(“老师”)的行为。目标是保留老师的大部分表现,同时显着降低计算成本和内存占用。 这个想法最早是在 Geoffrey Hinton 关于知识蒸馏的开创性论文中提出的。它不是直接在原始数据上训练学生模型,而是从老师模型的输出或中间表示中学习。这实际上是受到人类教育的启发。 为什么它很重要: 成本效率:较小的模型需要更少的计算资源。 速度:非常适合延迟敏感的应用程序(例如 API、边缘设备)。 专业化:无需重新训练巨型模型即可针对特定领域定制模型。 2、蒸馏类型 模型蒸馏有几种方法,每种方法都有各自的优点: 数据蒸馏: 在数据蒸馏中,教师模型生成合成数据或伪标签,然后用于训练学生模型。 这种方法可以应用于广泛的任务,即使是那些 logits 信息量较少的任务(例如开放式推理任务)。 Logits蒸馏: Logits…
2025-02-16 阅读全文 →
FWQ
AI教程
DeepSeek API+SearpApi联网搜索
我找不到 DeepSeek 的知识截止日期,所以我直接问了 DeepSeek: DeepSeek 对知识截止日期的回复 如你所见,它的最新知识来自 2024 年 7 月,它建议使用互联网访问获取最新信息。 如果你直接使用该平台,可以激活“搜索”功能来搜索网络: DeepSeek 中的 Web 搜索功能 但如果使用 API,则需要找到一种变通方法,这就是我们将在本线程中讨论的内容! 1、理解 JSON 输出 我们如何理解人类语言并从中提取正确的参数调用函数?我们需要这两步: 从原始用户的查询中提取重要信息 使用提取的信息作为参数调用任何需要的函数。在上面的例子中,我们将调用另一个 API(不是 DeepSeek API),具体取决于我们要做什么。 (可选)我们可以将我们调用的函数中的信息提供给…
2025-02-16 阅读全文 →
FWQ
AI教程
值得开发者关注的15个开源项目
在不断发展的软件开发世界中,拥有合适的工具可以带来巨大的变化。由充满活力的开发者社区推动的开源项目提供了创新的解决方案来应对常见挑战、提高生产力和增强工作流程。 以下是每个开发人员都应该了解的 15 个基本开源项目的精选列表。让我们深入了解吧! 1、Frappe — 构建可扩展的 Web 应用程序 是 ERPNext 的骨干,也是创建可扩展 Web 应用程序的强大平台。 亮点: 无缝 REST API 创建。 高度可扩展和可定制。 内置 Python 集成,实现强大的后端逻辑。 2、Permit.io — 简化的访问控制 为你的应用程序提供轻松的基于角色 (RBAC)…
2025-02-16 阅读全文 →
FWQ
AI教程
Gemini 2.0 Flash vs. DeepSeek R1
三周前,当 DeepSeek 发布他们的廉价推理模型 R1 时,我认为这是人工智能革命的巅峰。我从未如此印象深刻。 然而,OpenAI 和 Google 都以前所未有的速度做出了回应。 OpenAI 以 o3-mini 做出了回应,这是一个非常强大且价格低廉的大型推理模型。与 o1 和 R1 一样,o3-mini 需要花费时间“思考”才能生成最终响应,这个过程显著提高了最终输出的准确性,但代价是延迟更高。 然而,Google 的回应方式完全不同。他们只是制作了一个更好的模型,消灭了 OpenAI 和 DeepSeek 最强大的推理模型。 我印象深刻。 1、DeepSeek R1 的隐藏问题…
2025-02-16 阅读全文 →
FWQ
AI教程
用小模型合成表格数据
合成数据生成解决了多个基本挑战:数据集中的类别不平衡、数据隐私要求、数据获取成本优化和实验周期加速。传统方法(如 SMOTE [1])通过在现有数据点之间进行插值来为少数类生成合成样本。之前的博客文章 [2] 对表格合成(数值)数据生成的生成方法进行了全面评估,包括生成对抗网络 (GAN)、变分自动编码器 (VAE)、高斯 Copula、贝叶斯网络和条件表格 GAN (CTGAN)。 这篇文章研究了利用小语言模型 (SLM) 生成合成表格数值数据的新方法。与之前的研究保持连续性,我们专注于单一表格数据,特别是分析来自 NASA 艾姆斯预测卓越中心的涡扇发动机退化模拟数据集 [3][4]。有关数据集特征和研究动机,读者可以参考之前的出版物。 该研究考察了四种关键方法: 具有领域特定约束的 SLM 微调 使用数值标记器和自定义损失函数进行高级微调 Transformer GAN 和条件 Transformer GAN 架构 语言模型…
2025-02-16 阅读全文 →
FWQ
AI教程
制作高质量的语音克隆数据集
重要提示:本指南仅供符合道德规范的使用。请确保你拥有用于数据集创建的任何媒体的必要权限,并遵守适用的法律和准则。使用 YouTube-DL 等工具时,我们建议下载和处理你拥有所有权的内容(例如您自己的录音),以尊重他人的知识产权。语音克隆技术应始终以负责任的方式使用,并承诺保护隐私并尊重个人。 随着提供配音和类似人类对话声音的 AI 应用程序的兴起,人们对构建自定义文本转语音模型的兴趣日益浓厚。许多开发人员和公司试图通过微调自己的模型来避免付费配音服务的成本。然而,创建高质量文本转语音系统的第一步也是最关键的一步是获取丰富、准备充分的数据集。本指南介绍了构建此类数据集的全面过程,重点是提取有效语音克隆所必需的清晰准确的声音样本。 作为我项目的中间步骤,我正在努力建立一个可以无缝执行每个步骤的自动化管道。本指南提供了有关创建高质量数据集的详细演练,涵盖了从视频下载到音频转录的所有内容。最后,我将讨论在此过程中遇到的一些挑战。 语音提取概述 此工作流程使用 YouTube-DL、FFMPEG、WhisperX 等工具来确保提取的音频符合高质量机器学习模型的要求。让我们深入了解每个步骤以及帮助您入门的必要命令。 1、下载音频源 第一步是从 CSV 文件中提供的 URL 列表中下载视频。 是一个简化此过程的命令行工具。它允许您下载高质量的视频并支持各种视频托管平台。 从 CSV 加载 URL:从 CSV 文件中提取 URL 列表。 运行 YouTube-DL:使用以下命令以最佳可用质量下载视频。…
2025-02-16 阅读全文 →
FWQ
AI教程
DeepSeek R1驱动的PDF解析
PDF 解析是许多应用程序的关键任务,尤其是在检索增强生成 (RAG) 系统中。每个人都想从 PDF 中提取结构化数据,但这非常困难。程序化解析通常会失败,因为它依赖于 PDF 的完美结构——这在现实世界的文档中很少见。非推理 LLM 可以提供帮助,但它们对于像这样的复杂任务并不总是可靠的。 因此我们需要推理模型。这些高级 LLM 承诺提供更好的性能,但它们有一个缺点:它们很昂贵。例如,OpenAI 的 o1 每 100 万个 token 的成本为 60 美元。 另一方面,DeepSeek 的新版本 R1 提供的推理模型每 100 万个…
2025-02-16 阅读全文 →
FWQ
AI教程
20个合成数据生成必备AI工具
我们目前正在经历的人工智能革命是可供挖掘和分析以获得见解的数据量激增的直接结果。 但是,从现实世界收集数据可能具有挑战性。存储和处理个人数据会带来隐私和安全挑战,而其他类型的数据可能成本高昂甚至危险。 那么为什么不生成与现实世界数据足够接近的人工数据,以便可以以时间、金钱和风险方面的一小部分成本用于许多相同的目的?这就是合成数据的前景——生成式AI正在迅速成为有价值工具的另一个领域。 以下是我对一些最有用、最有趣或最独特的生成式AI工具的总结,这些工具旨在创建合成数据,包括免费和付费工具。 1、Mostly AI 是领先的合成数据生成平台,特别擅长于生成具有真实分布的客户数据。它使用 AI 模型捕捉原始数据的复杂模式,从而生成合成数据,不仅保护隐私,还确保数据分析的准确性。Mostly AI 广泛应用于金融、保险、医疗等高度依赖数据隐私的行业。它支持多样的数据类型,并可以生成跨领域的复杂数据结构,是企业快速测试和模型开发的有力工具。 2、Gretel 提供一套综合的数据隐私工具,支持合成数据生成和数据增强。该平台易于集成,能快速生成高质量的合成数据集,同时保护敏感数据,适用于零售、金融、医疗等多个领域。Gretel 的 API 允许用户轻松集成到现有的数据管道中,并且支持生成文本、结构化和时序数据,增强了数据科学和开发流程中的隐私保护和分析能力。 3、Synthea 是一个专注于医疗保健行业的开源合成数据生成平台,模拟真实患者数据以用于研究和分析。它生成的合成数据涵盖人口、社会因素、慢性病等维度,能够真实地反映患者生命周期中的医疗事件。该平台支持开发和测试公共卫生应用,帮助研究人员、开发者和政府机构在不侵犯隐私的前提下有效利用健康数据。 4、Tonic 提供高质量的合成数据生成服务,帮助团队快速创建有代表性的数据集。Tonic 支持使用 Masking、Subsetting 和合成生成等方法构建与真实数据特征相似的数据,并能够灵活配置,适应多样化的应用场景。它支持复杂的数据库和多种数据源的合成生成,适合需要高隐私保护的测试和开发环境。 5、Faker 是一个轻量级的开源工具,用于生成各种形式的假数据,特别适用于开发和测试小型项目。它支持多语言数据生成和数据类型,能够快速生成姓名、地址、文本等。Faker 的简单 API 让开发者可以灵活生成小规模的数据集,以便进行单元测试和原型开发,是个人开发者和小型项目的数据伪造首选。…
2025-02-16 阅读全文 →