作者文章

fwq

FWQ
AI教程
LLM驱动的新闻分类和趋势检测
本文档记录了 在其资助的 研究项目中所做的部分贡献。该项目由* 资助。 为了在这个高度竞争的环境中不仅保持竞争力,而且找到新的竞争优势机会,公司强烈激励尽早发现相关的新兴主题和趋势,以制定适当的未来应对策略。[ ] 1、新闻分类和自然语言处理介绍 在商业智能的应用中,新闻文章是获取相关和及时信息的重要来源。自然语言处理(NLP)和文本挖掘方法可以用来分析这些数据并提取相关信息。例如,新闻文章可以用来衡量公众情绪——参见我的。 NLP方法还可以帮助分析师更有效地探索大量新闻文章,通过检测事件和趋势[],或总结关键点[]。 去除无关结果如假新闻[]也可以减少数据洪流。相反,如果有一个系统能够帮助他们专注于最相关的新闻,分析师将从中受益匪浅。 一种识别最有可能包含相关信息的文章的方法是自动新闻分类。特别是那些希望收集信息来制定创新战略的技术和趋势侦察员,对属于以下一个或多个类别的新闻特别感兴趣,我们也可以把这些类别称为类型: 市场研究报告提供对特定行业或市场环境的深入分析,包括竞争动态评估、趋势预测和机会。示例: 初创企业新闻涵盖新技术公司、风险投资资金、初创企业的新产品和服务、初创加速器和孵化器以及初创成功和失败的故事。示例: 业务关系、合作伙伴关系和并购新闻关注公司之间的战略联盟、合资企业和公司收购。这些故事提供了关于竞争格局可能如何变化以及可能出现哪些新协同作用或能力的见解。示例: 消费者和产品新闻包括对新技术产品的评论和公告、主要产品展会和展览的报道以及客户最感兴趣的特性和设计的见解。示例: 法律新闻报道影响技术和业务的新立法、法规、政府政策、诉讼和知识产权问题。示例: 一种简单的自动化新闻分类技术是关键词搜索。例如,我们可以预期一篇包含关键词“初创企业”、“风险资本”或“天使投资者”的新闻文章是一篇属于初创企业新闻类别的文章。 本报告的目标是比较传统关键词搜索在新闻分类方面的性能(准确性及运行时间)与最先进的机器学习方法。 2、趋势信号检测 除了上一节列出的新闻类别外,我们还希望检测趋势信号,我们将这些理解为描述事件、声明事实或反映意见的新闻文章,这些都指向潜在的重大变化,即创新和技术领域的变革。换句话说,趋势信号可以理解为新兴趋势的先兆。 趋势信号的新闻类别非常广泛,可能涉及以下任何子类别。其中一些子类别可能与其他定义的新闻类别有较大的重叠。 1. 科学与技术 1a. 新材料或方法。 讨论新型制造技术的发展和发布以及能改善产品、服务或技术的新材料的新闻文章。示例: 1b. 效率或效果的进步。…
2025-02-16 阅读全文 →
FWQ
AI教程
字节跳动GOKU视频生成模型
字节跳动推出了 Goku,这是一种专为高质量视频生成而设计的高级 AI 模型。通过利用文本到视频和图像到视频的合成,Goku 重新定义了 AI 驱动的内容创作并突破了创意界限。 1、Goku 的工作原理 Goku 是一种基于流的视频生成模型,由 Rectified Flow Transformer (RFT) 提供支持,可提高质量和效率。它逐步细化图像和视频帧,确保流畅的运动过渡和高视觉保真度。该过程从以文本或图像形式输入开始,然后将其转换为结构化表示。通过整流流动力学,帧插值得到增强,从而降低噪音并确保连续性。最后,AI 合成具有无缝过渡的连贯视频序列。 2、Goku 背后的技术 Goku 的核心是一套尖端的 AI 技术。整流流变换器 (RFT) 在保持质量的同时最大限度地减少了计算开销,神经渲染确保了帧之间的逼真运动和流畅过渡。借助基于变换器的架构,Goku 可以有效地对视频序列中的时间依赖性进行建模,而其多模态 AI 功能可实现无缝的文本到视频和图像到视频的合成。…
2025-02-16 阅读全文 →
FWQ
AI教程
在.Net应用中集成DeepSeek-R1
DeepSeek R1 模型最近引起了广泛关注。我们被问到的一个问题是:“我可以在我的 .NET 应用程序中使用 DeepSeek 吗?”答案是肯定的!我将引导你了解如何在 GitHub Models 上将与 DeepSeek R1 结合使用,以便你今天就可以开始尝试使用 R1 模型。 1、MEAI 让使用 AI 服务变得简单 MEAI 库提供了一组统一的抽象和中间件,以简化 AI 服务与 .NET 应用程序中的集成。 换句话说,如果你使用 MEAI 开发应用程序,无论决定在幕后使用哪种模型,你的代码都将使用相同的…
2025-02-16 阅读全文 →
FWQ
AI教程
6个最好用的LLM应用开发框架
人工智能正在占领当今的技术世界。每个人都需要将人工智能集成到他们的业务中,开发人工智能应用等。我不是来解释什么是人工智能、它的子领域或什么是LLM——这些废话。让我们直接进入主题。我的话题是生成式人工智能和代理式人工智能,特别是LLM和多代理系统(MAS)。在开发LLM应用和MAS时,我们需要验证LLM输出,监控我们的代理,并与各种工具和服务集成。我将分享一些用于构建这类应用的有用工具和库。大家都知道和。因此,我不会再次谈论这两个框架。 1. Instructor 用于从LLM获取结构化输出(类型安全)。它基于Pydantic构建。该库支持流式响应,并且可以在Python、TypeScript、Go、Ruby和Elixir中使用。此外,它可以与许多LLM一起使用,包括自托管模型。您可以简单地定义一个Pydantic模型作为响应模型,并使用Instructor获取所需的输出。Instructor还支持Jinja模板,允许您创建动态提示。此外,它还可以与LogFire结合使用以监控应用性能。在他们的中,您可以找到如何使用Instructor的许多示例。 2. Composio 当构建AI代理时,我们需要增强其功能的工具。是一个很好的选择——一个为AI代理提供的集成平台,提供对超过250个工具的访问。它允许与GitHub、Jira、Salesforce、Gmail、Shopify等服务无缝集成。Composio支持多种框架,包括LangChain、LlamaIndex、CrewAI、AutoGen和LangGraph,同时保持LLM无关性。它还提供了OAuth和JWT等身份验证机制。此外,Composio通过内置触发器实现自动动作执行,使AI工作流更加高效和自动化。提供免费和付费计划。 3. AgentOps 在开发AI代理时,监控其性能、跟踪令牌使用情况并测量响应时间至关重要。是一个可观测性平台,使您能够有效地监控、调试、测试、审计和部署您的AI代理。它支持多种代理框架,包括CrewAI、LlamaIndex、LangChain和AutoGPT,以及多种LLM。AgentOps帮助跟踪令牌使用情况,监控成本,并提供清晰的可视化以获得更好的洞察力。非常易于使用。只需两行代码,您就可以将AgentOps添加到您的应用中。它具有用户友好的界面,并提供免费和付费版本。还有类似的可观测性工具,如LangFuse、LangTrace等。 4. Parlant 允许您创建和控制AI代理的行为以满足您的需求。您可以为每个代理定义独特的指南,指定它们在不同情况下如何行动,设置自定义词汇表,并创建基于上下文的变量来存储数据。如果您正在为客户服务等任务构建AI代理,Parlant值得考虑。该框架还支持工具调用代理,提供对第三方服务和API的访问。Parlant采用事件驱动模型,而不是传统的请求/响应模型。这种方法使对话感觉更自然,允许代理随时响应。安全性也是Parlant的一个强项。它使用Lakera Guard进行越狱保护。虽然Parlant有一个小但不断增长的社区,但其能力使其成为AI驱动交互的坚实选择。有一个缺点:您不能更改LLM提供商。但是,您不能选择使用哪个模型。您必须使用Parlant开发者选定的模型。但他们将在不久的将来加入更改模型版本的功能。 5. LM Studio 让您能够在本地运行LLM,并支持各种LLM。这类似于Ollama。但有一些差异。LM Studio带有GUI。您可以在UI中探索模型。此外,LM Studio包含内置聊天功能,并允许您一键启动服务器。LM Studio适用于Windows、Linux和Mac OS。该工具可以分析您的PC规格并推荐最合适的量化版本的模型。CrewAI也支持LM Studio。 6. LangFlow 是一款开源的低代码工具,旨在简化RAG应用、AI代理和可以与任何API、模型或数据库交互的工作流的开发。它提供了一个易于使用的GUI,带有拖放组件,允许您毫不费力地构建LLM应用。LangFlow既可以在本地也可以在云中使用。它支持与LangSmith、LangFuse和LangWatch等可观测性工具的集成,帮助您监控应用。LangFlow还支持许多工具,可以将您的应用连接到Google Drive、FireCrawl、Confluence、Serper等有用的第三方服务。为了使入门更容易,LangFlow包括预建模板,允许您快速设置并启动您的应用。 7、结束语…
2025-02-16 阅读全文 →
FWQ
AI教程
VPTQ低位LLM量化算法
LLM 低位量化的最新发展,例如 AQLM 和 AutoRound,现在在下游任务中显示出可接受的退化水平,尤其是对于大型模型。 话虽如此,2 位量化在大多数情况下仍会导致明显的准确性损失。 一种很有前途的低位量化算法是微软提出的 (MIT 许可证)。它于 2024 年 10 月推出,此后在量化大型模型方面表现出色,效率极高。 在本文中,我们将: 回顾 VPTQ 量化算法 演示如何使用 VPTQ 模型,其中许多模型已经可用。例如,我们可以轻松找到 Llama 3.3 70B、Llama 3.1 405B 和 Qwen2.5…
2025-02-16 阅读全文 →
FWQ
AI教程
11个开发人员必备AI聊天界面
Google 正在变老,开发人员现在正在使用现代 AI 聊天工具来完成所有编程任务。 这是 11 个具有最佳 AI 聊天界面的开源项目的列表,可帮助你最大限度地提高工作效率。 让我们开始吧。 1、LLMChat – 最直观的一体化 AI 聊天界面 我已经测试了所有工具,我相信是最好的工具之一。 我特别喜欢这个,因为用户界面看起来很干净。 我甚至不需要教程就可以理解大多数东西。 让我们看看一些使其功能强大 10 倍的功能。 支持各种语言模型,包括 GPT 4o Mini、Ollama、Claude、Groq 和 lm studio(即将推出)。您也可以根据需要使用本地模型。如果您刚刚开始使用,他们会提供自己的免费模型。…
2025-02-16 阅读全文 →
FWQ
AI教程
DeepSeek R1架构和训练过程图解
如果你对 AI 感兴趣,可能听说过 DeepSeek R1。它目前在 LLM 领域很流行,并且表现优于开源和闭源模型。 为了让一切变得简单,我们将使用手绘流程图和简单的计算来帮助从头开始澄清DeeoSeek-R1的核心概念。 事实上,我们将在整个博客中使用字符串 2 + 3 * 4 等于多少?作为示例,引导你了解 DeepSeek 技术报告的每个组成部分。 1、快速概览 因此,在介绍技术细节之前,快速概览一下:DeepSeek-R1 不是从头开始训练的,就像从无到有一样。相反,他们从一个非常聪明的 LLM 开始,他们已经有了 DeepSeek-V3,但他们想让它成为推理超级明星。 DeepSeek 实施快速概览 为此,他们使用了强化学习(简称 RL),当 LLM…
2025-02-16 阅读全文 →
FWQ
AI教程
AI开发必备的3个DSPy技巧
DSPy 是我的首选框架,因为它简单且设计周到。我使用它做了很多事情,从构建 MVP 到扩展系统以处理数百万个请求。虽然 DSPy 和 AI 编程仍在不断发展,但找到清晰、可用于生产的指导可能很困难。 在这篇博客中,我分享了我所学到的东西——从实践经验到文档和 GitHub 讨论中的见解。这是一本实用指南,里面充满了使用 DSPy 的可行技巧。 1、可靠的输出 对于使用 LLM 的开发人员来说,最大的挑战是实现结构化和一致的输出。让你的代理工作是一回事,但确保 95% 以上的可靠性是另一回事。最终用户每次都希望获得良好的结果 — 他们不在乎 LLM 是否容易出现幻觉、不一致或偶尔出现不稳定行为。 虽然有些问题(如 API 提供商中断)超出了你的控制范围,但你可以在自己这边解决许多问题。使用 DSPy,你可以使用断言和建议来指导你的程序获得更好的输出并提高可靠性。这些工具还有助于捕获不良结果并实施自动重试机制以确保高质量的响应。 如何使用…
2025-02-16 阅读全文 →
FWQ
AI教程
DeepSeek R1-Zero & R1分析
我们还没有 AGI,创新仍然受到限制——扩大纯 LLM 预训练并不是出路,尽管这是去年夏天人工智能行业的主流叙事和主流公众观点。 叙事之所以重要,是因为它们最终会推动经济活动,如投资、研究重点、资金、地缘政治、贸易等。例如,在 2023-24 年,新 LLM 初创公司的投资约为 200 亿美元,而新 AGI 初创公司的投资仅为约 2 亿美元。 我们于去年 6 月推出了 ARC Prize 2024,以提高人们对 LLM 扩展限制的认识,并推动一个有用的基准 ARC-AGI-1 朝着新的方向发展,即要求 AI 系统适应新的、看不见的问题,而不是严格依赖记忆。 1、DeepSeek…
2025-02-16 阅读全文 →
FWQ
AI教程
用GRPO算法训练医疗AI模型
大型语言模型(LLMs)与医疗保健的交叉点带来了令人兴奋的机会,但也带来了独特的挑战。在本教程中,我们将探讨如何使用分组相对策略优化(GRPO)——一种最近由DeepSeek团队引入的有前途的新强化学习技术——来适应阿里巴巴的Qwen-3B模型以用于医学推理。 为什么这很重要: 患者安全第一:医学AI中的幻觉可能是危险的。 领域专业化:通用LLMs难以处理临床推理。 效率:我们的3B参数模型可以在消费级GPU上运行。 推理模型如O3和DeepSeek R1在许多具有挑战性的基准测试中显示了前所未有的改进。它们改变了监督微调的趋势,转向实际的强化学习(RL)。我们在深度学习领域的许多突破都来自RL,例如AlphaGo,因为模型能够通过与不同的现实场景互动来学习,而这些场景在监督微调中往往难以提供示例。 DeepSeek R1在几个关键基准上的表现 。 如果你想了解更多关于推理模型或更多历史细节,我强烈推荐Maarten的文章。DeepSeek工作的美妙之处在于他们实现了一个实用的框架,用于使用GRPO对LLM进行微调。根据Maarten的文章: 这个算法背后的直觉是,它使所有导致正确或错误答案的选择更可能或更不可能。这些选择可以是令牌集也可以是推理步骤。 正如下面的图片所示:目标是激励模型生成响应,使其在正确的*和*块中以及我们能够轻松验证的最终正确答案中都能产生良好的结果(如数学问题)。 DeepSeek-R1-Zero使用的RL管道 好了,背景知识就到这里,让我们开始动手吧。本文使用的代码作为提供,你可以轻松地使用T4免费资源运行。 1、安装Unsloth和TRL 开源软件已经取得了很大进展——在这个教程中,我们将使用两个出色的开源库: : 一个帮助我们从GPU中尽可能多地提取内存并提高训练性能的库。 : 来自Hugging Face的一个开源库,帮助我们实现GRPO。 我们还将使用Qlora技术,帮助我们以更高效的方式微调模型。如果你想了解更多关于Qlora的信息,我强烈推荐Sebastian的文章。 !pip install unsloth vllm #…
2025-02-16 阅读全文 →