Jianchang512的博客

2025-03-12发表2025-03-12更新AI知识2 分钟读完 (大约333个字)

OpenAI推出新Agent API

2025年3月11日，OpenAI推出新工具和API，帮开发者轻松打造实用AI代理。主要亮点：

响应API：融合聊天和工具功能，一次调用搞定复杂任务，支持网络搜索、文件搜索、电脑操作等，定价透明，推荐新项目用。
网络搜索工具：实时抓取答案带引用，适合购物、研究、旅行助手，准确率高达90%，费用每千次查询$25-$30。
文件搜索工具：从海量文档挖信息，支持多格式，适合客服、法律、编码，每千次查询$2.50，存储$0.10/GB/天。
电脑使用工具：AI模拟鼠标键盘自动化任务，像浏览器操作、数据录入，测试表现亮眼，但仅限部分开发者试用，需人工监督。
代理SDK：开源工具，简化多代理协作，适合客服、研究、代码审查等，兼容新API。

现有API调整：聊天API继续支持新模型，助手API功能并入响应API，2026年中淘汰。OpenAI目标是打造无缝平台，未来还会加码工具，助力AI代理提升各行生产力。

2025-03-08发表2025-03-11更新AI知识12 分钟读完 (大约1804个字)

大模型幻觉是什么？为什么会出现幻觉？

大型语言模型（LLM）为什么会“胡说八道”？我们该怎么办？

想必都用过像 DeepSeek 这样的智能聊天工具, 它们大多时候能聊得像真人一样流利，让人惊叹 AI 真聪明。不过，如果聊的多了，可能就会发现它们偶尔会一本正经地胡说八道。

比如，你问 chatglm3-6B这个有点过时的小模型 请解释量子引力理论在母猪产后护理方面的具体应用，并用通俗语言描述。

它可能会自信满满地解释一大堆，其实纯粹是胡说八道、信口开河，因为这个问题就是我胡扯出来的，压根没这回事。

而在较新的大模型Gemini-2.0-flash中，这个问题就不会胡说八道，而是直接点出 问题的错误

像chatglm3-6B这种“信口开河”的现象，在AI圈子里有个好玩的名字，叫“幻觉”。

这些幻觉有时挺逗，比如编个不存在的朝代；但有时候也麻烦，比如写代码时瞎编个函数，或者胡乱给出养生建议。

今天我们就来聊聊，为什么这些AI会“满嘴跑火车”，还有我们普通人能怎么让它们老实点，说真话。

什么是AI的“幻觉”？

简单说，AI的“幻觉”就是它瞎编乱造，但说得跟真的一样。

就像上面的这个例子，问题本身就是错误的，自然不可能有正确答案，但它不会老实说“我不知道”，而是硬着头皮编个答案，还说得头头是道。

和考试时没复习的小孩一样，硬着头皮瞎写，但语气特别自信。

为什么AI会“胡说八道”？

要搞懂AI为什么会这样，得先明白它是怎么工作的。

这些大型语言模型（比如ChatGPT、Deepseek）不是真的“知道”一堆事实，像个百科全书。

它们更像是一个超级厉害的“自动补全”工具。你打字时手机输入法会猜你下个词是什么，对吧？
AI也是这样，只不过它能猜出一整段话。它是靠读了无数文章、对话、网页后，学会了人类说话的套路，然后根据这些套路猜接下来该说什么。

想象一下，AI就像个特别会吹牛的朋友。它没真背过《三国演义》，但听过无数人聊三国，能模仿那种腔调。所以你问它问题时，它的目标不是给你“正确”答案，而是给个“听起来像那么回事”的答案。

如果它真知道答案（比如训练数据里见过很多次），那它答得八九不离十；但如果它没见过，或者数据里乱七八糟，它就只能靠猜了。

更搞笑的是，它猜错了也不会脸红心跳，照样说得理直气壮。

“幻觉”在哪儿会跳出来？

AI“胡说八道”的样子，取决于你拿它干啥。来看几个场景：

问答或聊天：你问它“唐朝的首都是啥？”它可能答对了“长安”；但如果问“大黎朝的首都是哪里？”它可能还是会一本正经地说“北京”(如下图Gemma2-2B的回答 )。
写代码：如果你用AI帮你写程序，它可能会编个看着挺像回事的代码，但运行不了。因为它学过很多代码，写出来的东西语法通常没错，但逻辑可能是胡扯。这也是现阶段AI还无法替换程序员的重要原因之一，不会写代码的人无法看出它是不是在胡说八道了。
写故事：如果是让你写个古代侠客的小说，AI可能中途突然冒出个高铁。这种“幻觉”不算错（毕竟小说要创意），但如果跑题太远，也挺让人头疼。

不管哪种情况，AI的“幻觉”都有个特点：说得特别有底气，但其实是瞎掰。所以用AI时得留个心眼，尤其是重要的事儿，不能全信它。

怎么让AI少“胡说八道”？

好消息是，AI虽然爱瞎编，但我们有办法让它老实点。接下来讲个简单招数，连普通人都能试试——“问对问题”。

用聪明的方式问问题

有时候，不是AI笨，是你问得不够清楚。这种技巧叫“提示工程”，听着高大上，其实就是教你怎么跟AI聊天，让它别乱来。

招数1：告诉它别瞎编
直接跟AI说：“你得说实话，不知道就说不知道，别乱猜！”比如你问：“《红楼梦》谁写的？如果不确定就说不知道。”这样AI可能会老实点，至少不会硬编个“莫言”出来。还能让它一步步解释：“你先想想，确定每步都对，再回答。”这样它自己推理时可能就发现漏洞了。
招数2：给它几个好榜样
AI爱模仿，你先给它几个靠谱的例子，它就知道该怎么答了。比如：
问：《西游记》谁写的？
答：吴承恩，明朝人写的。
问：长城有多长？
答：约2.1万公里。
问：茶叶最早哪来的？
答：中国，传说神农发现了茶。
然后再问你想知道的问题，它就会学着老实回答。这就像教小孩，先示范几次好的，再让他自己试。
招数3：定个规矩
如果能设置AI的“角色”，就告诉它：“你是老实助手，只能说真话，没证据别瞎讲。”这样它回答时会小心点。比如问淘宝退货政策时，加一句：“只按淘宝官方规则回答！”它就不敢随便乱编了。

这些招数都不用花钱，就是动动嘴皮子，多试几次，看看哪种说法管用。

AI爱学人，你给它定个“老实人”的调调，它就容易跟着走。

当然，这不是万能药，AI还是可能偷偷“胡说”，但至少能少点。

2025-03-07发表2025-03-11更新AI知识3 分钟读完 (大约405个字)

OpenAI ChatGPT 所有模型功能对比参考表

OpenAI ChatGPT 的模型一大堆，都有什么区别、应该如何选择？

特地整理了下，供参考。

模型	类型	账户类型				访问权限	附件			功能
		专业版	团队版	Plus版	免费版	英国/欧盟	图片	PDF	电子表格	画布	搜索	数据分析	DALL-E	自定义 GPTs	记忆
GPT-4o	聊天	无限制	160/3小时	80/3小时	有限		✅	✅	✅	✅	✅	✅	✅	✅	✅
GPT-4.5	聊天	无限制	❌	❌	❌		✅	✅	✅	✅	✅	✅	✅	✅	✅
GPT-4	聊天		80/3小时	40/3小时	❌		✅	✅	✅	✅	✅	✅	✅	✅	✅
GPT-4o-mini	聊天	无限制	无限制	无限制	无限制		✅	✅	✅	✅	✅	❌	❌	✅	✅
o1 pro mode	推理	无限制	❌	❌	❌		❌	❌	❌	❌	❌	❌	❌	❌	❌
o1	推理	无限制	50/周	50/周	❌		❌	❌	❌	❌	❌	❌	❌	❌	❌
o3-mini	推理	无限制	150/天	150/天	❌		❌	✅	✅	❌	❌	❌	❌	❌	❌
o1-high	推理	无限制	50/天	50/天	❌		❌	✅	✅	❌	❌	❌	❌	❌	❌
GPT-4o with tasks	代理	无限制	160/3小时	80/3小时	❌		❌	❌	❌	❌	❌	✅	❌	✅	✅
Deep Research Operator	代理	120/月	10/月	10/月	❌	仅限英国	✅	N/A	N/A	N/A	N/A	N/A	N/A	N/A	N/A
Voice	语音	高级无限制	高级 (60 分钟/天)	高级 (60 分钟/天)	标准 + 高级 (15 分钟/天)	✅	N/A	N/A	N/A	N/A	N/A	N/A	N/A	N/A	✅
Sora	视频	500/月, 1080p 20秒 + 无限制 720p 5秒	50/月, 720p 5秒 + 无限制	50/月, 720p 5秒 + 无限制	❌	✅	N/A	N/A	N/A	N/A	N/A	N/A	N/A	N/A	N/A

2025-03-07发表2025-03-11更新AI知识8 分钟读完 (大约1129个字)

QwQ-32B和Deepseek-r1应该用哪个

这两天，AI圈子里又热闹起来了。阿里通义千问团队推出了QwQ-32B，一个只有320亿参数的推理模型，却宣称能跟拥有6710亿参数的DeepSeek-R1掰手腕，甚至在某些测试中还超过了对方。

这消息一出，网上炸开了锅，有人惊呼“阿里牛逼”，有人却怀疑“32B真能打赢671B？”

智能程度：小身板也有大智慧？

先说说“聪明”这回事。QwQ-32B和DeepSeek-R1都是专攻推理的模型，也就是擅长解决数学题、写代码这种需要动脑筋的任务。

官方数据和社区测试显示，QwQ-32B在数学和编程等榜单上跟DeepSeek-R1成绩差不多，甚至在通用能力测试上略胜一筹。

这听起来很夸张，毕竟DeepSeek-R1参数是QwQ的20多倍，像个巨无霸，而QwQ只是个“小个子”。

但事实是，DeepSeek-R1是个“混合专家模型”（MoE），每次只用370亿参数干活，剩下的参数是备胎。所以实际差距没数字上那么大。

QwQ-32B靠的是强化学习（RL），简单说就是让模型自己试错、调整，像个自学成才的学生。这种方法让它在小身板里塞进了大智慧。

网上有帖子说，QwQ在数学和代码题上答得又快又准，而DeepSeek-R1偶尔会“想太多”，答案啰嗦甚至跑偏。不过，DeepSeek-R1在处理长文本和多语言任务时更有优势，因为它的知识库更厚实，QwQ在这方面略显单薄。

真实体验：用起来啥感觉？

实际用过的人怎么说呢？
有人拿QwQ-32B写文章，觉得比DeepSeek-R1更简洁流畅；
有人用DeepSeek-R1解数学题，觉得它思路清晰但速度慢。
有用户吐槽，DeepSeek-R1免费API有时卡得像乌龟，QwQ跑在消费级显卡（像RTX 4090）上却快得很，体验更顺滑。

这不奇怪，DeepSeek-R1太大了，本地跑需要顶级GPU集群，普通人只能靠云端API，而QwQ-32B硬件要求低，下载下来就能玩，社区还夸它“亲民”。

但也不是一边倒。有人反映，QwQ-32B在复杂对话或需要大量背景知识的任务上容易掉链子，比如问它历史问题，可能答得稀里糊涂。DeepSeek-R1在这方面更稳，毕竟“大脑”容量大，能记住更多东西。
所以，用哪个取决于你干啥：简单任务选QwQ，复杂需求靠DeepSeek。

各自优势：谁更适合你？

再来看看两者的强项。QwQ-32B最大的亮点是“性价比”。它开源（Apache 2.0协议），随便下随便改，还能跑在普通电脑上，对个人开发者或小公司简直是福音。而且它内置了“Agent能力”，能用工具、根据反馈调整，像个聪明助手。

DeepSeek-R1呢，虽然也开源（MIT协议），但671亿参数是个硬门槛，跑不动就只能用API。它的优势在“全面性”，数学、代码、聊天样样行，尤其适合需要深度推理的大项目。

从社区声音看，QwQ被吹成“小而美”的代表，有人甚至说它“重塑了开源AI格局”。DeepSeek-R1则更像“硬核玩家”的选择，网上有评论称它“便宜到离谱”（API价格是OpenAI o1的1/30）。

各有千秋，选对就好

总的来说，QwQ-32B和DeepSeek-R1都很牛，但风格不同。

QwQ-32B像个灵活的小个子选手，轻便高效，适合快速上手解决数学、代码问题；

DeepSeek-R1是个全能大块头，知识广但有点笨重，更适合专业场景。

要是你预算有限、硬件一般，又想玩AI，QwQ-32B是不二之选；
要是追求极致性能、不差钱，DeepSeek-R1更香。

2025-03-05发表2025-03-11更新AI知识7 分钟读完 (大约1007个字)

CPU vs GPU 为何AI大模型更看重GPU

AI大模型的训练和推理，听起来高大上，但说白了就是“算命”——只不过算的是数据，不是你的姻缘。

在AI领域，GPU（显卡芯片）比 CPU（中央处理器）更重要，更更重要的是只有英伟达GPU 才好使，而Intel和AMD就差的远。

GPU vs CPU：一个是打群架，一个是单挑王

想象一下，训练AI大模型就像搬砖。

CPU是那种“全能选手”，一个人能干很多活：计算、逻辑、管理不管多复杂都样样精通，但它核心数量少，最多也就几十个。
它搬砖的速度再快，一次最多也只能搬几个多说几十个，累死累活效率不高。

而GPU呢？它的核心多得吓人，动不动就几千上万个。虽然每个核心只能搬一块砖，但架不住人多啊！几千上万个小弟一起上，砖头哗啦啦就搬完了。

AI训练和推理，核心任务是“矩阵运算”——简单来说，就是一大堆数字排队做加减乘除，就像海量的一堆红砖等着搬，无需脑子有手就能干的简单活。

GPU的“大量核心并行”能力正好派上用场，能同时处理几千几万个小任务，速度比CPU快几十倍甚至上百倍。

CPU呢？它更适合串行复杂任务，比如玩个单机游戏、写个文档，AI这群砖头太多了，它一次几个几十个的搬，累瘫了也追不上GPU。

英伟达为啥独占鳌头？AMD和Intel哭晕在厕所

好，现在问题来了：GPU不是只有英伟达有啊，AMD和Intel也有显卡，为啥AI圈都舔着脸用英伟达的货？答案简单粗暴——英伟达不只是卖硬件，它还“绑架”了整个生态。

第一，软件生态无敌。英伟达有个杀手锏叫CUDA（一种编程平台），专门为它的GPU量身定制。AI工程师写代码训练模型，用CUDA就像开了挂，简单又高效。
AMD有自己的ROCm，Intel也有OneAPI，但这俩要么不够成熟，要么用起来像在解数学题，哪有CUDA这么顺手？

第二，先发优势+钱砸出来的市场。英伟达早早就押宝AI，十多年前就推CUDA，硬生生把AI研究员培养成了“英伟达信徒”。AMD和Intel呢？等反应过来，英伟达已经把AI的地盘占得死死的。现在想追？晚了。

第三，硬件也不是盖的。英伟达的GPU（比如A100、H100）专为AI优化，内存带宽高、计算力爆表，AMD和Intel的显卡虽然玩游戏挺香，但在AI任务上总差点意思。打个比方，英伟达是“AI搬砖专用挖掘机”，AMD和Intel还是“家用小铲子”，效率差太远。

钱多人傻的AI圈

所以，GPU完胜CPU是因为“人多力量大”，英伟达称霸则是“硬件+软件+先见之明”的组合拳。

AMD和Intel也不是没机会，但得加把劲，不然只能看着英伟达继续数钱数到手抽筋。

AI这行，烧钱是日常，选英伟达的GPU就像买了个“作弊码”，贵是贵，但赢在起跑线。你说搞笑不搞笑？AI拯救世界之前，先救了英伟达的股价！