K体育(中国)官网入口 DeepSeek塞进苹果本儿, 分币不花竣事“龙虾目田”


在agent期间最贵的是什么?是token。
一些重度agent使用者,一个月用掉几亿token,账单小几万块钱亦然常有的事。
关联词当今启动,有这样一个开导者他开源了一个腹地有谋划,一台苹果条记本就能部署,也即是说,你从此竣事了“龙虾目田”,跑再多任务,也不会再为token付出一分钱了。最要害的是,他用的照旧DeeSeek V4 Falsh。
几天前,antirez在GitHub上发布了一个面容,叫ds4。
这是一个专门为DeepSeek V4 Flash写的推理引擎。一共几千行C代码,不错让DeepSeek V4 Flash这个模子在128G内存的苹果电脑上跑起来。
开导者antirez,真名Salvatore Sanfilippo,是意大利标准员,同期他亦然开源数据库Redis的原作家。Redis自后成为全球互联网基础设施里最常用的内存数据库之一。
往好的方面去念念,DeepSeek影响力富有大,眩惑到了圈内顶流的标准员,但是坏的方面是,DeepSeek这回真实免费了。
任何开导者齐不错用ds4,去把DeepSeek V4 Flash装进我方的MacBook Pro里,腹地跑代码、腹地读高下文、腹地作念agent任务,而这一切的一切,不需要给DeepSeek付1分钱。
自然DeepSeek V4 Flash自己开源,可FP16精度的原始模子要吃掉284G内存,显存需求更是高达160G。
因此,念念运行它,你至少得有两张英伟达A100 80GB、一条512GB DDR5 ECC内存,以及一个4TB NVMe SSD。总资本50万东说念主民币。
而当今,一台3万块钱的MacBook Pro就能跑。
那antirez为什么偏巧选中DeepSeek V4 Flash呢?
原因是DeepSeek最合乎被“塞进腹地电脑”。
它有284B总参数,富有大;但每次推理只激活13B参数,又不像传统大模子那样千里重。
它相沿100万token高下文,合乎编程助手这种长任务;同期KV cache压缩得富有狠,给腹地内存和SSD留住了操作空间。
DeepSeek V4 Flash刚好站在了这样一个神奇的均衡点上,既大到值得折腾,又小到能被塞进苹果条记本里。

YC的CEO Garry Tan在X上转了这条音讯,只打了一瞥字:正不才载……100万token高下文窗口,可用的编程助手才略,全在一台128GB的MacBook Pro上,太放纵了。
01
ds4究竟是什么?
先说论断,ds4不是一个模子,它是一台“专用发动机”。DeepSeek V4 Flash是车,苹果电脑是路,ds4讲求把这辆正本更合乎跑在云霄的大车,改到腹地机器上能跑、能接API、还能被coding agent调用。

畴前大家念念在我方电脑上跑大模子,深广用的齐是llama.cpp这个器具。它的平允是什么模子齐能跑,Llama、Qwen、DeepSeek实足相沿。
可问题即是,什么齐能跑,就意味着什么齐跑不到最快。为了眷注系数模子,llama.cpp必须作念许多和洽,性能上不可能作念到极致。
antirez的念念法只怕违抗,他才无论别的模子存一火,他就专门伺候DeepSeek V4 Flash这一个,把它优化到极限。
他一共作念了3件事。
第一件事,是分离称的2-bit量化。
DeepSeek V4 Flash的架构是MoE(Mixture of Experts),284B总参数里,每次推理只激活13B,这13B是路由挑出来的多少个众人子网罗。
就像一个器具箱里有284把器具,每次只拿出13把来用。这284B内部,有一大堆“备选众人”占了90%以上的空间,但它们不是每次齐用,仅仅候补。
antirez的作念法是,只对这批routed experts作念激进的2-bit量化,up和gate矩阵用IQ2_XXS,down矩阵用Q2_K,而模子里所谈判键旅途上的组件,包括shared experts、projections、routing网罗,沿途保持原始精度不动。
也即是说,antirez把这些“候补众人”狠狠压缩,压到只剩原来1/4的大小,但那些每次齐要用的中枢组件,一丝齐不动,保持原样。
这是一种分离称的压缩战略,砍掉体积大头,保住质地命根子。
第二件事,是把KV Cache搬到SSD上。
DeepSeek V4 Flash相沿100万token的高下文,这越过于你不错把一整本演义扔给它,它能全记取。
但这样长的高下文,意味着AI在职责时要按捺地回头翻看前边的内容。为了让这个“回头翻看”的作为不至于慢到卡死,AI需要把这些内容暂存在一个叫“缓存”的方位,便捷随时调用。
以前的作念法是把这个缓存放在内存里。内存速率快,AI每次生成一个字齐要一样查这个缓存,是以必须放内存。
但问题是,如果让128GB内存的MacBook Pro跑DeepSeek-V4 Flash,光缓存就能把内存吃光,模子自己齐没方位放了。
是以antirez的作念法是径直把缓存扔到硬盘(SSD)上。ds4把一部分KV现象作念成可落盘、可还原的缓存,让长教唆词和agent反复续写时,无须每次从新处治。
这听起来有点离谱,因为硬盘比内存慢多了。
关联词当代Mac SSD富有快,合乎作念KV缓存永久化和还原。加上DeepSeek V4 Flash自己对缓存作念过压缩,读写量不大,是以硬盘完全顶得住。
收尾即是内存省出来了,100万token的超长对话真实在一台MacBook上跑起来了。
不外这不等于128GB MacBook不错毫无压力地把100万token沿途拉满。
按照ds4我方的阐述,2-bit模子自己如故要占掉简易80GB级别的内存,信得过正常使用时,100k到300k高下文会更本质一丝。
第三件事,是纯Metal原生旅途。
antirez把系数优化齐押在苹果电脑的GPU上。
因此他专门为苹果芯片写了一套代码,让DeepSeek V4 Flash能在苹果电脑上跑得速即。
至于CPU,并不是这个项主见要点。README里也写得很直白,CPU格式咫尺还不矫健,致使可能触发系统崩溃。antirez进一步示意,K体育(中国)2026世界杯官方IOS|Android手机app下载如果有东说念主真念念走这条路,后续大要还得靠社区来拯救。
在M3 Max 128GB的MacBook Pro上,实测速率是每秒能生成26个字傍边。M3 Ultra 512GB的Mac Studio上能跑到每秒36个字。
不算快,但写代码、调试这些正常职责完全够用。
更独特道理味的是,antirez是独自一东说念主通过GPT-5.5完成的通盘这个面容。
02
利好DeepSeek
字据外媒报说念,DeepSeek咫尺正在寻求高达73.5亿好意思元的融资,梁文锋当今就处在这个要害的转机点上,用买卖叙事取代DeepSeek过往的期间叙事。
那投资东说念主看什么?不仅仅看模子跑分,不仅仅看API调用量,更看生态位和不可替代性。
一个国际著名开导大佬,欢畅为你的模子写专用引擎,这自己就阐述DeepSeek在国际有着一定的生态地位。
畴前一年,中国开源模子的出海叙事里,主流揣摸模范是benchmark,MMLU、HumanEval、SWE-bench,一串又一串的数字。
但有东说念主欢畅围绕你作念二次工程,才代表你的模子被认同了。Anthropic用千问作念实验,Cursor蒸馏Kimi,这种认同比分数更值钱。
antirez不是AI圈里那种什么新模子齐要试一遍的博主
他选一个模子,然后还要花几周的时候去写专用推理引擎、作念特制量化、搭HTTP办事层、作念agent集成测试,显然是他认为DeepSeek值得。
这就变越过于,一个有信誉的第三方,在用我方的时候和名声给DeepSeek-V4背书。
说到国产模子出海,咫尺我能念念到的路有两条。
一条是API被调用。你提供办事,别东说念主付费使用,你是service provider,客户是consumer。
这条路很径直,也很本质,别东说念主不错随时切换,你时时刻刻齐得抗争你的竞品,从性能到价钱。
皇冠app(中国)官网入口另一条是模子被阅兵。有东说念主把你的权重拿走,作念量化、作念蒸馏、作念专用runtime、作念腹地部署、作念agent器具链。在这条路里,你的模子成了材料。
材料和办事的区别在于,材料会被镶嵌到别东说念主的器具链里,然后就很难被换掉了。
举个例子,某个开导者把ds4集成到我方的coding agent里,写了一堆建树文献、调试剧本、自动化历程。他的团队成员也齐民俗了这套器具,公司的代码库里到处齐是基于DeepSeek腹地推理的调用。
这时候如果要换成别的模子,就不是“改个API key”那么浅近了,而是要从新适配引擎、重写剧本、从新培训团队民俗。资本太高,大要率就不换了。
这即是“被镶嵌”的粘性。
ds4把DeepSeek V4 Flash嵌进了Metal原生腹地推理这个场景。规则发稿,Hugging Face上antirez阿谁deepseek-v4-gguf仓库,就如故有25000次下载了。

每一次下载,齐意味着有东说念主在我方的机器上跑起了DeepSeek,粘性也就这样一丝一丝的建设起来了。
更值得忽闪的是连锁效应。
Hacker News上有这样一条高赞挑剔,他说如果以后针对精准的GPU加模子组合构建超优化推理引擎会奈何?GPU越来越贵,概括层去掉得越多,优化空间就越大。
这个标的一朝被考证,意味着每一代有重量的开源模子发布时,齐会有东说念主跳出来给它作念专属引擎、专属量化、专属agent接入。
越过于是每一代模子齐应该有一个我方的“antirez”,开导出一个我方的“ds4”。
DeepSeek V4 Flash只怕踩在了这个开头上。
如果这套逻辑缔造,那么后续每个V4 Flash的小版块迭代,齐会自然地被镶嵌到这个“一代模子配一个专用引擎”的轮回里。
梁文锋成了第一个吃螃蟹的东说念主。
DeepSeek也从一个模子品牌,形成国际开导者手里的基础设施材料。
关于现阶段的DeepSeek来说,这种“升维”越过垂危。
03
塞翁失马
讲完毕利好,必须讲另一面。
咫尺来看,DeepSeek的中枢买卖化旅途是API。开导者调用,按token付费,薄利多销。
这是DeepSeek最擅长的叮嘱。
但ds4这种面容,内容上是在“劝退”一部分API用户。
你不错这样来结识,一个寂然开导者或者小团队,畴前用Claude Code或者DeepSeek的API跑coding agent。coding agent是高token浮滥场景,长高下文、多轮对话、一样器具调用、反复重试。
按token计费的话,一个重度agent的开导者每个月可能要花几千块钱的token用度。
关联词当今他眼前出现了另一个选项。
花几万块钱买一台128GB的MacBook Pro,然后跑ds4。
前期插足一次,之后推理莫得边缘资本,数据不出腹地,蔓延完全可控。
外网论坛上有个开导者共享了他的活动:正常写代码、改bug这些浅近任务,全扔给腹地的ds4跑,不费钱。只消遭受复杂的架构想象问题,才切换到云霄的DeepSeek V4-Pro或者Claude Opus。
高token浮滥的部分被腹地化了,只无聊少高价值调用还留在云霄。
越过于一分钱莫得给到DeepSeek,却在绝大大齐时候齐在使用DeepSeek。
同期,antirez接纳的量化活动亦然有“坑”的。
即使是分离称量化战略,只压MoE众人不压要害旅途,也不可能完全莫得质地赔本。
外网论坛上如故有东说念主发出了测试收尾,ds4腹地量化版块在超2000行代码的文献里偶尔丢失变量作用域,幻觉略多,MoE路由层对量化噪声尤其明锐。
这就引出了另一个更忙绿的问题,叫作念体验讲明权。
就像DeepSeek办事器崩了,我不知说念是为什么崩的,我只会以为是DeepSeek不行。
用户调用DeepSeek官方API,如果成果不好,他大要率会认为是DeepSeek我方的问题。但用户在腹地跑ds4时,濒临的是2-bit量化、Metal runtime、SSD KV cache、高下文截断、agent建树等一整套变量。
这内部任何一个标准出问题,临了往往被归因到“DeepSeek不行”。
别东说念主帮你扩散模子,但他并不会帮你去爱戴口碑,主若是东说念主家也没这义务。
更深一层看,“成为材料”和“成为平台”是完全不同的两件事,梁文锋更念念要的是后者,但是ds4却让DeepSeek成为了前者。
材料只会被镶嵌别东说念主的器具链,不成为DeepSeek提供买卖闭环,只消平台才掌持分发、计费、账户、数据、开导者相关和升级节律。
DeepSeek如果仅仅提供权重,被antirez、Cursor、各式腹地agent和第三方runtime拿去阅兵,它自然获取了名声。不外信得过能留住用户的东说念主,可能是那些器具链的开导者。
这即是开源模子的悖论。
模子越告捷,越容易成为别东说念主的底层才略;但底层才略如果莫得收拢开导者的进口,就有可能被表层居品吃掉大部分买卖价值。
是以ds4对DeepSeek不是浅近的好音讯,也不是坏音讯。
不错详情的是K体育(中国)官网入口,关于DeepSeek来说,他们又有故事不错讲给投资东说念主听了。