1,5-bit LLM op iPhone: Waarom Apples 'Hardwarebelasting' een Omzetpoort is, geen engineering-kwestie

Verdict: Een 7-miljard parameter LLM, gekrompen tot 1,58 bits per gewicht, past gemakkelijk in 1,2 GB RAM. Een iPhone 12 heeft 4 GB. De bottleneck die Apple aanvoert — “Apple Intelligence vereist een A17 Pro of nieuwer” — is in 2026 engineering-onzin.

Cijfers: BitNet b1.58 paper (Microsoft Research, 2024) → LLaMA-prestaties bij 1/8 van de modelgrootte. Recover-LoRA (juni 2026) → 2-bit quantisatie herstelt volledige nauwkeurigheid via low-rank fine-tuning. Hybrid Gated Flow (feb 2026) → identificeert de “Memory Wall” als de werkelijke beperking, niet de rekenkracht.

Apples zet: Blokkeer Apple Intelligence op de iPhone 15 en oudere modellen. Dwing meer dan 250 miljoen gebruikers tot een upgrade om de on-device Siri-ervaring te kunnen gebruiken.

Status: De hardwarepoort is een omzetpoort. De engineering is klaar. De implementatie niet.

De 30-seconden versie: wat is een “1,5-bit” LLM #

Wanneer een LLM op je telefoon draait, is elk “gewicht” — elke verbinding in het neurale netwerk — normaal gesproken een getal dat 16 bits (2 bytes) aan geheugen in beslag neemt. Een model met 7 miljard parameters, ter grootte van Meta’s LLaMA 2 7B, verbruikt ongeveer 14 GB bij 16-bit precisie. Dat is waarom cloud-AI ook echt cloud-AI is: geen enkele telefoon heeft 14 GB vrij voor één enkel model.

Quantisatie verkleint elk gewicht naar minder bits. Van 16-bit naar 8-bit halveert het geheugen (7 GB). 4-bit halveert het opnieuw (3,5 GB). 2-bit brengt het naar 1,75 GB. 1,58-bit, het BitNet b1.58-ontwerp van Microsoft Research [The Era of 1-bit LLMs], is het meest agressief: elk gewicht is één van drie waarden — min één, nul, of plus één. Elk gewicht neemt ongeveer 1,58 bits in beslag. Een 7B-model wordt dan 1,2 GB.

Dat getal van 1,2 GB is het hele verhaal. Een iPhone 12, uitgebracht in 2020, heeft 4 GB RAM. De iPhone 13, 14 en 15 van Apple hebben 4–8 GB. Geen van deze telefoons is computationeel uitgehongerd voor een model van 1,2 GB. Het geheugen is prima. De rekenkracht is prima. De Neural Engine is tussen de A14 en A17 niet drastisch verbeterd voor deze werklast — hij is incrementeel sneller geworden, niet categorisch beter in staat.

Wat het onderzoek zegt — in begrijpelijke taal #

Drie papers gepubliceerd in 2026 bevestigen dat 1,5-bit niet langer experimenteel is.

[Hybrid Gated Flow] (feb 2026) is de meest heldere verklaring van de engineering-realiteit: “De implementatie van Large Language Models (LLMs) op edge-apparaten wordt fundamenteel beperkt door de ‘Memory Wall’ — een hardwarebeperking waarbij geheugenbandbreedte, en niet rekenkracht, de bottleneck wordt.” Het paper laat vervolgens zien hoe je 1,58-bit LLM’s op edge-hardware kunt implementeren met selectieve low-rank correcties. Het werkt.

[Recover-LoRA] (juni 2026) pakt de historische zorg aan: wanneer je een model zo agressief verkleint, verlies je nauwkeurigheid. Het paper laat zien dat 2-bit quantisatie, gecombineerd met een kleine LoRA fine-tune na de compressie, de volledige nauwkeurigheid herstelt. De pipeline is: neem elk 7B-model → quantiseer naar 2-bit → voer een kleine LoRA-adapter fine-tune uit → verzend. Het nauwkeurigheidsprobleem is opgelost.

[Sparse-BitNet] (maart 2026) laat zien dat 1,58-bit modellen en sparsity (ijlheid) elkaar versterken — je kunt 2 van elke 4 gewichten op nul zetten en het 1,58-bit formaat comprimeert het model nog verder zonder hertraining. Een 7B Sparse-BitNet-model past in ongeveer 600 MB.

[BitNet Distillation] (okt 2025) biedt de productie-pipeline: een “lichtgewicht” tool die full-precision modellen zoals Qwen omzet naar 1,58-bit vorm. Apple gebruikt intern al Qwen en het Apple Foundation Model. Ze zouden deze conversie vandaag nog kunnen uitvoeren.

Buiten de academische wereld demonstreert [Litespark] (mei 2026) dat ternary neurale netwerken kunnen draaien op consumenten-CPU’s via aangepaste SIMD-kernels. [PD-Swap] (dec 2025) laat zien dat 1,58-bit Transformers kunnen draaien op edge FPGAs — chips met veel minder rekenkracht dan een iPhone Neural Engine. Als een FPGA van $20 (~18,40 €) het kan, dan kan een iPhone 12 het ook.

De hardwarepoort, in cijfers #

Apparaat	Chip	RAM	Neural Engine TOPS	Jaar	Apple Intelligence?
iPhone 11	A13	4 GB	6 TOPS	2019	Nee (iOS 18 verwijderd)
iPhone 12	A14	4 GB	11 TOPS	2020	Nee
iPhone 13	A15	4 GB	15,8 TOPS	2021	Nee
iPhone 14	A16	6 GB	17 TOPS	2022	Nee
iPhone 15	A16	6 GB	17 TOPS	2023	Nee
iPhone 15 Pro	A17 Pro	8 GB	35 TOPS	2023	Ja
iPhone 16	A18	8 GB	35 TOPS	2024	Ja
iPhone 16 Pro	A18 Pro	8 GB	35 TOPS	2024	Ja
iPhone 17 (gerucht)	A19	8–12 GB	~45 TOPS	2025	Ja

De grens wordt getrokken bij de A17 Pro. De 2× sprong in TOPS van de A16 (17) naar de A17 Pro (35) is reëel, maar niet categorisch. Beiden kunnen een model van 1,2 GB draaien. Het verschil tussen 8 GB en 6 GB RAM is relevant voor de KV-cache tijdens een lange context, maar de BitNet Sparse-variant (600 MB) laat meer dan 5 GB ruimte over op een iPhone 14 met 6 GB.

Waarom Apple dit toch doet #

Drie redenen, in volgorde van bedrijfsbelang:

Omzet. Ongeveer 250 miljoen iPhones zijn momenteel in gebruik met een A16-chip of ouder, gebaseerd op de gegevens van Apple en schattingen van analisten voor de cyclus 2025–2026. Als zelfs maar 10% van die gebruikers upgrade om te profiteren van Apple Intelligence — een functie waar ze al twee jaar over horen — dat zijn 25 miljoen eenheden met een gemiddelde verkoopprijs van $900 (~828 €), wat neerkomt op $22 miljard (~20,2 miljard €) aan hardware-omzet. De device-eligibility gate van iOS 27 is een hefboom van $22 miljard, verborgen achter een software-release.

Ecosysteem lock-in. Apple Intelligence integreert met Foto’s, Mail, Berichten, Notities en Siri. Zodra je het hebt op een iPhone 15 Pro, koop je een Mac met Apple Silicon om de ervaring voort te zetten, AirPods die naadloos koppelen, een Apple TV die dezelfde intelligentielaag draait. De hardwarepoort werkt ook als een versneller voor lock-in: gebruikers die deze overslaan, worden voor de komende 4–5 jaar uitgesloten van de AI-fase van het Apple-ecosysteem.

Controle over het AI-narratief. Apple wil niet dat gebruikers lokaal open-source 1,58-bit Qwen of LLaMA draaien — dat concurreert met Apple Intelligence, wat Apple (uiteindelijk) als een betaald abonnement verkoopt. De hardwarepoort houdt de “AI op iPhone”-ervaring Apple-gebrand en Apple-gecontroleerd. Dit is onderdeel van dezelfde Apple AI Safety walled-garden logica — hoe strakker de poort, hoe minder alternatieve AI-oppervlakken Apple hoeft te verdedigen.

Wat de “Memory Wall” echt betekent #

Het kader van het HGF-paper is hier essentieel. De “Memory Wall” is het gat tussen hoe snel CPU’s kunnen rekenen en hoe snel geheugen hen van data kan voorzien. Voor een 16-bit LLM is dit gat enorm: het model is te groot om de chip snel genoeg te voeden. Voor een 1,58-bit model stort dit gat in: 1,2 GB past binnen de LPDDR5-bandbreedte, de Neural Engine kan zichzelf blijven voeden, en de bottleneck wordt de latentie van de token-generatie, niet het geheugen.

De Neural Engine van de A14 kan een 1,58-bit model draaien. De A13, de chip in de iPhone 11, kan het ook draaien, zij het langzamer. Geheugenbandbreedte, en niet rekenkracht (TOPS), is wat de BitNet-familie ontsluit. En de iPhone 12 en nieuwer hebben de benodigde geheugenbandbreedte.

Het engineeringpad dat Apple vandaag zou kunnen leveren #

Stap	Wat	Waarom
1	Neem het Apple Foundation Model (3B params)	Al getraind, al geoptimaliseerd voor Apple-hardware
2	BitDistill naar 1,58-bit precisie	Modelgrootte van ~600 MB, past in 4 GB RAM met ruimte voor KV-cache
3	Voeg Sparse-BitNet pruning toe	Zakt naar 300 MB, past zelfs op een iPhone 11 met 3 GB
4	Recover-LoRA fine-tune op Apple Intelligence taken	Herstelt eventueel kwaliteitsverlies door quantisatie
5	Verzenden als iOS 26.5 update voor iPhone 12+	Back-port in plaats van een nieuwe hardware-eis

Dit is een engineeringproject van 4 maanden. Apple heeft de onderzoekers (het Apple Foundation Model-team heeft gepubliceerd over on-device inference), de hardware (elke iPhone 12 en nieuwer), en de softwarestack (Core ML ondersteunt al 1-bit en 2-bit gekwantiseerde modellen via mlpackage). De reden dat dit niet gebeurt is niet technisch. Het is commercieel — en de groeiende samenwerking tussen Apple en Anthropic op Project Glasswing en Mythos cybersecurity laat zien waar AI-rekenkracht die niet on-device is, naartoe moet stromen.

Wat dit betekent voor de iOS 27-cyclus #

De device-eligibility gate van iOS 27 zal worden gepresenteerd als een hardware-eis. Tijdens de keynote zal er worden gezegd dat Apple Intelligence “de Neural Engine in de A17 Pro nodig heeft” of iets dergelijks. De keynote zal technisch alleen verdedigbaar zijn voor de zwaarste Apple Intelligence-functies — on-device beeldgeneratie, complexe multi-step agentic flows en on-device vertaling tussen talen met zeer verschillende schriften.

Voor het grootste deel van Apple Intelligence — de onderdelen die Mail samenvatten, antwoorden in Berichten opstellen, Genmoji genereren, meldingen prioriteren, de herschreven Siri — is de hardwarepoort niet nodig. De 1,58-bit / 2-bit / Sparse-BitNet onderzoekstack bewijst dat. De keuze van Apple om deze functies af te schermen is een zakelijke beslissing, geen engineering-beslissing. De volledige iOS 27 device compatibility breakdown legt uit welke Apple Intelligence-functies de A17 Pro+ gate daadwerkelijk mogelijk maken.

De eerlijke inkadering #

Apple heeft de engineering. De iPhone 12, een zes jaar oud apparaat, kan Apple Intelligence draaien in 2026 als Apple besluit een gekwantiseerd model te leveren. De keuze om dit niet te doen is rationeel vanuit een omzetstandpunt, verdedigbaar vanuit een marketingstandpunt, en onbehoorlijk vanuit een engineering-communicatiestandpunt. Een omzetpoort een hardware-eis noemen, zonder te erkennen dat het 1,5-bit quantisatieonderzoek het overbodig heeft gemaakt, is een bewuste weglating.

De 250 miljoen iPhone-gebruikers op de A16 en ouder worden niet geblokkeerd door hun telefoons. Ze worden geblokkeerd door de P&L van Apple.

Bronnen #

|- BitNet b1.58 — The Era of 1-bit LLMs (Ma et al., 2024) — Fundamenteel paper van Microsoft Research. |- Hybrid Gated Flow — Stabilizing 1.58-bit LLMs via Selective Low-Rank Correction (Feb 2026) — Identificeert de Memory Wall als de echte rand-AI beperking. |- Recover-LoRA — Reclaiming Accuracy in 2-Bit Language Models (June 2026) — Engineering-oplossing voor 2-bit nauwkeurigheidsverlies. |- Sparse-BitNet — 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity (Mar 2026) — Gecombineerde compressie via pruning. |- BitNet Distillation — Lightweight Pipeline for 1.58-bit Fine-Tuning (Oct 2025) — Productie-klaar quantisatie-pipeline. |- Litespark — Custom SIMD Kernels for Ternary Networks on Consumer CPUs (May 2026) — Bewijs van 1,5-bit inference op consumentenhardware. |- PD-Swap — 1.58-bit Transformers on Edge FPGAs (Dec 2025) — Zelfs goedkopere hardware kan 1,58-bit draaien.

Lees ook #

|- iOS 27 Compatibility: iPhone 15 Pro and the Apple Intelligence Gate — Welke Apple Intelligence-functies hebben echt een A17 Pro nodig, en welke zijn kunstmatig afgeschermd. |- Apple + Anthropic Project Glasswing: Mythos Cybersecurity — Waarom Apple leunt op Anthropic voor AI-rekenkracht die niet on-device is. |- Apple AI Safety as a Walled Garden — Hoe de gesloten AI-houding op de iPhone overeenkomt met de logica die Apple Intelligence buiten bereik houdt van oudere apparaten. |- iOS 27 Security Paradox: Agentic Malware Meets the Hardware Gate — De agentic-malware dreiging die het argument voor on-device sandboxing genuanceerder maakt dan “stuur een gekwantiseerd model naar iedereen.”