Local Coding dengan Qwen3-Coder-Next + Claude Code

🖥️ Lenovo ThinkStation PGX

Banyak developer menjalankan LLM lokal lewat Ollama atau Open WebUI. Secara fungsional berjalan. Secara produktivitas sering mentok di autocomplete ringan.

Lonjakan performa terasa ketika Qwen3-Coder-Next dijalankan lokal dan dihubungkan ke Claude Code. Kombinasi tersebut mendekati pengalaman coding assistant berbasis cloud, namun seluruh proses berjalan di mesin sendiri.

Perangkat Keras Menjadi Penentu

Workstation yang digunakan berbasis arsitektur NVIDIA GB10 Grace Blackwell Superchip.

Spesifikasi kunci:

128GB unified LPDDR5x
CPU dan GPU berbagi memori fisik
Tanpa bottleneck PCIe khas GPU discrete

Model memiliki:

80B parameter total
Mixture of Experts ultra-sparse
±3B parameter aktif per token

Dengan quantization Q4_K_M ukuran model sekitar 46GB.

Dengan Q8_0 penggunaan memori dapat mendekati 85GB dan masih menyisakan ruang besar untuk context window.

Karena unified memory, seluruh 128GB dapat diakses GPU tanpa perlu memindahkan tensor lintas bus PCIe. Pada sistem GPU discrete, model harus sepenuhnya masuk VRAM atau performa anjlok saat spill ke RAM.

Arsitektur Model dan Context Besar

Qwen3-Coder-Next dirancang untuk workflow agentic coding:

Multi-step planning
Tool calling
File editing
Recovery saat error

Attention menggunakan skema Gated DeltaNet hybrid 3:1:

75 persen linear attention tanpa growth KV cache
25 persen full attention

Implikasi praktis:

Native context 256K token
Context besar tetap usable secara lokal
Konsumsi memori lebih efisien dibanding full attention murni

Pada context ±170K token, satu sesi bisa memuat:

Fungsi hasil decompile lengkap
Control flow di sekitarnya
Instruksi analisis detail

Untuk reverse engineering dan analisis firmware, pendekatan ini signifikan karena tidak ada kebutuhan mengirim kode sensitif ke cloud, tidak ada rate limit, dan tidak ada biaya token.

Inference Server dan Integrasi

Inference dijalankan melalui vLLM dalam container Docker berbasis stack NVIDIA.

Claude Code hanya membutuhkan endpoint kompatibel dengan Anthropic Messages API. vLLM telah mendukung format tersebut. Versi terbaru Ollama juga menyediakan kompatibilitas serupa.

Alur konfigurasi ringkas: