Filosofi konservasi Ai-era: bagaimana menghabiskan setiap Token dalam sebuah pisau Mari kita pergi

Mengantuk

Pada zaman telegram berbasis kata, pena adalah uang. Orang-orang digunakan untuk mengkondensasi ribuan kata ke titik di mana "cepat kembali" adalah sebuah surat panjang, dan "damai" adalah tinker yang paling berat。

Ponsel itu kemudian dibawa ke rumah, tetapi biaya jarak jauh dibebankan dalam hitungan detik. Panggilan telepon jarak jauh orang tua selalu singkat, dan ketika bisnis selesai, mereka cepat menutup telepon, dan setelah percakapan telah menyebar sedikit, pikiran menyakitkan akan memotong dingin yang baru saja muncul。

Belakangan, broadband masuk, Internet dikenakan biaya per jam, orang - orang menatap timer di layar, halaman web dimatikan, video hanya diunduh, dan media streaming adalah kata kerja mewah. Ada keinginan untuk menghubungkan dunia dan ketakutan akan keseimbangan。

Unit yang dihitung telah berubah dan berubah, dan naluri menyimpan uang tetap konstan。

Kini, Token menjadi mata uang era AI. Namun, sebagian besar orang belum belajar bagaimana mencari tahu hal-hal di era ini, karena kita belum belajar bagaimana menghitung keuntungan dan kerugian dalam algoritma tak terlihat。

WOV 2022 ChatGPT keluar ketika hampir tidak ada yang peduli tentang Token. Ini A.I. Makan malam besar, 20 dolar sebulan, berapa banyak yang harus dibicarakan。

Tapi sejak kebakaran baru-baru ini AI Agen, pengeluaran Token telah menjadi sesuatu yang setiap orang yang menggunakan AI Agen harus fokus pada。

Tidak seperti percakapan sederhana dengan jawaban, ada ratusan panggilan API di balik arus tugas, dan pemikiran independen Agen memiliki harga, dan setiap perbaikan diri, setiap panggilan alat, sesuai dengan ketukan angka pada tagihan. Dan kemudian Anda akan menemukan bahwa tiba-tiba Anda kehabisan uang dan Anda tidak tahu apa yang Agen lakukan。

Dalam kehidupan nyata, semua orang tahu cara menghemat uang. Kita akan pergi ke pasar untuk membeli makanan, kita tahu untuk membersihkan daun lumpur dan menimbangnya; kita akan ke bandara, dan pengemudi tua tahu untuk menghindari puncak awal。

Logika hemat biaya dari dunia digital adalah sama, kecuali bahwa unit akun diubah dari "chip " dan "kilometer " menjadi Token。

PADA MASA LALU, TABUNGAN DISEBABKAN KELANGKAAN; PADA ERA AI, TABUNGAN DIBUAT UNTUK KETEPATAN。

KAMI INGIN ARTIKEL INI MEMBANTU ANDA DENGAN PENDEKATAN AI-ERA UNTUK MENGHEMAT UANG, DAN ANDA MENGHABISKAN SETIAP SEN PADA PISAU。

Aku akan mengambil daun yang buruk sebelum skala

DI ERA AI, NILAI INFORMASI TIDAK LAGI DITENTUKAN OLEH LUAS TETAPI OLEH KEMURNIAN。

LOGIKA BIAYA AI ADALAH UNTUK MENGENAKAN JUMLAH KATA YANG DIBACANYA. APAKAH ANDA MEMBERINYA MAKAN DENGAN PENGETAHUAN YANG NYATA ATAU DENGAN FORMAT YANG TIDAK BERARTI, JIKA MEMBACANYA, ANDA HARUS MEMBAYAR。

Jadi cara pertama untuk berpikir tentang hal ini adalah mengambil rasio "noise" bawah sadar。

SETIAP KATA YANG KAU BERIKAN PADA AI, SETIAP GAMBAR, SETIAP BARIS KODE DIBAYAR. JADI SEBELUM KAU MEMBERIKAN APAPUN PADA AI, TANYAKAN PADA DIRIMU: BERAPA BANYAK YANG DIBUTUHKAN? BERAPA BANYAK DAUN BERLUMPUR

Sebagai contoh, "Halo, bantu saya..." kata pengantar yang panjang seperti itu, catatan latar belakang berulang, catatan kode yang tidak dipotong, adalah daun berkabut。

SELAIN INI, LIMBAH YANG PALING UMUM ADALAH MELEMPARKAN PDF ATAU WEBSHOT LANGSUNG KE AI. INI BENAR-BENAR MUDAH BAGI ANDA, TETAPI THE MENYELAMATKAN" ERA AI SERING BERARTI " KOST."。

A FULL FORMATTED PDF MENGANDUNG, SELAIN BADAN TEKS, HEADER, FOOTER, LABEL BAGAN, WATERMARK TERSEMBUNYI, DAN SEJUMLAH BESAR KODE FORMAT UNTUK LAYOUT. HAL-HAL INI TIDAK MEMBANTU AI UNTUK MEMAHAMI MASALAH ANDA, TAPI MEREKA SEMUA DITAGIH。

Lain kali ingat untuk mengubah PDF menjadi teks Markdown bersih dan memberinya makan ke AI. Ketika Anda mengubah PDF 10MB menjadi teks bersih 10KB, Anda tidak hanya menyimpan 99% dari uang, tetapi juga membuat otak AI berjalan jauh lebih cepat dari sebelumnya。

Gambar itu adalah penelan emas lain。

DALAM LOGIKA MODEL VISUAL, AI TIDAK PEDULI TENTANG KEINDAHAN GAMBAR ANDA, TETAPI TENTANG BERAPA BANYAK PIKSEL YANG ANDA MENEMPATI。

Merebut logika perhitungan resmi Claude: Konsumsi token = lebar piksel x tinggi piksel 750 dalam gambar。

(a) Sebuah gambar 1.000 x 1.000 piksel, biaya sekitar 1.334 Token, dikonversi di Claude Sonet 4.6, sekitar US $ 0.004 masing-masing

Tetapi jika Anda memampatkan gambar yang sama ke 200 x 200 piksel, Anda mengkonsumsi 54 Token dengan biaya $ 00016, 25 kali perbedaan。

Banyak orang membuang foto resolusi tinggi ponsel, 4K screenshot, ke AI, meskipun gambar ini mengkonsumsi Token cukup untuk mendapatkan AI untuk membaca setengah dari novel. Jika tugas tersebut hanya untuk mengidentifikasi teks dalam gambar atau membuat penilaian visual sederhana, seperti untuk memungkinkan AI untuk mengidentifikasi jumlah pada faktur, membaca teks dalam instruksi, atau untuk menentukan apakah ada lampu merah dan hijau di bagan, maka resolusi 4K adalah sampah murni, dan cukup untuk memampatkan gambar ke resolusi minimum yang tersedia。

Namun alasan mengapa akhir input adalah yang paling mudah untuk membuang Token bukan format file, tetapi cara yang tidak efisien untuk berbicara。

Banyak orang berbicara tentang AI sebagai tetangga yang nyata, bersosialisasi, putus, dan melemparkan "menulis halaman web untuk saya" pertama, menunggu AI untuk memuntahkan produk setengah selesai, kemudian menambahkan rincian, kemudian menariknya berulang-ulang. Percakapan pasta gigi ini memungkinkan AI untuk menghasilkan konten berulang-ulang, dan setiap putaran modifikasi berakhir dan di atas konsumsi Token。

Pada praktiknya, permintaan yang sama, banyak putaran dialog pasta gigi yang akhirnya mengkonsumsi Token, ditemukan tiga hingga lima kali lebih jelas sekaligus。

Cara nyata untuk menghemat uang adalah dengan menyerahkan percobaan sosial yang tidak efisien ini dan untuk menjelaskan sekali dan untuk semua persyaratan, kondisi perbatasan dan contoh. Usaha yang kurang dibutuhkan untuk menjelaskan \"tidak melakukan apa-apa\", karena kalimat negatif sering kali lebih mahal daripada kalimat positif; katakan apa yang harus dilakukan, dan memberikan contoh yang jelas dan benar。

SEMENTARA ITU, JIKA ANDA TAHU DI MANA TARGET, HANYA BERBICARA DENGAN AI, DAN JANGAN BIARKAN AI PERGI KE DETEKTIF。

Saat Anda memesan AI untuk "melihat kode terkait pengguna", harus melakukan pemindaian skala besar, analisis dan spekulasi di belakang panggung; dan ketika Anda mengatakan itlihat berkas ini dari src/services/user.ts," konsumsi Token bervariasi dari hari ke hari, dan di dunia digital, parity informasi adalah penghematan terbesar。

JANGAN MEMBAYAR UNTUK KEBAIKAN AI

UU model besar memiliki sub-aturan yang tidak disadari banyak orang: output Token biasanya tiga sampai lima kali lebih mahal daripada input Token。

Dengan kata lain, apa yang AI katakan jauh lebih mahal daripada apa yang Anda katakan. Pada kasus Claude Sonet 4.6, misalnya, hanya $ 3 per juta token yang masuk, sementara output melompat tajam ke $ 15, perbedaan harga lima kali lipat penuh。

KATA-KATA SOPAN "BAIK, SAYA MENGERTI KEBUTUHAN ANDA, DAN SAYA MULAI MENJAWAB ANDA" DAN " BERHARAP BAHWA YANG DI ATAS AKAN MEMBANTU ANDA" DIAKHIRI DENGAN KATA-KATA SOSIAL YANG SOPAN KETIKA ANDA BERKOMUNIKASI, TETAPI PADA TAGIHAN API, SEMUA INI TIDAK MENGGANGGU DINGIN AKAN DIKENAKAN BIAYA。

CARA PALING EFEKTIF UNTUK MEMECAHKAN LIMBAH OUTPUT ADALAH DENGAN MENETAPKAN ATURAN UNTUK AI. GUNAKAN SISTEM ARAHAN UNTUK MENGATAKAN DENGAN JELAS: JANGAN DINGIN, JANGAN MENJELASKAN, JANGAN ULANGI KEBUTUHAN, HANYA MEMBERIKAN JAWABAN。

Aturan-aturan ini, yang ditetapkan hanya sekali, efektif dalam setiap dialog dan merupakan sarana nyata dari \"satu investasi, satu manfaat yang langgeng\". Namun dalam menyusun aturan, banyak orang yang terjebak dalam kesalahan lain: menyusun instruksi dalam bahasa alami yang panjang dan panjang。

Data empiris insinyur 'menunjukkan bahwa keefektifan perintah tidak dalam hitungan kata, tetapi dalam kepadatan. Memampatkan sebuah sistem 500-kata petunjuk ke 180 kata, dengan menghapus bahasa sopan yang tidak berarti, menggabungkan instruksi berulang dan mengaransemen ulang paragraf ke dalam daftar entri sederhana, kualitas keluaran AI hampir non-varian, tetapi konsumsi Token panggilan tunggal dapat turun sebanyak 64 persen。

ADA JUGA KONTROL YANG LEBIH PROAKTIF, YAITU UNTUK MEMBATASI PANJANG OUTPUT. BANYAK ORANG TIDAK PERNAH MENGATUR LANGIT - LANGIT KELUARAN DAN DIBIARKAN KE AI, YANG MEMUNGKINKAN HAK UNTUK MENYATAKAN, SERING KALI MENYEBABKAN KERUGIAN BIAYA YANG EKSTREM. ANDA MUNGKIN HANYA PERLU SEDIKIT KALIMAT PENDEK, TAPI AI, UNTUK MENUNJUKKAN SEMACAM "INTELIJEN" UNTUK MENGHASILKAN SEPOTONG 800 KATA。

Jika Anda mencari data murni, Anda harus memaksa AI untuk kembali ke format terstruktur daripada deskripsi bahasa alami yang panjang. Dengan jumlah informasi yang sama yang dibawa, konsumsi Token dalam format JSON jauh lebih rendah daripada itu dalam budaya yang tersebar. Hal ini disebabkan karena fakta bahwa data terstruktur menghapus semua redundan menghubungkan kata-kata, kata-kata dan koreksi eksplanatori dan mempertahankan hanya konsentrasi tinggi inti logika. Di era AI, Anda harus menyadari bahwa apa yang layak dibayar adalah nilai dari hasilnya, bukan arti dari penafsiran diri dari AI。

SELAIN INI, AI'S "MELEBIHITHINK ADALAH FRENZIING SALDO REKENING ANDA。

Beberapa model canggih memiliki aekstensi pemikiran" model, dengan penalaran internal yang masif sebelum menjawab. Penalaran ini juga mahal dan harganya mahal dengan harga keluaran。

MODEL INI PADA DASARNYA DIRANCANG UNTUK "KOMPLEKS TUGAS YANG MEMBUTUHKAN LOGIKA MENDALAM". NAMUN, KEBANYAKAN ORANG TELAH MEMILIH MODEL INI SEWAKTU MENGAJUKAN PERTANYAAN SEDERHANA. UNTUK TUGAS-TUGAS YANG TIDAK MEMERLUKAN PENALARAN IN-DEPTH, JELAS UNTUK AI BAHWA HAL ITU DAPAT MENGHEMAT BANYAK UANG DENGAN BAIK MENGATAKAN "TIDAK PERLU MENJELASKAN, HANYA MEMBERIKAN JAWABAN" ATAU MEMATIKANNYA SECARA MANUAL。

JANGAN BIARKAN AI MENGUBAH TAGIHAN LAMA

Model besar model model tidak memiliki kenangan nyata. Ini hanya tergila-gila dengan buku-buku tua。

INI ADALAH MEKANISME DASAR YANG TIDAK DIKETAHUI BANYAK ORANG. SETIAP KALI ANDA MENGIRIM PESAN BARU DI JENDELA DIALOG, AI TIDAK MULAI MENGERTI DARI KATA-KATA ANDA, TETAPI AKAN MEMBACA KEMBALI SEMUA YANG TELAH ANDA BICARAKAN SEBELUMNYA, SETIAP PUTARAN PERCAKAPAN, SETIAP KODE, SETIAP DOKUMEN REFERENSI, DAN KEMUDIAN MENJAWAB ANDA。

Dalam tagihan Token, ini "baik dan baru" tidak gratis. Biaya untuk membaca kembali seluruh akun di belakang AI akan meningkat secara eksponensial saat dialog berbalik. Mekanisme ini menentukan bahwa semakin berat sejarah dialog, semakin mahal setiap pertanyaan yang Anda ajukan。

496 percakapan asli yang berisi lebih dari 20 artikel diikuti, dan ditemukan bahwa artikel 1 pesan rata-rata 14.000 Token dengan biaya sekitar 3,6 sen per pesan; oleh artikel 50, rata-rata 79.000 Token dibaca dengan biaya sekitar 4,5 sen per pesan, yang mewakili total biaya 80 persen. Selain itu, konteksnya semakin panjang, dan pada waktu artikel 50, konteks di mana AI harus berurusan sudah 5,6 kali lebih besar daripada ketika artikel 1。

Kebiasaan paling sederhana menyelesaikan masalah ini adalah tugas, kotak dialog。

KETIKA TOPIK SELESAI, ANDA MEMULAI PERCAKAPAN BARU DENGAN TEKAD, JANGAN GUNAKAN AI SEBAGAI JENDELA OBROLAN YANG TIDAK PERNAH DITUTUP. KEBIASAAN INI TERDENGAR SEDERHANA, TAPI BANYAK ORANG TIDAK BISA MELAKUKANNYA, DAN MEREKA BERPIKIR, "BAGAIMANA JIKA KITA MENGGUNAKAN APA YANG BIASA KITA LAKUKAN?" BAHKAN, SEBAGIAN BESAR "JIKA" ANDA KHAWATIR TIDAK AKAN TERJADI, DAN UNTUK ITU, ANDA SUDAH MEMBAYAR BEBERAPA KALI LEBIH BANYAK PADA SETIAP BERITA。

Bila dialog memang perlu dilanjutkan, tetapi konteksnya telah lama, kita dapat menggunakan beberapa alat untuk memampat. Claude Code memiliki perintah / kompact yang dapat kondensasi sejarah pembicaraan panjang ke dalam ringkasan singkat dan membantu Anda melakukan perpisahan Sabotase。

Dan menyelamatkan logika adalah Prompt Caching. Jika Anda menggunakan petunjuk sistem yang sama berulang kali, atau jika Anda mengacu ke dokumen referensi yang sama setiap kali Anda berbicara, AI cache ini bagian dari pesan. Panggilan berikutnya dilakukan dengan tingkat akses yang sangat rendah, tidak dengan harga penuh。

Pricing resmi Anthropic menunjukkan bahwa harga token cache adalah 1/10 dari harga normal. Caching Prompt OpenAI juga mengurangi biaya input sekitar 50%. Kertas yang diterbitkan pada arXiv pada Januari 2026 menguji misi panjang beberapa platform AI dan menemukan bahwa cache petunjuk mengurangi biaya API sebesar 45% hingga 80%。

Itu adalah untuk mengatakan, hal yang sama, pertama kali saya makan AI adalah untuk membayar harga penuh, dan setiap panggilan setelah itu adalah untuk membayar 1/10. Fitur ini menyimpan sejumlah besar Token untuk pengguna yang mengulangi set dokumen standar atau petunjuk sistem yang sama setiap hari。

Tapi Prompt Caching memiliki premis bahwa isi dan urutan peringatan sistem Anda dan dokumen referensi harus konsisten dan ditempatkan di puncak percakapan. Setelah ada perubahan konten, cache akan lapse dan dibayar dengan harga penuh. Jadi jika Anda memiliki kode kerja tetap, tuliskan, dan tidak mengubahnya。

Teknik terakhir dalam manajemen konteks adalah memuat seperti yang diperlukan. Banyak orang suka menempatkan semua aturan, dokumen, perhatian ke dalam sistem petunjuk untuk alasan bahwa itu "hanya dalam kasus."。

Tapi harga untuk melakukannya adalah bahwa Anda dipaksa untuk memuat ribuan kata-kata aturan dan membuang sekelompok Token sia-sia, meskipun Anda melakukan tugas sederhana. Dokumentasi resmi Claude Code menunjukkan bahwa CLUDE.md disimpan dalam 200 baris, bahwa aturan khusus untuk skenario yang berbeda dipecah menjadi file keterampilan terpisah, dan bahwa aturan untuk adegan mana yang akan dimuat digunakan. Kemurnian absolut dari konteks adalah penghormatan terhadap tingkat tertinggi aritmatika。

Jangan bawa Porsche untuk membeli makanan

MODEL AI BERBEDA, KESENJANGAN HARGA SANGAT BESAR。

Claude Opus 4,6 5 dolar per juta Token input, 25 dolar untuk output, 3,5 dolar untuk Claude Haiku, 0,8 dolar untuk masukan, 4 dolar untuk output, hampir enam kali perbedaan. Hal ini tidak hanya lambat, tetapi juga mahal untuk mendapatkan model atas untuk melakukan pengumpulan informasi, tata letak-format pekerjaan。

SECARA CERDAS DIGUNAKAN ADALAH UNTUK MEMBAWA PEMBAGIAN KELAS" DARI TENAGA KERJA YANG UMUM DALAM MASYARAKAT MANUSIA KITA KEPADA MASYARAKAT AI, DENGAN TUGAS-TUGAS SULIT YANG BERBEDA, UNTUK MODEL DENGAN HARGA YANG BERBEDA。

Seperti mempekerjakan orang untuk bekerja di dunia nyata, Anda tidak mempekerjakan seorang ahli jutaan tahun untuk memindahkan batu bata. Jadi AI. Berkas resmi Claude Code juga jelas menunjukkan bahwa Sonnet menangani sebagian besar tugas pemrograman, Opus meninggalkan keputusan arsitektur kompleks dan penalaran multi-langkah, dan sub-tugas sederhana ditugaskan ke Haiku。

Secara spesifik, pendekatan praktisnya adalah membangun aliran kerja dua bagian. Klasifikasi dasar bebas atau murah, misalnya pengumpulan data, pembersihan format, pembuatan draf pertama, klasifikasi sederhana dan agregasi. Pada fase kedua, kehalusan kemurnian tinggi yang dimurnikan diumpankan ke model atas untuk pengambilan keputusan inti dan pemurnian kedalaman。

Sebagai contoh, jika Anda ingin menganalisis laporan industri 100 halaman, Anda dapat mengekstrak data kunci dan kesimpulan dari laporan dengan Gemini Flash, membentuk ringkasan 10 halaman, yang kemudian dapat dikirim ke Claude Opus untuk analisis dan penilaian mendalam. Aliran kerja dua-bagian ini memungkinkan untuk kompresi biaya signifikan dengan jaminan kualitas。

Apa yang lebih maju daripada sub-proses sederhana adalah pembagian mendalam dari tenaga kerja berdasarkan dekonstruksi tugas. Misi teknik yang rumit dapat dipisahkan dari beberapa subtugas yang terpisah dan cocok dengan model yang paling tepat。

Sebagai contoh, tugas yang mewajibkan penulisan kode memungkinkan model murah untuk menulis frame dan kode sampel terlebih dahulu, dan kemudian hanya untuk menyerahkan logika inti ke model mahal. Setiap sub-misi memiliki konteks dan hasil yang bersih dan terfokus lebih akurat dan kurang mahal。

Kau tak butuh bunga, Token

Semua diskusi yang telah berlangsung pada dasarnya telah ditujukan pertanyaan taktis tentang bagaimana menghemat uang, tetapi proposisi logika yang jauh lebih rendah telah diabaikan oleh banyak orang: apakah langkah ini membutuhkan token pengeluaran

TABUNGAN TERBESAR BUKAN OPTIMASI ALGORITMA, TAPI PEMISAHAN PENGAMBILAN KEPUTUSAN. KAMI TERBIASA MENCARI JAWABAN AL-AI, TAPI KAMI LUPA BAHWA DALAM BANYAK SKENARIO, ITU SEPERTI MENGGUNAKAN MODEL BESAR, MAHAL UNTUK MELAWAN NYAMUK。

Sebagai contoh, memungkinkan AI untuk memproses surat secara otomatis, dapat menggunakan setiap e-mail sebagai tugas independen untuk memahami, mengurutkan, merespon, dan Token mengkonsumsi banyak. Namun jika Anda mengambil waktu 30 detik untuk melihat kotak masuk, dan secara manual mengeluarkan surat yang jelas tidak perlu ditangani oleh AI, maka menyerahkan sisanya ke AI. Biayanya segera dikurangi menjadi pecahan kecil. Penilaian manusia di sini bukan halangan, tapi filter terbaik。

ORANG DI ZAMAN TELEGRAF TAHU BERAPA BIAYA UNTUK MENGIRIM SATU KATA LAGI, JADI MEREKA AKAN MENGURUSNYA, YANG MERUPAKAN NALURI SUMBER DAYA. SAMA HALNYA DENGAN ERA AI, KETIKA ANDA BENAR-BENAR TAHU BERAPA BIAYA UNTUK MENDAPATKAN AI UNTUK MENGATAKAN LEBIH BANYAK, MAKA ANDA SECARA ALAMI HARUS MENGURUS FAKTA BAHWA ITU TIDAK LAYAK, TUGAS MEMBUTUHKAN MODEL TOP ATAU MODEL MURAH, DAN KONTEKSNYA TIDAK BERGUNA。

Ini adalah kapasitas yang paling hemat biaya. Cara terpintar untuk melakukan hal ini adalah dengan tidak membiarkan AI menggantikan orang, tetapi untuk membiarkan AI dan orang melakukan apa yang mereka lakukan yang terbaik. Ketika kepekaan terhadap Token ini diinternalisasi ke dalam pantulan kondisional, Anda benar-benar berubah dari sebuah ke master aritmatika。

Filosofi konservasi Ai-era: bagaimana menghabiskan setiap Token dalam sebuah pisau Mari kita pergi

Aku akan mengambil daun yang buruk sebelum skala

JANGAN MEMBAYAR UNTUK KEBAIKAN AI

JANGAN BIARKAN AI MENGUBAH TAGIHAN LAMA

Jangan bawa Porsche untuk membeli makanan

Kau tak butuh bunga, Token

関連記事

ダークリバーの20億ドル

DRAM ETFがリストされ、メモリストックは逆に売られますか

Ai-eraの保存哲学:すべてのトークンをブレードに費やす方法 Let's go

月にA7を作ると、3つの画面に閉じ込められた

製品

法律とサポート

友達リンク