Filosofi konservasi Ailera: bagaimana cara menggunakan semua Token dengan pisau

Sleepy.md

Pada usia telegram berbasis kata-kata, pena adalah uang. Orang-orang digunakan untuk mengembun ribuan kata ke titik di mana "kembali cepat" adalah huruf yang panjang, dan "perdamaian" adalah tinker terkejam。

Telepon kemudian dibawa ke rumah, tapi biaya panjang-jarak itu dibebankan dalam hitungan detik. Orang tua apos; panggilan telepon jarak jauh selalu singkat, dan ketika bisnis selesai, mereka cepat menutup telepon, dan sekali percakapan telah menyebar sedikit, pikiran menyakitkan akan memotong dingin yang baru saja muncul。

Kemudian, broadband datang, Internet terisi per jam, orang-orang menatap timer pada layar, halaman web dimatikan, video hanya diunduh, dan streaming media adalah kata kerja mewah. Pada akhir dari setiap download kemajuan, ada keinginan untuk menghubungkan dunia dan ketakutan untuk keseimbangan。

Unit yang dihitung telah berubah dan berubah, dan naluri menabung tetap konstan。

Sekarang, Token menjadi mata uang era AI. Namun, kebanyakan orang belum belajar bagaimana mencari tahu hal-hal di era ini, karena kita belum belajar bagaimana menghitung keuntungan dan kerugian dalam algoritma tak terlihat。

2022 ChatgPT keluar ketika hampir tidak ada yang peduli tentang Token. Ini A.I. Makan malam besar, 20 dolar per bulan, berapa banyak yang harus dibicarakan。

Tapi sejak kebakaran agen AI baru-baru ini, belanja Token telah menjadi sesuatu yang setiap orang yang menggunakan AI Agen harus difokuskan。

Tidak seperti percakapan sederhana dengan jawaban, ada ratusan panggilan API di belakang aliran tugas, dan berpikir independen Agen memiliki harga, dan setiap koreksi diri, setiap panggilan alat, sesuai dengan mengalahkan angka pada tagihan. Dan kemudian Anda akan menemukan bahwa tiba-tiba Anda kehabisan uang dan Anda tidak tahu apa yang Agen lakukan。

Dalam kehidupan nyata, semua orang tahu bagaimana menghemat uang. Kita akan pergi ke pasar untuk membeli makanan, kita tahu untuk membersihkan daun-daun dan berat badan mereka; kita akan ke bandara, dan para pengemudi tua tahu untuk menghindari puncak awal。

Logika penyelamatan digital adalah sama, kecuali bahwa unit rekening berubah dari "chip" dan "kilometer" ke Token。

PADA MASA LALU, TABUNGAN ADALAH KARENA KELANGKAAN, PADA ERA AI, TABUNGAN DIBUAT UNTUK PRESISI。

KAMI INGIN ARTIKEL INI UNTUK MEMBANTU ANDA KELUAR DENGAN PENDEKATAN AI- ERA UNTUK MENGHEMAT UANG, DAN ANDA MENGHABISKAN SETIAP SEN PADA PISAU。

Aku akan mengambil daun yang buruk sebelum skala

DI ERA AI, NILAI INFORMASI TIDAK LAGI DITENTUKAN OLEH LUAS TETAPI OLEH KEMURNIAN。

AL APOS; S BIAYA LOGIKA ADALAH UNTUK MENGISI JUMLAH KATA YANG DIBACA. APAKAH ANDA MEMBERI MAKAN DENGAN PENGETAHUAN YANG NYATA ATAU DENGAN FORMAT YANG TIDAK BERARTI, JIKA MEMBACANYA, ANDA HARUS MEMBAYAR。

Jadi cara pertama untuk berpikir tentang hal ini adalah untuk mengambil "rasio kebisingan" bawah sadar。

SETIAP KATA ANDA MAKAN AI, SETIAP GAMBAR, SETIAP BARIS KODE DIBAYAR. JADI SEBELUM ANDA MEMBERIKAN SESUATU KEPADA AI, TANYAKAN PADA DIRI SENDIRI: BERAPA BANYAK YANG DIBUTUHKAN? BERAPA BANYAK DAUN BERLUMPUR

Sebagai contoh, "Halo, membantu saya"... seperti panjang ucapan pengantar, ulang catatan latar belakang, catatan kode uncut, kacau daun。

SELAIN ITU, LIMBAH YANG PALING UMUM ADALAH LEMPARAN LANGSUNG PDF ATAU GAMBAR WEB KE AI. INI BENAR-BENAR MUDAH BAGI ANDA, TAPI "MENYELAMATKAN" DARI ERA AI SERING BERARTI "BIAYA"。

SEBUAH PDF YANG SEPENUHNYA DIFORMAT BERISI, SELAIN DARI TUBUH TEKS, HEADER, FOOTER, DIAGRAM LABEL, WATERMARK TERSEMBUNYI, DAN SEJUMLAH BESAR KODE FORMAT UNTUK TATA LETAK. HAL-HAL INI TIDAK MEMBANTU AI UNTUK MEMAHAMI MASALAH ANDA, TAPI MEREKA SEMUA DITAGIH。

Lain kali ingat untuk mengubah PDF menjadi teks bersih Markdown dan memberikannya ke AI. Ketika Anda mengubah PDF 10MB menjadi teks bersih 10KB, Anda tidak hanya menyimpan 99% dari uang, tetapi juga membuat otak AI berjalan lebih cepat dari sebelumnya。

Gambar ini adalah menelan emas lain。

DALAM LOGIKA MODEL VISUAL, AL TIDAK PEDULI TENTANG KEINDAHAN GAMBAR ANDA, TAPI TENTANG BERAPA BANYAK PIKSEL YANG ANDA TEMPATI。

Ambil logika perhitungan resmi dari Claude: Konsumsi Token = pixel lebar x piksel tinggi 750 dalam gambar。

(a) Sebuah gambar dari 1.000 x 1.000 piksel, biaya sekitar 1.334 Tokens, dikonversi di Claude Sonet 4.6, sekitar US $0.004 masing-masing

Tetapi jika Anda menekan gambar yang sama dengan 200 x 200 piksel, Anda mengkonsumsi 54 Tokens dengan biaya $00016, 25 kali perbedaannya。

Banyak orang melemparkan foto resolusi tinggi dari ponsel, 4K cuplikan, untuk AI, meskipun gambar-gambar ini mengkonsumsi Token cukup untuk mendapatkan AI untuk membaca setengah dari sebuah novel. Jika tugas ini hanya untuk mengidentifikasi teks dalam gambar atau membuat penilaian visual sederhana, seperti untuk memungkinkan AI untuk mengidentifikasi jumlah pada faktur, untuk membaca teks dalam instruksi, atau untuk menentukan apakah ada lampu merah dan hijau dalam grafik, maka resolusi 4K adalah limbah murni, dan cukup untuk mengompres gambar ke resolusi minimal yang tersedia。

Tapi alasan mengapa masukan berakhir adalah yang termudah untuk limbah Token bukan format berkas, tapi cara yang tidak efisien untuk berbicara。

Banyak orang yang berbicara tentang AI sebagai tetangga yang nyata, bersosialisasi, putus, dan melemparkan "menulis halaman web untuk saya" pertama, menunggu AI untuk memuntahkan produk setengah - selesai, kemudian menambahkan rincian, kemudian menariknya lagi dan lagi. Percakapan pasta gigi ini memungkinkan AI untuk menghasilkan konten berulang-ulang, dan setiap putaran modifikasi sudah berakhir dan di atas konsumsi Token。

Dalam praktek, permintaan yang sama, banyak putaran dialog pasta gigi yang akhirnya mengkonsumsi Token, ditemukan menjadi tiga sampai lima kali lebih jelas sekaligus。

Cara sebenarnya untuk menghemat uang adalah dengan menyerahkan eksperimen sosial yang tidak efisien ini dan untuk mengklarifikasi sekali dan untuk semua persyaratan, kondisi perbatasan dan contoh. Sedikit usaha yang diperlukan untuk menjelaskan "tidak melakukan apa-apa", karena kalimat negatif sering biaya lebih dari kalimat positif; katakan apa yang harus dilakukan, dan memberikan contoh yang jelas dan benar。

SEMENTARA ITU, JIKA ANDA TAHU DI MANA TARGET ADALAH, HANYA BERBICARA DENGAN AI, DAN JANGAN BIARKAN AI PERGI KE DETEKTIF。

Ketika Anda memesan AI untuk "melihat kode terkait src / services", itu harus melakukan pemindaian skala besar, analisis dan spekulasi di belakang panggung, dan ketika Anda mengatakan itu "lihat file ini dari src / services / user.ts," konsumsi Token bervariasi dari hari ke hari, dan di dunia digital, parity informasi adalah tabungan terbesar。

JANGAN MEMBAYAR UNTUK KESOPANAN AI

RUU model besar memiliki aturan sub- yang tidak disadari banyak orang: output Token biasanya tiga sampai lima kali lebih mahal daripada masukan Token。

Dengan kata lain, apa Al mengatakan jauh lebih mahal daripada apa yang Anda katakan untuk itu. Dalam kasus Claude Sonet 4.6, misalnya, hanya $3 per juta token yang masuk, sementara output melompat tajam ke $15, perbedaan harga lima kali lipat penuh。

KATA-KATA SOPAN "BAIK, AKU MENGERTI KEBUTUHAN ANDA, DAN AKU MULAI MENJAWAB UNTUK ANDA" DAN "HARAPAN BAHWA DI ATAS AKAN MEMBANTU ANDA" BERAKHIR DENGAN KATA-KATA SOSIAL SOPAN KETIKA ANDA BERKOMUNIKASI, TETAPI PADA RUU API, SEMUA INI TIDAK MENGIRIM SURAT DINGIN AKAN BIAYA ANDA。

CARA YANG PALING EFEKTIF UNTUK MEMECAHKAN LIMBAH KELUARAN ADALAH DENGAN MENGATUR ATURAN UNTUK AI. GUNAKAN DIREKTIF SISTEM UNTUK MENGATAKANNYA DENGAN JELAS: JANGAN BERSANTAI, JANGAN MENJELASKAN, JANGAN MENGULANG PERLUNYA, BERIKAN SAJA JAWABANNYA。

Aturan-aturan ini, yang diatur hanya sekali, efektif dalam setiap dialog dan merupakan sarana nyata dari "satu investasi, satu manfaat abadi". Tetapi dalam pengaturan aturan, banyak orang tertangkap dalam kesalahan lain: menumpuk instruksi dalam bahasa alam yang panjang。

Data empiris insinyur menunjukkan bahwa efektivitas perintah tidak dalam jumlah kata, tetapi dalam kepadatan. Menggabungkan sebuah sistem 500- kata petunjuk ke 180 kata, dengan menghapus berarti bahasa sopan, menggabungkan instruksi berulang dan recasting paragraf ke dalam daftar sederhana dari entri, kualitas keluaran dari AI hampir bukan variant, tetapi tunggal-memanggil konsumsi Token dapat menjatuhkan sebesar 64 persen。

ADA JUGA KONTROL YANG LEBIH PROAKTIF, YAITU MEMBATASI PANJANG KELUARAN. BANYAK TIDAK PERNAH MENGATUR LANGIT-LANGIT KELUARAN DAN KIRI UNTUK AI, YANG MEMUNGKINKAN UNTUK HAK UNTUK MENGEKSPRESIKAN, SERING MENYEBABKAN KERUGIAN BIAYA EKSTRIM. ANDA MUNGKIN HANYA PERLU KALIMAT PENDEK SEDIKIT, TAPI AI, DALAM RANGKA UNTUK MENUNJUKKAN BEBERAPA JENIS "KECERDASAN" UNTUK MENGHASILKAN SEPOTONG 800- KATA。

Jika Anda mencari data murni, Anda harus memaksa AI untuk kembali ke format terstruktur daripada deskripsi bahasa alami yang panjang. Dengan jumlah informasi yang sama yang dibawa, konsumsi Token dalam format JSON jauh lebih rendah dari itu dalam budaya tersebar. Ini karena fakta bahwa data terstruktur menghapus semua kata-kata yang berhubungan berlebihan, kata-kata dan koreksi penjelasan dan mempertahankan hanya konsentrasi tinggi dari inti logis. Di era AI, Anda harus menyadari bahwa apa yang layak dibayar adalah nilai dari hasil, bukan interpretasi diri berarti dari AI。

SELAIN INI, AL "OVERTHINKING" ADALAH HIRUK PIKUK SALDO ACCOUNT ANDA。

Beberapa model canggih memiliki "ekstensi berpikir" model, dengan penalaran internal besar sebelum menjawab. Alasan ini juga mahal dan mahal dengan harga keluaran。

MODEL INI PADA DASARNYA DIRANCANG UNTUK "TUGAS-TUGAS YANG KOMPLEKS YANG MEMBUTUHKAN LOGIKA YANG DALAM". TAPI KEBANYAKAN ORANG TELAH MEMILIH MODEL INI KETIKA MENGAJUKAN PERTANYAAN SEDERHANA. UNTUK TUGAS YANG TIDAK MEMERLUKAN PENALARAN YANG TIDAK MENDALAM, JELAS UNTUK AI BAHWA DAPAT MENGHEMAT BANYAK UANG DENGAN MENGATAKAN "TIDAK PERLU MENJELASKAN, HANYA MEMBERIKAN JAWABAN" ATAU MEMATIKANNYA SECARA MANUAL。

JANGAN BIARKAN AI MENGUBAH TAGIHAN LAMA

Model besar tidak memiliki kenangan nyata. Ini hanya gila tentang buku-buku lama。

INI ADALAH MEKANISME BOTTOM- UP BAHWA BANYAK YANG TIDAK TAHU. SETIAP KALI ANDA MENGIRIM PESAN BARU DI JENDELA DIALOG, AI TIDAK MULAI MENGERTI DARI KATA-KATA ANDA, NAMUN AKAN MEMBACA ULANG SEMUA YANG ANDA BICARAKAN SEBELUMNYA, SETIAP PERCAKAPAN, SETIAP KODE, SETIAP DOKUMEN REFERENSI, DAN JAWABAN ANDA。

Dalam RUU Token, "baik dan baru" ini tidak gratis. Biaya membaca ulang seluruh akun di belakang AI akan meningkat secara eksponensial saat dialog berubah. Mekanisme ini menentukan bahwa semakin berat sejarah dialog, semakin mahal setiap pertanyaan yang Anda tanyakan。

496 percakapan asli berisi lebih dari 20 artikel yang diikuti, dan ditemukan bahwa artikel 1 pesan rata-rata 14.000 Tokens dengan biaya sekitar 3,6 sen per pesan; oleh artikel 50, rata-rata 79,000 Tokens dibaca dengan biaya sekitar 4,5 sen per pesan, mewakili total biaya 80 persen. Selain itu, konteks tumbuh lebih lama, dan pada saat artikel 50, konteks di mana AI harus berurusan dengan sudah 5.6 kali lebih besar daripada ketika artikel 1。

Kebiasaan sederhana memecahkan masalah ini adalah tugas, kotak dialog。

KETIKA TOPIK SELESAI, ANDA MEMULAI PERCAKAPAN BARU DENGAN TEKAD, JANGAN GUNAKAN AI SEBAGAI JENDELA OBROLAN YANG TIDAK PERNAH DITUTUP. KEBIASAAN INI TERDENGAR SEDERHANA, TAPI BANYAK ORANG TIDAK BISA MELAKUKANNYA, DAN MEREKA BERPIKIR, "BAGAIMANA JIKA KITA MENGGUNAKAN APA YANG BIASA KITA LAKUKAN?" BAHKAN, "JIKA" YANG KAU KHAWATIRKAN TIDAK AKAN TERJADI, DAN UNTUK ITU, KAU SUDAH MEMBAYAR BEBERAPA KALI LEBIH BANYAK PADA SETIAP BERITA。

Ketika dialog perlu dilanjutkan, tetapi konteks telah menjadi panjang, kita dapat menggunakan beberapa alat untuk mengkompres. Claude Code memiliki perintah kompak yang dapat kondensat sejarah pembicaraan panjang menjadi ringkasan singkat dan membantu Anda melakukan putus Sabotase。

Dan menyelamatkan logika adalah Prompt Caching. Jika Anda menggunakan petunjuk sistem yang sama berulang kali, atau jika Anda merujuk ke dokumen referensi yang sama setiap kali Anda berbicara, Al cache bagian pesan ini. Panggilan berikutnya dibuat dengan akses yang sangat rendah, bukan dengan harga penuh。

Harga antropik resmi menunjukkan bahwa harga cache token adalah 1 / 10 dari harga normal. OpenAI 's Prompt Caching juga mengurangi biaya masukan sekitar 50%. Sebuah makalah yang diterbitkan pada arXiv pada bulan Januari 2026 diuji misi panjang dari beberapa platform AI dan menemukan bahwa cache petunjuk mengurangi biaya API sebesar 45% sampai 80%。

Artinya, hal yang sama, pertama kali saya makan AI adalah membayar harga penuh, dan setiap panggilan setelah itu adalah membayar 1 / 10. Fitur ini menyimpan sejumlah besar Tokens bagi pengguna yang mengulangi seperangkat dokumen standar atau petunjuk sistem yang sama setiap harinya。

Tapi Prompt Caching memiliki premis bahwa isi dan urutan sistem Anda memperingatkan dan dokumen referensi harus konsisten dan ditempatkan di bagian atas percakapan. Setelah ada perubahan dalam isi, cache akan hilang dan dikembalikan dengan harga penuh. Jadi jika Anda memiliki kode kerja tetap, menuliskannya, dan tidak mengubahnya。

Teknik terakhir dalam manajemen konteks adalah memuat seperti yang diperlukan. Banyak orang ingin menempatkan semua aturan, dokumen, perhatian ke dalam sistem apos; s petunjuk untuk alasan bahwa itu adalah "hanya dalam kasus"。

Tapi harga untuk melakukannya adalah bahwa Anda dipaksa untuk memuat ribuan kata-kata aturan dan limbah sekelompok Token sia-sia, meskipun Anda melakukan tugas sederhana. Dokumen resmi Claude Code menunjukkan bahwa CLUDEMD disimpan dalam 200 baris, bahwa aturan khusus untuk skenario berbeda akan dipecah menjadi berkas keterampilan terpisah, dan bahwa aturan untuk adegan yang dimuat akan digunakan. Kemurnian mutlak dari konteks adalah menghormati tingkat tertinggi dari aritmatika。

Jangan mengambil Porsche untuk membeli makanan

MODEL AI YANG BERBEDA, KESENJANGAN HARGANYA BESAR。

Claude Opus 4.6 5 dolar per juta masukan Token, 25 dolar untuk keluaran, 3.5 dolar untuk Claude Haiku, 0.8 dolar untuk masukan, 4 dolar untuk keluaran, hampir enam kali perbedaannya. Hal ini tidak hanya lambat, tetapi juga mahal untuk mendapatkan top model untuk melakukan informasi- pengumpulan, layout format tugas。

CERDAS DIGUNAKAN ADALAH UNTUK MEMBAWA "DIVISI KELAS" TENAGA KERJA YANG UMUM DALAM MASYARAKAT MANUSIA KITA KE MASYARAKAT AI, DENGAN TUGAS-TUGAS SULIT YANG BERBEDA, UNTUK MODEL PADA HARGA YANG BERBEDA。

Seperti mempekerjakan orang untuk bekerja di dunia nyata, Anda tidak menyewa jutaan-tahun ahli tua untuk memindahkan batu bata. Begitu juga AI. Berkas resmi Claude Code juga menunjukkan dengan jelas bahwa Sonnet menangani sebagian besar tugas pemrograman, Opus meninggalkan keputusan arsitektur kompleks dan penalaran multi- langkah, dan tugas sub- sederhana diberikan kepada Haiku。

Lebih spesifik, pendekatan praktis adalah untuk membangun dua bagian alur kerja. Pada tahap pertama, tahap pertama dari pekerjaan kotor dilakukan menggunakan model dasar bebas atau murah, seperti pengumpulan data, format bersih-up, generasi pertama draft, klasifikasi sederhana dan agregasi. Pada tahap kedua, akhir kemurnian tinggi yang disempurnakan diberikan kepada model atas untuk penentuan inti dan perbaikan kedalaman。

Misalnya, jika Anda ingin menganalisis laporan industri 100 halaman, Anda dapat mengekstrak data kunci dan kesimpulan dari laporan dengan Gemini Flash, membentuk ringkasan 10 halaman, yang kemudian dapat dikirim ke Claude Opus untuk analisis dalam dan penghakiman. Dua bagian aliran kerja ini memungkinkan kompresi biaya yang signifikan dengan jaminan kualitas。

Apa yang lebih maju daripada sebuah proses sederhana adalah pembagian tenaga kerja dalam berdasarkan dekonstruksi tugas. Misi rekayasa yang kompleks bisa dilepas dari beberapa subtugas terpisah dan cocok dengan model yang paling tepat。

Sebagai contoh, sebuah tugas yang memerlukan penulisan kode memungkinkan model murah untuk menulis bingkai dan kode sampel terlebih dahulu, dan kemudian hanya untuk menyerahkan logika inti untuk model mahal. Setiap sub- misi memiliki bersih, fokus konteks dan hasil lebih akurat dan kurang mahal。

Kau tak butuh bunga, Token

Semua diskusi yang telah terjadi pada dasarnya telah membahas pertanyaan taktis tentang bagaimana menghemat uang, tapi proposisi logis yang jauh lebih rendah telah diabaikan oleh banyak orang: apakah langkah ini memerlukan pengeluaran

TABUNGAN TERBESAR BUKAN OPTIMASI ALGORITMA, TETAPI PEMISAHAN KEPUTUSAN-MEMBUAT. KITA TERBIASA MENCARI JAWABAN AL- AI, TAPI KITA LUPA BAHWA DALAM BANYAK SKENARIO, ITU SEPERTI MENGGUNAKAN MODEL BESAR DAN MAHAL UNTUK MELAWAN NYAMUK。

Sebagai contoh, memungkinkan AI untuk memproses surat secara otomatis, dapat menggunakan setiap e-mail sebagai tugas independen untuk memahami, mengurutkan, menanggapi, dan Token mengkonsumsi banyak. Tapi jika Anda mengambil 30 detik untuk melihat kotak masuk, dan secara manual menyaring surat yang jelas tidak perlu ditangani oleh AI, kemudian menyerahkan sisanya untuk AI, biaya segera dikurangi menjadi fraksi kecil. Penilaian manusia di sini bukan halangan, tapi filter terbaik。

ORANG-ORANG DI ZAMAN TELEGRAF TAHU BERAPA BIAYA UNTUK MENGIRIM SATU KATA LAGI, SEHINGGA MEREKA AKAN MENGURUSNYA, YANG MERUPAKAN NALURI SUMBER DAYA. HAL YANG SAMA BERLAKU PADA ERA AI, KETIKA ANDA BENAR-BENAR TAHU BERAPA BIAYA UNTUK MEMBUAT AL BERKATA LEBIH BANYAK, MAKA ANDA SECARA ALAMI HARUS MENGURUS FAKTA BAHWA ITU TIDAK LAYAK, TUGAS INI MEMBUTUHKAN MODEL ATAS ATAU MODEL MURAH, DAN KONTEKSNYA TIDAK BERGUNA。

Ini adalah kapasitas yang paling berharga. Cara terbaik untuk melakukan ini adalah tidak membiarkan AI menggantikan orang, tetapi untuk membiarkan AI dan orang melakukan apa yang mereka lakukan yang terbaik. Ketika sensitivitas terhadap Token ini diinternalisasi menjadi refleksi kondisional, Anda benar-benar berubah dari substant ke master aritmatika。

Filosofi konservasi Ailera: bagaimana cara menggunakan semua Token dengan pisau

Aku akan mengambil daun yang buruk sebelum skala

JANGAN MEMBAYAR UNTUK KESOPANAN AI

JANGAN BIARKAN AI MENGUBAH TAGIHAN LAMA

Jangan mengambil Porsche untuk membeli makanan

Kau tak butuh bunga, Token

Artikel Berkaitan

24 milyar dolar di Dark River

DRAM DRAM ETF TERDAFTAR, DAN STOK MEMORI DIJUAL SECARA TERBALIK

Filosofi konservasi Ai-era: bagaimana menghabiskan setiap Token dalam sebuah pisau Mari kita pergi

SETELAH MEMBUAT A7 PADA BULAN ITU, IA TERJEBAK DALAM TIGA LAYAR

Produk

Undang-Undang & Sokongan

Pautan Rakan