Jumat, 21 November 2025

Perbandingan Biaya & Performa AI Agent: Gemini Flash 2.5, GPT-4o-Mini, dan LLaMA Phi-3 Mini

Dalam pengembangan AI Agent untuk aplikasi production, dua hal utama yang selalu menjadi pertimbangan adalah performa dan biaya operasional. Untuk itu, saya melakukan pengujian pada tiga model berbeda—Gemini Flash 2.5, GPT-4o-mini, dan LLaMA Phi-3 Mini yang dijalankan di server baremetal—untuk melihat model mana yang paling efisien dan realistis dipakai dalam skenario dunia nyata.

Tulisan ini merangkum hasil pengujian tersebut, mencakup kecepatan respon, akurasi, kebutuhan hardware, dan estimasi biaya dari masing-masing model. AI Agent dikembangkan untuk bisa membaca data-data spesifik secara realtime. Algoritma yang digunakan untuk semua model dalam AI Agent adalah sama sehingga kita dapat perbandingan kecerdasan, ketepatan dan kecepatan model.


๐Ÿ“Œ Model yang Diuji

1. Gemini Flash 2.5 (Google)

Dirancang untuk kecepatan dan efisiensi biaya. Dari seluruh pengujian, model ini memberikan hasil paling cepat dengan struktur jawaban yang bersih dan rapi.



2. GPT-4o-mini (OpenAI)

Model kecil namun sangat stabil dan konsisten. Menawarkan kualitas reasoning yang cukup baik tanpa biaya setinggi model besar.



3. LLaMA Phi-3 Mini (Server Baremetal)

Model ini dijalankan di server pribadi dengan spesifikasi:

  • 20 core CPU

  • 8 GB RAM

Hasilnya cukup mengejutkan—meskipun ukurannya kecil, performanya justru sangat lambat, dengan karakteristik:

  • CPU selalu terpakai 100% selama inference

  • RAM hampir tidak terpakai

  • Tidak adanya GPU menjadi bottleneck besar

  • Waktu response sangat lama

Temuan penting: LLM modern tetap membutuhkan GPU; CPU saja tidak cukup untuk pengalaman penggunaan yang layak.







⚡ Performa Model

Gemini Flash 2.5

  • Respons paling cepat di antara semua model.

  • Output rapi, stabil, dan mudah diproses.

  • Ideal untuk workload singkat maupun intensif.

GPT-4o-mini

  • Jawaban akurat dan sangat konsisten.

  • Lebih lambat dari Flash 2.5, tetapi kecerdasan reasoning lebih baik.

  • Cocok untuk aplikasi yang membutuhkan keseimbangan antara kualitas dan biaya.

LLaMA Phi-3 Mini

  • Performa paling lambat.

  • Akurasi rendah dibanding model cloud.

  • Keuntungan utama: dapat berjalan sepenuhnya offline.


๐Ÿ’ฐ Estimasi Biaya Menggunakan API

1. Gemini Flash 2.5

Perkiraan biaya API:

  • Input: $0.10 per 1 juta token

  • Output: $0.30 per 1 juta token

Simulasi (1.000 pengguna × 20 query/hari × 400 token):

  • Total token/hari: 8.000.000

  • Biaya per hari: ± $3.20

  • Biaya per bulan: ± $96 (≈ Rp 1.536.000)

Kesimpulan: Murah, cepat, dan stabil → pilihan terbaik untuk produksi skala kecil hingga menengah.


2. GPT-4o-mini

Perkiraan biaya API:

  • Input: $0.15 per 1 juta token

  • Output: $0.60 per 1 juta token

Simulasi yang sama (8 juta token/hari):

  • Biaya harian: ± $6

  • Biaya bulanan: ± $180 (≈ Rp 2.880.000)

Kesimpulan: Lebih mahal dari Flash 2.5, tetapi memiliki kemampuan reasoning yang lebih baik.


๐Ÿ’ป Estimasi Biaya Menjalankan LLaMA di Server Baremetal

Menjalankan LLaMA sendiri memang gratis dari sisi API, tetapi memiliki biaya infrastruktur yang tidak kecil.

1. Biaya Server

Opsi yang mungkin digunakan:

  • Server fisik: tergantung spesifikasi

  • VPS setara 16–20 vCPU: Rp 600.000 – Rp 1.200.000/bulan

2. Biaya Listrik (server 20 core)

  • Konsumsi saat inference: ±150W

  • Total pemakaian: 150W × 24 jam × 30 hari = 108 kWh/bulan

  • Tarif PLN: Rp 1.700/kWh

  • Total biaya: ± Rp 183.600/bulan

3. Kesimpulan LLaMA Lokal

  • Privasi tinggi dan tanpa biaya API.

  • Namun lambat tanpa GPU, memerlukan listrik cukup besar, serta butuh maintenance.

  • Tidak disarankan untuk aplikasi publik atau skala besar.


๐Ÿงพ Ringkasan Perbandingan

ModelKecepatanBiaya BulananCocok Untuk
Gemini Flash 2.5⭐⭐⭐⭐⭐± Rp 1.5 jutaProduction skala kecil-menengah
GPT-4o-mini⭐⭐⭐⭐± Rp 2.8 jutaProduction menengah-atas
LLaMA Phi-3 Mini⭐⭐± Rp 200 ribu + listrik/maintenanceRiset, offline, privasi tinggi

๐Ÿ“ Kesimpulan Utama

  • Gemini Flash 2.5 → paling cepat dan paling hemat; sangat direkomendasikan.

  • GPT-4o-mini → lebih mahal tetapi reasoning lebih kuat.

  • LLaMA Phi-3 Mini → cocok untuk penggunaan privat/offline, tetapi tidak efisien tanpa GPU.

Dengan memahami biaya dan performa masing-masing model, kita bisa menentukan model mana yang paling sesuai untuk kebutuhan AI Agent—baik untuk riset maupun skala produksi yang lebih luas.

Perbandingan Biaya & Performa AI Agent: Gemini Flash 2.5, GPT-4o-Mini, dan LLaMA Phi-3 Mini

Dalam pengembangan   AI Agent   untuk aplikasi production, dua hal utama yang selalu menjadi pertimbangan adalah   performa   dan   biaya op...