Kemungkinan model yang akan digunakan karena berhasil menghasilkan output JSON:

Gemini
Gemma
Mistral
Deepseek
Qwen
Llama
qwq
Reka
Dolphin-Mistral
Llama-nemotron
DeepCoder
Shisa-llama
glm
mai ds r1
Devstral
Cypher
Hunyuan

Metodologi:

Prompt-tuning, teknik baru yang tidak memerlukan banyak daya komputasi. Teknik ini bekerja dengan hanya mengubah sedikit bagian (disebut prompt) dari model AI, sementara bagian lainnya tetap sama. Cara ini terbukti efektif untuk membuat pertanyaan yang bagus di berbagai situasi pembelajaran. Terutama cocok jika kita ingin menggunakan model AI umum untuk tugas tertentu tanpa harus melatih ulang seluruh model (Lester dkk., 2021). Dengan prompt-tuning, kita bisa dengan cepat menyesuaikan model AI agar menghasilkan pertanyaan yang sesuai dan mendukung tujuan pembelajaran tertentu.

Template prompt tunning soal pilihan ganda yang telah disesuaikan dan berhasil menghasilkan output sesuai dan diproses menjadi JSON

Create "${totalQuestions}" multiple-choice questions for "${educationLevel}" with a difficulty level of "${difficulty}" about "${topic}".
Format the output as a JSON array like this:

[
  {
    "question": "...",
    "options": ["...", "...", "...", "..."],
    "answer": "...",
    "explanation": "..."
  },
  ...
]

Note:
Return only the JSON array, do not add any explanation or extra text.
The output must be directly parseable by a program without any modifications.  
The answer options should NOT have prefixes like A, B, C, or D. Just provide the answer texts only.
Indonesian languages should be used for the question, options, answer, and explanation.

Template prompt tunning soal essai yang telah disesuaikan dan berhasil menghasilkan output sesuai dan diproses menjadi JSON

Create "${totalQuestions}" essay questions for "${educationLevel}" with a difficulty level of "${difficulty}" about "${topic}". 
Format the output as a JSON array like this:

[
  {
    "question": "...",
    "answer": "...",
    "explanation": "..."
  },
  ...
]

Note:
Return only the JSON array, do not add any explanation or extra text.
The output must be directly parseable by a program without any modifications.
DO NOT include any answer options. Just provide the answer text only.
Indonesian languages should be used for the question, options, answer, and explanation.

Contoh tabel LLM yang dievaluasi pada penelitian ini

Provider	Model	#Parameters	Release	Open
Google	gemini-flash-2.0	Not clear	2025-02	No
Google	gemma-3-27b	27b	2025-03	No
Tencent	hunyuan-a13b-instruct	80b	2025-06	Yes
dst	dst	dst	dst	dst

Penentu:

Kejelasan: mengevaluasi seberapa tepat dan mudah dimengertinya sebuah pertanyaan. Pertanyaan harus jelas dan tidak ambigu untuk mencegah kebingungan siswa.
Relevansi: menilai seberapa dekat pasangan pertanyaan-jawaban terkait dengan topik inti dari unit mata pelajaran. Hal ini mengukur seberapa baik pasangan pertanyaan-jawaban berkontribusi untuk memahami materi pelajaran.
Tingkat kesulitan: mengevaluasi seberapa sulit menjawab pertanyaan dan seberapa eksplisit jawaban tersebut dalam konteksnya.

Contoh Output / Hasil

Model	Kejelasan	Relevansi	Tingkat kesulitan
gemini-flash-2.0	0.6912	0.0098	0.0117
gemma-3-27b	0.0662	0.0006	0
hunyuan-a13b-instruct	0.1548	0.3614	0.0060
dst	dst	dst	dst

Konferensi IC2IE 2025

International Conference of Computer and Informatics Engineering (IC2IE) adalah konferensi tahunan sejak 2018 tentang berbagai bidang rekayasa komputer dan informatikaic2ie.org. Edisi ke-8 (IC2IE 2025) bertema “Human-Machine Synergy Brings Together the Physical and Digital Worlds.” Konferensi ini akan diadakan secara hybrid (online & luring) pada 11–12 September 2025 di Politeknik Negeri Jakarta (PNJ)ic2ie.org. Jadwal penting dari Call-for-Papers IC2IE 2025 menampilkan batas akhir paper submission pada 31 Juli 2025, pemberitahuan penerimaan 19 Agustus 2025, serta konferensi pada 11–12 September 2025 (lihat ilustrasi dibawah)【4†】.

Gambar: Cuplikan Call-for-Papers IC2IE 2025 (deadline submission 31 Juli 2025, konferensi 11–12 Sept 2025).

Panduan Penulisan (Template) IC2IE

IC2IE mensyaratkan makalah ditulis dalam bahasa Inggris menggunakan template standar IEEE Conference (halaman A4, dua kolom)easychair.org. Autor diminta tidak menambahkan nomor halaman atau header/footer, dan merujuk gaya sitasi IEEEeasychair.org. Panjang makalah optimal adalah 4–6 halamaneasychair.org (maksimal 10 halaman dengan biaya tambahan). Anda dapat mengunduh template Word atau LaTeX IEEE Conference (dari situs IEEE) untuk format yang tepat. Pastikan mengikuti pedoman tersebut agar paper Anda diterima.

Model AI untuk Pembuatan Soal Otomatis Bahasa Indonesia

Topik Anda adalah membandingkan model-model AI dalam pembuatan soal pilihan ganda dan esai bahasa Indonesia. Untuk itu, pilih model-model yang dapat diakses gratis (sesuai permintaan, tanpa API berbayar atau OpenAI/ChatGPT) dan yang relevan untuk Bahasa Indonesia. Berikut beberapa model kandidat beserta alasan pemilihan dan ukuran parameternya:

Google Gemini – Gemini adalah keluarga model multimodal terbaru Google DeepMind. Varian paling besar Ultra dilaporkan memiliki sekitar 1,56 triliun parameteraibase.com, sedangkan varian Pro sekitar 780 miliar dan Nano ~390 miliaraibase.com. Gemini mendukung pemahaman Bahasa Indonesia (disebutkan mendukung id dalam daftar bahasa)cloud.google.com. Kelebihan Gemini adalah kapabilitas penalaran dan multi-modalitas (teks, gambar, audio, video). Kekurangannya, API Gemini di Google Cloud adalah berbayar (tidak gratis), namun beberapa platform seperti OpenRouter menyediakan akses (versi Flash Experimental) yang dapat diuji secara gratisopenrouter.ai. Gemini penting untuk dibandingkan karena performa kelas atasnya.
DeepSeek V3 – Model MoE (mixture-of-experts) besar karya DeepSeek. Versi DeepSeek V3 terbaru memiliki sekitar 685 miliar parameteropenrouter.ai. Ini adalah model open-source untuk dialog/penjelasan, dengan pelatihan intensif (pretrain ~15 triliun token)openrouter.ai. DeepSeek V3 menonjol pada tugas koding dan percakapan, serta gratis tersedia melalui OpenRouter. Karena ukurannya sangat besar, model ini bisa dibandingkan untuk melihat seberapa baik ia menghasilkan soal dan esai dalam bahasa Indonesia.
Tencent Hunyuan A13B (Instruct) – Model MoE dari Tencent. Versi A13B Instruct memiliki 13 miliar parameter aktif, dengan total ~80 miliar parameter (ekspertnya)openrouter.ai. Model ini dioptimalkan untuk penalaran berjenjang (chain-of-thought) dan sejumlah benchmark matematika/coding, tetapi tetap ringan karena hanya sebagian parameter aktif. Hunyuan A13B dapat diakses gratis melalui OpenRouteropenrouter.ai. Alasan memilihnya: sebagai model MoE kompak, ia menunjukkan trade-off yang menarik antara kapasitas penalaran dan efisiensi.
Mistral Saba 24B – Model khusus regional dari Mistral AI. Saba adalah model 24 miliar parameter yang dilatih khusus untuk Bahasa Arab dan beberapa bahasa Asia Selatan/Indiagroq.com. Konteks jendelanya besar (32 ribu token) dan tersedia gratis di GroqCloud (termasuk free tier)groq.com. Meskipun fokusnya pada bahasa Arab/India, keunggulannya adalah kecepatan inferensi tinggi dan dukungan multimodal dasar. Ini memberikan sudut pandang perbandingan: model sedang (24B) dengan spesialisasi linguistik tertentu.

Setiap model di atas memenuhi syarat API gratis yang diminta (misalnya OpenRouter atau GroqCloud menyediakan akses tanpa biaya) dan bukan layanan OpenAI/ChatGPT. Mereka mewakili beragam skala (dari puluhan miliar hingga triliun parameter) dan arsitektur (generatif MoE, multimodal, khusus domain).

Jumlah Model Perbandingan

Untuk studi perbandingan yang informatif, sebaiknya bandingkan setidaknya 3–4 model berbeda agar terdapat variasi signifikan dalam ukuran dan arsitektur. Contoh kombinasi di atas (Gemini, DeepSeek V3, Hunyuan A13B, Mistral Saba) sudah mencakup rentang parameter dan jenis yang luas. Anda dapat memilih 3 atau 4 model sesuai kebutuhan eksperimen. Misalnya, bandingkan satu model sangat besar (Gemini Ultra), satu model besar (DeepSeek V3), dan satu atau dua model menengah (misalnya Hunyuan A13B dan Mistral Saba) untuk mendapatkan gambaran perbedaan performa dalam membuat soal otomat.

Referensi: Konferensi IC2IE 2025 mengharuskan makalah menggunakan IEEE conference templateeasychair.org, dan CFP menyebutkan deadline 31 Juli 2025【4†】. Besaran parameter dan deskripsi model di atas diambil dari dokumentasi/penjelasan model terkait

International Conference of Computer and Informatics Engineering (IC2IE) adalah konferensi tahunan bidang komputer dan informatika yang diadakan sejak 2018ic2ie.org. IC2IE 2025 (kesepuluh, 8th) bertema “Human-Machine Synergy Brings Together the Physical and Digital Worlds”, mengundang penelitian terkini di topik-topik seperti Artificial Intelligence, Natural Language Processing, dan E-Learningic2ie.org. Untuk pengajuan makalah, IC2IE mensyaratkan format IEEE (Word/A4 atau LaTeX) dengan panjang 4–6 halaman (maksimal 10 dengan biaya tambahan)easychair.org. Abstrak wajib disertakan, gunakan sitasi IEEE, dan jangan mencantumkan nama penulis dalam naskah revieweasychair.org.

Rancangan Struktur Makalah (Outline)

Makalah konferensi pada umumnya terdiri dari bagian-bagian berikut, yang bisa dijadikan poin bab dalam dokumen Word Anda:

Pendahuluan (Introduction): Latar belakang pembelajaran mesin dalam pembuatan soal, alasan memilih studi kasus soal pilihan ganda dan esai Bahasa Indonesia, serta tujuan riset.
Tinjauan Pustaka (Literature Review): Ulasan penelitian terkait penghasilan soal otomatis, penggunaan LLM/NLP dalam pendidikan, serta model-model AI yang pernah dibandingkan dalam tugas serupa.
Metodologi: Deskripsi metode pembuatan soal otomatis, termasuk data yang digunakan (contoh-soal SMP, dsb.), konfigurasi percobaan, serta pemilihan model AI yang dibandingkan.
Eksperimen dan Hasil: Sajikan eksperimen perbandingan model. Jelaskan pengaturan model (misal prompt tuning), metrik evaluasi (akurasi soal, kesesuaian jawaban, dll), dan hasil yang diperoleh (tabel/diagram).
Pembahasan: Analisis mengapa hasil berbeda antar model, kelebihan/kekurangan tiap model (kualitas soal, kecepatan, biaya, dsb.), serta implikasi untuk aplikasi pendidikan.
Kesimpulan: Ringkas temuan utama, saran untuk penelitian selanjutnya (misal fine-tuning atau dataset tambahan), dan penutup.
Daftar Pustaka: Referensi yang digunakan (gunakan format IEEE).

Bagian-bagian di atas mengikuti format standar konferensi IEEEeasychair.org, dan termasuk topik AI/NLP yang sesuai dengan cakupan IC2IE (misalnya Natural Language Processing dan E-Learning)

Berikut outline bab yang disarankan untuk paper konferensi IC2IE 2025 berdasarkan judul:
“Evaluasi Model AI Gratis untuk Pembuatan Soal Pilihan Ganda dan Esai Bahasa Indonesia Menggunakan Prompt Tuning”

🧾 Outline Bab Paper IC2IE (Format IEEE, 4–6 Halaman)

1. Pendahuluan (Introduction)

Latar belakang pentingnya asesmen otomatis dalam pendidikan (khususnya Bahasa Indonesia).
Peran LLM (Large Language Models) dalam pembuatan soal.
Tantangan dan peluang penggunaan model gratis/open-source.
Tujuan dan kontribusi penelitian ini: membandingkan beberapa model AI gratis dari platform seperti OpenRouter dan Groq untuk menghasilkan soal MCQ dan esai.
Struktur makalah.

2. Tinjauan Pustaka (Related Work / Literature Review)

Studi sebelumnya tentang pembuatan soal otomatis (automatic question generation).
Pemanfaatan LLM dan NLP dalam dunia pendidikan.
Review singkat model-model seperti LLaMA, Mistral, Gemini, dan lainnya.
Gap penelitian: belum banyak yang mengevaluasi model gratis untuk Bahasa Indonesia di konteks pendidikan.

3. Metodologi (Methodology)

Desain Eksperimen:
- Tugas: generate soal pilihan ganda dan esai.
- Bahasa: Bahasa Indonesia.
- Level: SMP.
Template Prompt:
- Menjelaskan prompt MCQ dan Essay yang digunakan.
Model yang Digunakan:
- Tabel: Nama model, parameter, sumber (Groq/OpenRouter), dll.
- Semua model digunakan dalam mode zero-shot prompt tuning.
Platform dan Tools: OpenRouter API, GroqCloud, Node.js script, dll.

4. Eksperimen dan Hasil (Experiments and Results)

Evaluasi Kualitatif:
- Contoh hasil soal dari masing-masing model.
- Penilaian berdasarkan: relevansi, kejelasan soal, kebenaran jawaban, penjelasan.
Evaluasi Kuantitatif (jika memungkinkan):
- Penilaian expert/guru (skala 1–5).
- Metrik seperti BLEU, ROUGE (jika dibandingkan dengan ground truth).
Tabel perbandingan hasil antar model (MCQ dan esai).

5. Pembahasan (Discussion)

Analisis perbedaan performa antar model.
Keunggulan model tertentu pada jenis soal tertentu (misalnya Gemini unggul di MCQ, LLaMA unggul di esai).
Implikasi praktis: mana yang cocok untuk integrasi ke sistem asesmen otomatis.

6. Kesimpulan dan Pekerjaan Selanjutnya (Conclusion and Future Work)

Ringkasan hasil utama dan rekomendasi model terbaik.
Keterbatasan studi (misal: tidak menggunakan fine-tuning, keterbatasan data).
Rencana selanjutnya: evaluasi lebih luas, integrasi ke platform LMS, dsb.

7. Daftar Pustaka (References)

Pastikan semua kutipan model dan platform (Google Gemini, OpenRouter, LLaMA, dsb.) dicantumkan.

Gunakan format IEEE: [1], [2], …

Gunakan Evaluasi Manual + AutoEval

A. Manual (oleh guru/ahli):

Skor 1–5 untuk: Kejelasan, Kesesuaian, Bahasa, Kesulitan, Jawaban

B. AutoEval (bila bisa):

Periksa grammar (pakai LLM)
Validasi struktur soal
Identifikasi plagiarisme

Tesis