Xiaomi Rilis MiMo-V2.5, Model AI Multimodal Ungguli GPT-4o

Telset.id – Xiaomi memperkenalkan model kecerdasan buatan (AI) multimodal terbaru bernama MiMo-V2.5 pada 29 April 2026. Model ini diklaim mampu memproses teks, gambar, dan video secara simultan, serta menunjukkan performa unggul dalam sejumlah tolok ukur (benchmark) global.

Model AI terbaru Xiaomi ini hadir dengan parameter mencapai 7 miliar dan konteks jendela (context window) sebesar 4.000 token. Dalam pengumuman resminya, Xiaomi menyatakan bahwa MiMo-V2.5 mampu menyaingi model-model besar lain, termasuk GPT-4o milik OpenAI.

“MiMo-V2.5 menunjukkan hasil yang mengesankan dalam berbagai benchmark, termasuk MMLU, MMMU, MathVista, dan ChartQA. Model ini berhasil mengungguli model-model besar seperti GPT-4o, Gemini 2.0 Flash, dan Qwen2.5-VL-72B,” demikian pernyataan Xiaomi dalam siaran resminya.

Performa Unggul di Berbagai Benchmark

Xiaomi mempublikasikan hasil benchmark MiMo-V2.5 untuk menunjukkan kemampuannya. Dalam tolok ukur MMLU (Massive Multitask Language Understanding), model ini meraih skor 77,9. Sementara itu, dalam MMMU (Massive Multi-discipline Multimodal Understanding), skor yang dicapai adalah 69,7.

Untuk pengukuran kemampuan matematika dan visual, MiMo-V2.5 mencatatkan skor 66,5 di MathVista dan 81,8 di ChartQA. Xiaomi juga menyertakan perbandingan dengan model lain. Di MMLU, GPT-4o memperoleh skor 73,5, Gemini 2.0 Flash 75,5, dan Qwen2.5-VL-72B 75,7. MiMo-V2.5 unggul dengan skor 77,9.

Pada MMMU, GPT-4o mencatat 65,8, Gemini 2.0 Flash 66,9, dan Qwen2.5-VL-72B 70,8. MiMo-V2.5 berada di posisi menengah dengan skor 69,7. Sementara di MathVista, GPT-4o mendapat 63,8, Gemini 2.0 Flash 67,1, dan Qwen2.5-VL-72B 68,4. MiMo-V2.5 mencatat 66,5.

Di tolok ukur ChartQA, MiMo-V2.5 unggul signifikan dengan skor 81,8, dibandingkan GPT-4o (78,5), Gemini 2.0 Flash (78,4), dan Qwen2.5-VL-72B (80,2). Model ini juga diuji dalam DocVQA, OCRBench, TextVQA, POPE, GQA, dan MMBench, meskipun Xiaomi tidak merinci skor untuk model pesaing di tolok ukur tersebut.

Fitur Multimodal dan Ketersediaan

MiMo-V2.5 hadir dengan kemampuan multimodal yang memungkinkan pemrosesan teks, gambar, dan video secara bersamaan. Xiaomi juga menyebutkan bahwa model ini mendukung pengenalan gambar multi-putaran (multi-turn image recognition).

Dalam siaran resminya, Xiaomi menyatakan bahwa model ini sudah tersedia secara terbuka (open source) melalui platform Hugging Face. “Model ini sudah bisa diakses di Hugging Face,” tulis Xiaomi. Selain itu, MiMo-V2.5 juga dapat diunduh melalui situs resmi Xiaomi.

Xiaomi menyebutkan bahwa model ini dirancang untuk berbagai aplikasi, termasuk asisten virtual, analisis dokumen, dan pengenalan gambar. Namun, perusahaan tidak merinci lebih lanjut mengenai rencana integrasi model ini ke dalam produk komersialnya.

Dengan dirilisnya MiMo-V2.5, Xiaomi menunjukkan ambisinya untuk bersaing di pasar model AI global. Model ini menawarkan alternatif open source yang kompetitif di tengah dominasi model-model besar dari perusahaan teknologi lainnya.

Ilustrasi model AI Xiaomi MiMo-V2.5