Google Rilis Gemini Embedding 2, Model AI Pertama untuk Membaca Teks, Gambar, dan Video Secara Bersamaan

Apakah Anda pernah membayangkan sebuah sistem AI yang dapat membaca teks, gambar, dan video secara bersamaan? Google baru saja membuat hal tersebut menjadi kenyataan dengan merilis AI Model Gemini Embedding 2. Model ini, yang merupakan yang pertama dari jenisnya, dirancang untuk memahami konsep, baik dalam bentuk kata tertulis, ucapan, gambar, atau video. Inovasi ini bukan hanya mempermudah cara kerja model bahasa besar dalam memahami informasi, tetapi juga membuka peluang bagi aksi yang lebih kompleks.
Gemini Embedding 2: Model AI Multimodal Pertama
Google menyajikan detail model AI terbarunya dalam sebuah postingan. Model ini merupakan pengganti dari model embedding berbasis teks yang dirilis tahun lalu dan mampu menangkap intensi semantik dalam lebih dari 100 bahasa. Saat ini, Gemini Embedding 2 dapat diakses secara publik melalui antarmuka pemrograman aplikasi (API) Gemini dan Vertex AI.
Selanjutnya, model AI biasanya memiliki ‘kabinet file digital’ yang berbeda untuk menyimpan teks, foto, video, dan file audio. Setiap kali pengguna meminta informasi dalam format tertentu, model AI mulai mencari di kabinet spesifik tersebut. Biasanya, model bahasa besar (LLM) memandang “kucing” dalam dokumen teks dan “kucing” dalam video sebagai dua hal yang berbeda. Dan untuk memperumit masalah, metode untuk mendapatkan informasi berbeda untuk setiap format.
Namun demikian, Gemini Embedding 2 menyelesaikan masalah ini dengan menciptakan arsitektur baru yang hanya menggunakan satu kabinet untuk semua jenis informasi. Hal ini memungkinkan model untuk memproses dokumen yang memiliki teks dan gambar secara bersamaan, seperti yang dilakukan oleh manusia. Google menyatakan bahwa sistem baru ini menyederhanakan “pipa kompleks dan meningkatkan berbagai tugas downstream multimodal.” Beberapa di antaranya termasuk Generasi Diperkaya Pencarian (RAG) dan pencarian semantik, analisis sentimen, dan pengelompokan data.
Bagian berikutnya menjelaskan bahwa model AI ini memiliki jendela konteks teks hingga 8,192 token input. Model ini juga dapat memproses hingga enam gambar per permintaan dalam format PNG dan JPEG, dan mendukung hingga 120 detik input video dalam format MP4 dan MOV. Selain itu, model ini dapat memproses dan memetakan data audio secara asli tanpa membutuhkan transkripsi teks. Lebih lanjut, model ini juga dapat menyematkan hingga enam halaman PDF.
Terakhir, Gemini Embedding 2 juga dapat memahami input yang disisipkan, sehingga pengguna dapat mengirimkan beberapa modalitas (seperti teks dan gambar) dalam permintaan yang sama. Google mengatakan bahwa kemampuan ini memungkinkan model untuk mendapatkan pemahaman yang lebih akurat tentang data dunia nyata yang kompleks.



