Rabu, 16 OKTOBER 2024 • 10:20 WIB

Universitas Tsinghua dan Zhipu AI Luncurkan CogView3, Tingkatkan Hasil Difusi Teks ke Gambar

Author

Universitas Tsinghua. (Wikipedia)

INDOZONE.ID - Universitas Tsinghua dan Zhipu AI, meluncurkan CogView3 dengan model berjenjang terbaru untuk meningkatkan hasil difusi teks ke gambar.

Model pembangkitan teks ke gambar saat ini menghadapi tantangan besar terkait efisiensi komputasi dan pemolesan detail gambar, terutama pada resolusi tinggi.

Sebagian besar model difusi melakukan proses pembangkitan dalam satu langkah, yang mengharuskan setiap tahap penghilangan derau diterapkan pada gambar beresolusi tinggi.

Hal ini menyebabkan biaya komputasi yang tinggi dan kurang efisien, sehingga sulit untuk menghasilkan detail yang halus tanpa menggunakan banyak sumber daya.

Tantangan utamanya adalah bagaimana mempertahankan atau meningkatkan kualitas gambar sambil secara signifikan mengurangi kebutuhan komputasi.

Model CogView3

CogView3. (Youtube/@FahdMirza)

Para peneliti dari Universitas Tsinghua dan Zhipu AI memperkenalkan CogView3, sebuah pendekatan baru dalam pembuatan gambar dari teks yang menggunakan teknik yang disebut difusi relai.

Berbeda dengan model difusi satu tahap konvensional, CogView3 membagi proses generasi menjadi beberapa tahap, dimulai dengan pembuatan gambar beresolusi rendah, yang dilanjutkan dengan superresolusi berbasis relai.

Baca Juga: Wanita asal China Jalin Hubungan dengan Chatbot AI, Berkencan Romantis Sambil Melihat Sunset

Pendekatan bertahap ini memungkinkan penggunaan sumber daya komputasi yang lebih efisien, menghasilkan gambar beresolusi tinggi dengan biaya yang lebih rendah.

Luar biasanya, CogView3 berhasil mencapai tingkat keberhasilan 77,0% dalam penilaian manusia terhadap SDXL, model sumber terbuka terkemuka saat ini, dan hanya membutuhkan setengah waktu inferensi.

Varian CogView3 yang disuling lebih lanjut dapat memangkas waktu inferensi menjadi sepersepuluh dari yang diperlukan oleh SDXL, sambil tetap mempertahankan kualitas gambar yang serupa.

CogView3 mengadopsi struktur difusi relai berjenjang, yang pada awalnya menghasilkan gambar dasar beresolusi rendah, kemudian ditingkatkan secara bertahap untuk mencapai resolusi yang lebih tinggi.

Tidak seperti metode difusi berjenjang tradisional, CogView3 memperkenalkan metode baru yang disebut superresolusi relai.

Pada metode ini, derau Gaussian ditambahkan ke gambar beresolusi rendah, dan proses difusi diulang dari gambar yang telah diberi derau tersebut.

Proses ini memungkinkan tahap superresolusi untuk memperbaiki artefak dari tahap sebelumnya, sehingga gambar dapat diperhalus lebih lanjut.

Model ini bekerja dalam ruang citra laten, yang dikompresi delapan kali dari ruang piksel aslinya.

Dengan menggunakan jadwal pengaburan linier yang disederhanakan, model ini dapat mengintegrasikan detail dari tahap awal dan tahap superresolusi dengan efisien, menghasilkan gambar dengan resolusi sangat tinggi, seperti 2048×2048 piksel.

Selain itu, proses pelatihan CogView3 dioptimalkan melalui strategi otomatis untuk menghasilkan ulang teks gambar dengan menggunakan GPT-4V, memungkinkan penyelarasan yang lebih baik antara data pelatihan dan instruksi pengguna.

Hasil Eksperimen yang Disajikan

Eksperimen yang disajikan dalam penelitian ini menunjukkan bahwa CogView3 memiliki keunggulan dibandingkan model lain, terutama dalam hal menjaga keseimbangan antara kualitas gambar dan efisiensi komputasi.

Baca Juga: Fitur AI Apple Intelligence di iPhone 16 Series Meluncur pada 28 Oktober 2024

Dalam penilaian oleh manusia menggunakan dataset seperti DrawBench dan PartiPrompts, CogView3 secara konsisten mengungguli model-model terkemuka seperti SDXL dan Stable Cascade.

Nilai Aesthetic Score, Human Preference Score (HPS v2), dan ImageReward menunjukkan bahwa gambar yang dihasilkan lebih estetis dan lebih selaras dengan prompt.

Selain itu, CogView3 mampu mempertahankan kualitas tinggi sambil mengurangi waktu inferensi, menjadikannya sangat relevan untuk aplikasi praktis.

Versi yang disempurnakan bahkan mampu mencapai waktu inferensi 1,47 detik per gambar, sambil tetap bersaing dalam kualitas, menunjukkan efisiensi dari pendekatan difusi relai yang digunakan.

Penelitian selanjutnya dapat mengeksplorasi peningkatan kemampuan model untuk menangani resolusi yang lebih tinggi serta menyempurnakan metode penyulingan untuk memperluas kemampuan AI generatif dalam waktu nyata.

Penulis: Nadya Mayangsari

Dilarang mengambil dan/atau menayangkan ulang sebagian atau keseluruhan artikel di atas untuk konten akun media sosial komersil tanpa seizin redaksi

Sumber: Marktechpost.com