Pada metode ini, derau Gaussian ditambahkan ke gambar beresolusi rendah, dan proses difusi diulang dari gambar yang telah diberi derau tersebut.
Proses ini memungkinkan tahap superresolusi untuk memperbaiki artefak dari tahap sebelumnya, sehingga gambar dapat diperhalus lebih lanjut.
Model ini bekerja dalam ruang citra laten, yang dikompresi delapan kali dari ruang piksel aslinya.
Dengan menggunakan jadwal pengaburan linier yang disederhanakan, model ini dapat mengintegrasikan detail dari tahap awal dan tahap superresolusi dengan efisien, menghasilkan gambar dengan resolusi sangat tinggi, seperti 2048×2048 piksel.
Selain itu, proses pelatihan CogView3 dioptimalkan melalui strategi otomatis untuk menghasilkan ulang teks gambar dengan menggunakan GPT-4V, memungkinkan penyelarasan yang lebih baik antara data pelatihan dan instruksi pengguna.
Eksperimen yang disajikan dalam penelitian ini menunjukkan bahwa CogView3 memiliki keunggulan dibandingkan model lain, terutama dalam hal menjaga keseimbangan antara kualitas gambar dan efisiensi komputasi.
Baca Juga: Fitur AI Apple Intelligence di iPhone 16 Series Meluncur pada 28 Oktober 2024
Dalam penilaian oleh manusia menggunakan dataset seperti DrawBench dan PartiPrompts, CogView3 secara konsisten mengungguli model-model terkemuka seperti SDXL dan Stable Cascade.
Nilai Aesthetic Score, Human Preference Score (HPS v2), dan ImageReward menunjukkan bahwa gambar yang dihasilkan lebih estetis dan lebih selaras dengan prompt.
Selain itu, CogView3 mampu mempertahankan kualitas tinggi sambil mengurangi waktu inferensi, menjadikannya sangat relevan untuk aplikasi praktis.
Versi yang disempurnakan bahkan mampu mencapai waktu inferensi 1,47 detik per gambar, sambil tetap bersaing dalam kualitas, menunjukkan efisiensi dari pendekatan difusi relai yang digunakan.
Penelitian selanjutnya dapat mengeksplorasi peningkatan kemampuan model untuk menangani resolusi yang lebih tinggi serta menyempurnakan metode penyulingan untuk memperluas kemampuan AI generatif dalam waktu nyata.
Penulis: Nadya Mayangsari
Dilarang mengambil dan/atau menayangkan ulang sebagian atau keseluruhan artikel di atas untuk konten akun media sosial komersil tanpa seizin redaksi
Sumber: Marktechpost.com