Universitas Tsinghua. (Wikipedia)
INDOZONE.ID - Universitas Tsinghua dan Zhipu AI, meluncurkan CogView3 dengan model berjenjang terbaru untuk meningkatkan hasil difusi teks ke gambar.
Model pembangkitan teks ke gambar saat ini menghadapi tantangan besar terkait efisiensi komputasi dan pemolesan detail gambar, terutama pada resolusi tinggi.
Sebagian besar model difusi melakukan proses pembangkitan dalam satu langkah, yang mengharuskan setiap tahap penghilangan derau diterapkan pada gambar beresolusi tinggi.
Hal ini menyebabkan biaya komputasi yang tinggi dan kurang efisien, sehingga sulit untuk menghasilkan detail yang halus tanpa menggunakan banyak sumber daya.
Tantangan utamanya adalah bagaimana mempertahankan atau meningkatkan kualitas gambar sambil secara signifikan mengurangi kebutuhan komputasi.
CogView3. (Youtube/@FahdMirza)
Para peneliti dari Universitas Tsinghua dan Zhipu AI memperkenalkan CogView3, sebuah pendekatan baru dalam pembuatan gambar dari teks yang menggunakan teknik yang disebut difusi relai.
Berbeda dengan model difusi satu tahap konvensional, CogView3 membagi proses generasi menjadi beberapa tahap, dimulai dengan pembuatan gambar beresolusi rendah, yang dilanjutkan dengan superresolusi berbasis relai.
Baca Juga: Wanita asal China Jalin Hubungan dengan Chatbot AI, Berkencan Romantis Sambil Melihat Sunset
Pendekatan bertahap ini memungkinkan penggunaan sumber daya komputasi yang lebih efisien, menghasilkan gambar beresolusi tinggi dengan biaya yang lebih rendah.
Luar biasanya, CogView3 berhasil mencapai tingkat keberhasilan 77,0% dalam penilaian manusia terhadap SDXL, model sumber terbuka terkemuka saat ini, dan hanya membutuhkan setengah waktu inferensi.
Varian CogView3 yang disuling lebih lanjut dapat memangkas waktu inferensi menjadi sepersepuluh dari yang diperlukan oleh SDXL, sambil tetap mempertahankan kualitas gambar yang serupa.
CogView3 mengadopsi struktur difusi relai berjenjang, yang pada awalnya menghasilkan gambar dasar beresolusi rendah, kemudian ditingkatkan secara bertahap untuk mencapai resolusi yang lebih tinggi.
Dilarang mengambil dan/atau menayangkan ulang sebagian atau keseluruhan artikel di atas untuk konten akun media sosial komersil tanpa seizin redaksi
Sumber: Marktechpost.com