Yapay Zekânın Oluşturduğu Görüntülerin Yolculuğunda Bir Durak – DALL.E2

Son günlerde yapay zeka arayüzleri ve onların oluşturdukları görseller internet ortamında en çok tartışılan şeylerden biri. Şimdilik bekleme listesi ile kullanıcılara açık olan, OpenAI tarafından geliştirilmiş DALL.E2’yi deneme şansım oldu. 

DALL·E 2, bir tanımdan, kelime örgüsünden gerçekçi görüntüler oluşturabilen, son dönemde giderek popüler bir hâl alan, yapay zekâ görüntü üretme sistemidir.

OpenAI, DALL-E 2’yi tanıttığında, internetin en merak edilen konularından biri hâline geldi. Dijital görselleştirme araçlarını henüz nasıl kullanacağını bilmeyen ancak bir şeyler üretmek isteyen birçok kişinin hayallerini süsledi. Profesyonellerin de ilgi alanına giren bir araca dönüşen DALLE, beraberinde oldukça geniş çaplı tartışmalar getirdi.

DALL·E 2 , görüntü oluşturan en gelişmiş yapay zeka sistemlerinden biri sayılıyor. Yazdığınız, hatta virgüller ile anahtar kelimeler ekleyerek detaylandırdığınız bir cümleyi, birkaç saniye içerisinde görselleştiriyor ve oldukça şaşırtıcı sonuçlar ortaya koyuyor. Örneğin hatalı da olsa “kumların üstüne ‘NFTIFY’ yaz dediğiniz anda size çeşitli seçenekler sunuyor. 

DALLE2 tarafından “kumların üstüne ‘NFTIFY’ yaz” komut cümlesi üzerinden üretilmiş görüntü.

Öncelikle DALL.E2 neler yapabiliyor ve yapamıyor bunlara değinmekte fayda var. DALL-E2 yukarıdaki örnekteki gibi herhangi bir kelime kombinasyonunu saniyeler içinde görüntüye dönüştürür. Bir sanat stilini ve akımını taklit edilebilir; ortam tasvir edilebilir. Bu ortamdaki aydınlatma, atmosfer koşulunu kurgulayabilir. Hatta kendi oluşturduğunuz bir görseldeki alanı seçerek oraya bir nesne ekleyebilirsiniz. Virgüller ile anahtar kelime algılaması oldukça iyi çalışan sisteme; “kahve içen fil, Picasso stili, yağlıboya” yazarsanız size bir resim, “kahve içen fil, foto gerçekçi, fotoğraf” yazarsanız size illüstrasyon veya resim yerine gerçekçi bir görüntü sağlayacaktır. Sistemin şimdilik İngilizce çalıştığını belirtmek gerek. Kısaca DALL.E2’yi senaryoyu sizin verdiğiniz ve sizin için çalışan bir görselleştirme yardımcısı olarak konumlandırabiliriz.

DALL-E2 şu süreçte oldukça fazla filtreye ve engellere sahip. Güvenlik, özel hayat ihlali, nefret söylemi, aldatıcı haber vb. durumlarla karşılaşmamak adına, görece ahlakçı ve temkinli bir yapay zekâ ile karşı karşıyayız. Sistem içerisinde pornografik görüntü oluşturmak, var olan bir insan yüzü ile oynamak, negatif anlamlar içerdiği düşünülen sözcükleri kullanmak yasak. Şimdilik sadece davetiye usulü çalışan site bu kurallara uymayan kullanıcıları sistemden çıkarıyor. Yakın zamanda Bager Akbay ve İlker Canikligil’in FluTV youtube kanalında yaptıkları bir test bu duruma iyi bir örnek olabilir.  Örneğin “savaş başlatmak üzere olan bir Hello Kitty” çiz dediğiniz an sistem bunu “savaş” kelimesi geçtiği için engelliyor. Dünya savaşını da kelime olarak kabul etmeyen sisteme savaş yerine WWII yazdığınız an filtre aşılıyor ve tank, savaş uçağı üzerinde bir Hello Kitty karakteri ile karşılaşıyorsunuz. Birçok makale ve haberde, bazı meslek gruplarının görselleştirilmesi sırasında bazı sorunların altı çizilmiş. Bu sorunlar tek beden tipi ve erkek genellemesi üzerinden çeşitleniyor. Geçtiğimiz aylarda çeşitli yapay zekâ görselleştirme programlarının ırkçı ve genelleyici dillerine şahit olmuştuk. DALLE2 ise şiddet, nefret söylemi ve pornografik içerikten uzak daha güvenli alanlarda yaratıcı endüstriye hizmet edecek gibi görünüyor. 

Gelelim bu sürümdeki bazı hatalara. DALL-E yukarıdaki “kum üzerine yazılmış NFTify” örneğinde gördüğümüz gibi font ve metinler konusunda çok kuvvetli değil. Keskin hatları olan geometrik desenlerin varyasyonlarını üretirken oldukça fazla sapmalar yaşıyor. Verdiğiniz kelimeyi illüstrasyon veya yağlı boya tablo gibi sunmaması için anahtar kelime olarak üslup belirtmekte fayda var. Örneğin karakalem kaplumbağa, kaplumbağa fotoğrafı, yağlıboya kaplumbağa gibi ifadeler farklı sonuçlar verecektir.

(Var olan keskin hatlı geometrik çalışmanın bir varyasyonu.)

Ortasında 2 kafa yer alan antik dönem mozaik görüntüsü.

Yüz konusunda da oldukça hassas olan sistem tekil portreler konusunda başarılı. Ancak çoklu yüz içeren fotoğraf veya gerçekçi görüntüleri oluşturmada biraz başarısız.

Uzayda ata binen astronot.

DALLE2 bilim konusunda da gerçek dışı tepkiler ortaya çıkarabiliyor. Örneğin test olarak verilmiş “güneş sistemi dizilimi” görüntüsünde bilim dışı sonuçlar sergilediği belirtilmiş.

Yeniden avantajlarına geçecek olursak; moda, tasarım, stok fotoğrafçılığının geleceği için çok önemli bir yardımcı araç olacağa benziyor. “Çilek şeklinde bir kahve kupası” görseline ihtiyaç duyduğumuz anda bize seçenekler verecek olan bu sistem, gelişmeye devam ediyor. Şimdilik 1K çözünürlüğe sahip görüntüler, nihai projelerde olmasa da ar-ge sürecinde yaratıcı endüstrinin önemli iş birlikçilerinden biri olacak gibi görünüyor.

A photo of Michelangelo’s sculpture of David wearing headphones djing.

DALLE2’yi araştırdığım süreçte karşıma çıkan müthiş blog içeriklerinden birini yazmış olan Les Wrong ; “DALL-E ile çalışmak kesinlikle, teorik olarak İngilizceyi anlıyor olsa bile, insanlarla aynı ontolojide pek mantıklı olmayan bir tür yabancı varlıkla iletişim kurmaya çalışmak gibi geliyor.” diyor. DALLE2 ile iletişimi güçlendirmek için dile, virgüle dikkat etmekte fayda var.

Odada duran kırmızı bir top

Odanın ortasında duran kırmızı bir top, fotoğraf, geniş açı

Kırmızı bir top odanın ortasında duruyor, yağlıboya

Yukarıdaki örnekler gibi sıfatlar ile çeşitlendirildikçe farklı örnekler verecek bir sistemle karşı karşıyayız. Üstelik ortaya çıkan görüntüye müdahaleler eklemek ve çeşitlendirmek mümkün. Geniş açı, yakın plan, Wes Anderson renkleri, yağlıboya, tek çizgi illüstrasyon gibi tanımlamalar isteğinize uygun kadraj ve form için yardımcı olacaktır.

Sosyal medyada oldukça olumlu tepkiler alan bir denemem şu isteme cevaplarla ortaya çıktı.

“2 guys looking at each other in the restroom, William Adolphe Bouguereau style, neo classical painting, realism, french academic painting.”.

Ardından Instagram üzerinden oluşturduğum soruya gelen yanıtlar oldukça ilgi çekici bir tartışmayı ateşlendirdi. “Yapay zekânın ürettiği eserler kimin eseri?” sorusuna gelen onlarca cevap Dall.E2 ve benzerlerinin konumunu sorgulamamızı sağlayacak.

Twitter’da ise “DavidDorelilly.2” isimli kullanıcı DALL.E’nin neden bir dolandırıcılık olduğunu açıklayan, bazı noktalarına katıldığım bir gönderi paylaştı. Bu gönderide DALLE’nin hazırlık aşamasında kullanılan milyonlarca görüntünün aslında başkalarına ait olduğunu ve telif sorunları olan bir yapı olduğunu belirtti. Bu nedenle oluşacak tüm görsellerin hak ihlali içerdiğini bildirdi. “Dadaizm, kolaj, parodi, mizah gibi hazır nesne, verileri kullanan model ve akımlar için de aynı şeyi söyleyebilir miyiz? Bir aracın görüntü oluşturmadaki iş birlikçi/ eşlikçi konumu neden sorunludur? DALL-E2’ye tıpkı sanat okuluna girmiş bir öğrencinin teknikleri öğrenmesi, taklit ederek önceki nesil eserleri incelemesi gözü ile bakabilir miyiz?” gibi sorular çevresinde dönen tartışmaları izlemek oldukça ufuk açıcı ve keyifli.  Bir diğer tartışma konusu ise DALL-E2 ve benzeri sistemlerin hangi mesleklerin iş hacmini veya gücünü azaltacağı ile ilgili.

Orijinal görsel ve varyasyonları – Dall.E2 sitesinden.

DALLE2 şimdilik beta sürümünde ve bunun için bir bekleme listesine girmeniz gerekiyor. İlk açılışta 50 kullanım hakkı veren program ücretsiz olarak aylık 15 görüntü oluşturmaya izin veriyor ve istenirse daha fazla kullanım hakkı satın alınabiliyor. Özellikle NFT oluşturmak isteyen ve herhangi bir görselleştirme yazılımı kullanmayı bilmeyen insanlar için uçsuz bucaksız bir yaratım evrenine dönüşecek DALLE2 rakiplerinden daha popüler bir konumda gelişmeye devam ediyor. Kullanıcılara düşen ondan verim alabilmek için, iletişim dilini güçlendirmek.

Ahmet Rüstem

Önceki

Güneydoğu Asya’da İlk: Tayland Postası NFT Pulları

Sonraki

Netflix, The Gray Man Filmini Decentraland ile Metaverse'e Getiriyor

Related Posts
Total
9
Share