Spotify ayrıca podcast’leri sunucuların kendi seslerini kullanarak çevirmek için OpenAI teknolojisini kullanıyor.
SohbetGPT Chatbot’un sesli komutlarla ve görüntü tabanlı sorgularla başa çıkmasını sağlayacak bazı önemli güncellemeler alıyor. Kullanıcılar, Android ve iOS’ta ChatGPT ile sesli görüşme yapabilecek ve tüm platformlarda ona resim gönderebilecek.OpenAI özellikleri şimdi kullanıma sunuyor. İlk etapta Plus ve Enterprise kullanıcılarına sunulacak, daha sonra diğer kullanıcılar da görüntü tabanlı özelliklere erişebilecek.
Denemek istiyorsanız ChatGPT uygulamasında sesli konuşmaları etkinleştirmeniz gerekir (Ayarlar’a, ardından Yeni Özellikler’e gidin). Mikrofon düğmesine dokunarak beş farklı ses arasından seçim yapabileceksiniz.
OpenAI, ileri geri sesli konuşmaların, “sadece metinden ve birkaç saniyelik örnek konuşmadan insan benzeri ses” üretebilen yeni bir metinden konuşmaya modeli tarafından desteklendiğini söylüyor. Profesyonel oyuncuların yardımıyla beş sesi yarattı. Diğer taraftan, şirketinFısıltı konuşma tanıma sistemikullanıcının söylediği kelimeleri metne dönüştürür.
Görüntü tabanlı işlevler de ilgi çekicidir. OpenAI, örneğin, chatbot’a ızgaranızın bir fotoğrafını gösterip neden başlamadığını sorabileceğinizi, buzdolabınızdaki bir şeye göre bir yemek planlamanıza yardımcı olabileceğini veya çözdüğünüz bir matematik problemini çözmesini isteyebileceğinizi söylüyor. Bir resim çekmek. Microsoft, Copilot AI’nın özelliklerini vurguladı matematik problemlerini çözme yeteneğiGeçen hafta Surface etkinliği sırasında Windows’ta.
OpenAI, görüntü tanıma özelliklerini desteklemek için GPT-3.5 ve GPT-4’ü kullanıyor. ChatGPT’nin görüntü tabanlı işlevlerini kullanmak için fotoğraf düğmesine dokunarak (iOS veya Android’de önce artı düğmesine dokunmanız gerekir) fotoğraf çekin veya cihazınızda mevcut bir görüntüyü seçin. ChatGPT’ye birden fazla fotoğraf sorabilir ve görüntünün belirli bir kısmına odaklanmak için bir çizim aracı kullanabilirsiniz.
Bir blog yazısındaGüncellemeleri duyuran OpenAI, zarar potansiyeline dikkat çekti. Kötü aktörlerin tanınmış kişilerin (ve sıradan insanların) seslerini taklit etmesi ve belki de dolandırıcılık yapması mümkündür. Bu nedenle OpenAI, bu teknolojiyle ChatGPT sesli görüşmelerine odaklanıyor ve diğer sınırlı kullanım durumları üzerinde seçkin iş ortaklarıyla birlikte çalışıyor (bununla ilgili daha fazla bilgi birazdan verilecek).
Resimlere gelince, OpenAI şununla çalıştı: Gözlerim Ol, kendileriyle görüntülü görüşmelere katılan gönüllüler sayesinde görme engelli ve az gören insanların çevrelerini daha iyi anlamalarına yardımcı olmak için kullanabileceği ücretsiz bir uygulama. OpenAI, “Kullanıcılar bize, uzaktan kumanda ayarlarınızı çözmeye çalışırken birisinin TV’de görünmesi gibi, arka planda insanları içeren görüntüler hakkında genel konuşmalar yapmayı değerli bulduklarını söylediler.” dedi. Şirket, “ChatGPT her zaman doğru olmadığından ve bu sistemlerin bireylerin mahremiyetine saygı duyması gerektiğinden”, ChatGPT’nin görüntülerde görünen kişileri analiz etme ve onlar hakkında doğrudan açıklama yapma şeklini de sınırladığını belirtti. Varbir makale yayınladı. GPT-4’ün vizyonla birlikte adlandırdığı görüntü tabanlı işlevselliğin güvenlik özellikleri hakkında.
ChatGPT, görsellerdeki İngilizce metinleri anlamada diğer dillere göre daha etkilidir. OpenAI, chatbot’un şimdilik diğer dillerde, özellikle de Latin alfabesi olmayan alfabeler kullananlarda “kötü performans gösterdiğini” söylüyor. Bu nedenle, İngilizce bilmeyen kullanıcıların şimdilik görsellerdeki metinlerle ilgilenmek için ChatGPT’yi kullanmaktan kaçınmaları öneriliyor.
Bu arada Spotify, ses tabanlı teknolojiyi ilginç bir amaç için kullanmak üzere OpenAI ile işbirliği yaptı. İlki, podcast yayıncıları için Sesli Çeviri adlı bir aracın pilot sürümünü duyurdu. Bu, programda yer alan kişilerin seslerini kullanarak podcast’leri farklı dillere çevirebilir. Spotify, aracın, orijinal konuşmacının sesini başka dillere dönüştürdükten sonra konuşma özelliklerini koruyabileceğini söylüyor.
Başlangıç olarak Spotify, İngilizce tabanlı seçili programları birkaç dile dönüştürüyor. Bazı Koltuk Uzmanı ve The Diary of a CEO’nun Steven Bartlett bölümlerinin yer aldığı İspanyolca versiyonları şu anda mevcut Bunu Fransızca ve Almanca versiyonları takip edecek.
İlk yorum yapan siz olun