Basit, Doğru ve Verimli: Bilgisayarların El Hareketlerini Tanıma Şekli İyileştiriliyor
2002’de gişe rekorları kıran bilim kurgu filmi “Azınlık Raporu”nda, Tom Cruise’un karakteri John Anderton, duvar boyutundaki şeffaf bilgisayar ekranıyla arayüz oluşturmak için özel eldivenler giydiği ellerini kullanıyor. Bilgisayar, onun büyütme, yakınlaştırma ve kaydırma hareketlerini tanıyor. Bilgisayar-insan etkileşimi için bu fütürist vizyon şimdi 20 yaşında olmasına rağmen, günümüz insanları hala bir fare, klavye, uzaktan kumanda veya küçük dokunmatik ekran kullanarak bilgisayarlarla arayüz oluşturmaktadır. Bununla birlikte, araştırmacılar, kullanıcı ve cihaz arasında temas gerektirmeden daha doğal iletişim biçimlerinin kilidini açmak için çok çaba sarf etmişlerdir. Sesli komutlar, modern akıllı telefonlarda ve sanal asistanlarda yolunu bulan, konuşma yoluyla cihazlarla etkileşime girmemizi ve cihazları kontrol etmemizi sağlayan önemli bir örnektir.
El hareketleri, insan-bilgisayar etkileşimleri için benimsenebilecek bir diğer önemli insan iletişim modunu oluşturmaktadır. Kamera sistemlerindeki son gelişmeler, görüntü analizi ve makine öğrenmesi, optik tabanlı jest tanımayı çoğu bağlamda Anderton tarafından “Azınlık Raporu”nda kullanıldığı gibi giyilebilir sensörlere veya veri eldivenlerine dayanan yaklaşımlardan daha çekici bir seçenek haline getirmiştir. Bununla birlikte, mevcut yöntemler, yüksek hesaplama karmaşıklığı, düşük hız, zayıf doğruluk veya düşük sayıda tanınabilir hareket dahil olmak üzere çeşitli sınırlamalar tarafından engellenmektedir. Çin’deki Sun Yat-sen Üniversitesi’nden Zhiyi Yu liderliğindeki bir ekip, bu sorunları çözmek için yakın zamanda karmaşıklık, doğruluk ve uygulanabilirlik arasında iyi bir denge sağlayan yeni bir el hareketi tanıma algoritması geliştirmiştir. Journal of Electronic Imaging’de yayınlanan makalelerinde ayrıntılı olarak açıkladıkları gibi, ekip temel zorlukların üstesinden gelmek için yenilikçi stratejiler benimsemiş ve tüketici düzeyindeki cihazlarda kolayca uygulanabilecek bir algoritma gerçekleştirmiştir.
Algoritmanın temel özelliklerinden biri farklı el tiplerine uyarlanabilir olmasıdır. Algoritma önce avuç içi genişliği, avuç içi uzunluğu ve parmak uzunluğu arasındaki ilişkileri hesaba katan üç ölçüme dayalı olarak kullanıcının el tipini ince, normal veya geniş olarak sınıflandırmaya çalışır. Bu sınıflandırma başarılı olursa, el hareketi tanıma sürecindeki sonraki adımlar, yalnızca giriş hareketini aynı el tipinde saklanan örneklerle karşılaştırır. “Geleneksel basit algoritmalar, farklı el türleriyle başa çıkamadıkları için düşük tanıma oranlarından muzdarip olma eğilimindedir. Önce giriş hareketini el türüne göre sınıflandırarak ve ardından bu türle eşleşen örnek kütüphaneleri kullanarak neredeyse ihmal edilebilir kaynak tüketimi ile genel tanınma oranını iyileştirebiliriz,” diye açıklamıştır Yu.
Ekibin yönteminin bir diğer önemli yönü, bir ön tanıma adımını gerçekleştirmek için bir “kısayol özelliğinin” kullanılmasıdır. Tanıma algoritması, olası dokuz hareketten bir giriş hareketini belirleme yeteneğine sahip olsa da, giriş hareketinin tüm özelliklerini, tüm olası hareketler için saklanan örneklerin özellikleriyle karşılaştırmak çok zaman alacaktır. Bu sorunu çözmek için, ön tanıma adımı, olası dokuz hareketten en olası üç hareketi seçmek için elin alanının bir oranını hesaplar. Bu basit özellik, aday hareketlerin sayısını üçe indirmek için yeterlidir; bunların arasından son harekete “Hu sabit/değişmez anları”na dayalı çok daha karmaşık ve yüksek hassasiyetli bir özellik çıkarımı kullanılarak karar verilir. Yu, “Hareket ön tanıma adımı yalnızca gereken hesaplama ve donanım kaynaklarının sayısını azaltmakla kalmıyor, aynı zamanda doğruluktan ödün vermeden tanıma hızını da artırıyor” demiştir.
Ekip, algoritmasını hem ticari bir PC işlemcisinde hem de bir USB kamera kullanarak bir FPGA platformunda test etmiştir. Örnek kütüphaneyi oluşturmak için dokuz el hareketini birden çok kez yapan 40 gönüllü ve sistemin doğruluğunu belirlemek için başka bir 40 gönüllü vardır. Genel olarak, sonuçlar, önerilen yaklaşımın, giriş hareketi görüntüleri döndürülse, çevrilse veya ölçeklense bile, el hareketlerini gerçek zamanlı olarak %93’ü aşan bir doğrulukla tanıyabildiğini göstermiştir. Araştırmacılara göre, gelecekteki çalışmalar, zayıf aydınlatma koşullarında algoritmanın performansını iyileştirmeye ve olası hareketlerin sayısını artırmaya odaklanacaktır.
Hareket tanıma, umut verici birçok uygulama alanına sahiptir ve elektronik cihazları kontrol etmenin yeni yollarının önünü açabilir. İnsan-bilgisayar etkileşiminde bir devrim çok yakın olabilir!
Kaynak: techxplore.com