Beamforming with Kinect

Kinect adalah perangkat pendeteksi gerakan (motion sensing) buatan Microsoft yang awalnya dijual bersama perangkat konsol game, Xbox 360 dan Xbox One, walaupun kini juga sudah dijual terpisah. Kalau melihat sejarahnya, Kinect ini kalau tidak salah dibuat untuk melawan konsol Nintendo zaman dulu, Wii, yang juga support motion sensing tapi menggunakan remote.

Tapi menurut pengamatan saya Kinect ini ternyata kurang laku di pasaran. Buktinya dulu paket ini diwajibkan untuk Xbox One. Tapi sekarang sudah ada paket yang tanpa Kinect dengan harga 100 dollar lebih murah karena orang kurang minat pakai Kinect. Saya sudah coba dua game yang menggunakan Kinect, Kinect sport dan Kinect Star Wars, dan memang agak pegal kalau harus main sambil gerak-gerakin tangan  terus-terusan. Lebih nyaman pakai controller sambil duduk anteng.

Kinect kalau saya bilang malah lebih disambut antusias oleh kalangan akademik yang memakainya untuk berbagai topik riset. Alasannya adalah fitur depth camera dari Kinect yang memang powerful serta harganya yang relatif murah karena diproduksi masal. Misalkan untuk problem localization pada robot, daripada memakai Lidar seperti yang ada di atas Google self-driving car yang mahal, lebih murah jika menggunakan Kinect. Dulu di lab tempat saya jadi asisten di Fasilkom sendiri Kinect dipakai untuk pengenalan bahasa isyarat. Yang tertarik bisa membaca lebih lanjut paper berikut: Spectral domain cross correlation and generalized learning vector quantization for recognizing and classifying Indonesian Sign and Language dan Combining depth image and skeleton data from Kinect for recognizing words in the sign system for Indonesian language (SIBI [Sistem Isyarat Bahasa Indonesia]).

Tapi post kali ini tidak akan membahas lebih lanjut fitur depth kamera dari Kinect, melainkan microphone array untuk melakukan beamforming untuk speech recognition.

Beamforming sendiri adalah teknik untuk mengetahui arah datangnya suara dengan menggunakan lebih dari satu microphone. Harapannya dengan mengetahui arah tersebut, mic dapat difokuskan ke arah tersebut sehingga mengurangi noise yang datang dari arah yang lain. Nah, suara yang lebih bersih dari noise inilah yang kemudian diharapkan akan memberikan performa pengenalan yang lebih baik pada speech recognition.

Untuk menguji hipotesis tersebut, di-settinglah eksperimen dimana suara diambil dari 6 lokasi berbeda dengan menggunakan dan tidak menggunakan fitur beamforming dari kinect. Suara ini kemudian akan dicoba dikenali. Fitur yang dipakai adalah Mel Frequency Coefficient Cepstrum (MFCC) dengan menggunakan Hidden Markov Model (HMM) yang sebelumnya sudah dilatih memakai software HTK.

Hasilnya? ada peningkatan akurasi apabila membandingkan pengenalan kata pada posisi tidak tepat di depan Kinect apabila menggunakan beamforming. Tentunya hasil ini bukan definitif karena eksperimen yang dilakukan masih berskala kecil. Eksperimen dengan skala lebih besar harus dilakukan lagi untuk memverifikasinya. Tapi untuk hasil awal, lumayanlah.

Untuk lebih lengkapnya silakan lihat poster presentasi berikut.

poster_snip

Semoga berguna. Salam.

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s