learning machine learning

book background

*Tetot* mengulang kata learning…

Di era informasi seperti sekarang ini, ada banyak sekali resource untuk belajar machine learning yang tersedia di internet. Mulai dari video lecture di youtube, kuliah online, artikel web, buku, dll. Hal ini tentunya sangat membantu bagi orang yang hendak belajar machine learning dari awal tanpa perlu mengeluarkan biaya sepeserpun (kecuali mungkin pulsa dan kuota data, yang bisa dibeli di traveloka dulu https://www.traveloka.com/connectivity/paket-internet)

Bingung memilih materi yang cocok untuk dipakai belajar? Post kali ini akan memberikan sedikit rekomendasi untuk memilih materi terbaik dari semua materi yang tersedia di internet.

Berdasarkan hasil diskusi dengan teman dan kolega kerja saya, 4 dari 5 data scientist  merekomendasikan 3 online course berikut:

  1. Udacity Intro to Machine Learning. Course yg diajar oleh Sebastian Thrun ini, berdasarkan pengakuan teman, saya lebih condong dalam aplikasi machine learning di berbagai bidang yang di-solve menggunakan open source library semacam sklearn. Cocok untuk pemula yang mungkin belum pernah mendapatkan kuliah tentang machine learning.
  2. Coursera Machine Learning. Course legendaris dari Andrew Ng ini akan menjelaskan intuisi dari berbagai algoritma ditambah implementasinya, seperti logistic regression, sehingga kita bisa dapat gambaran kenapa suatu algoritma bisa bekerja tanpa terlalu dikaburkan oleh turunan matematikanya.
  3. edX Learning from Data. kalau yang ini, berdasarkan testimoni yang sudah mengambil, sangat sarat dengan derivasi matematika dengan tingkat kesulitan tugas yang lumayan tinggi karena memang diambil dari course sungguhan di CalTech. Sangat disarankan kalau memang ingin mendalami lebih jauh secara teoritis algoritma machine learning.

Kalau setelah mengambil ketiga course di atas kita ingin mendalami lebih lanjut bagaimana machine learning digunakan ke spesifik bidang aplikasi, misal untuk bidang computer vision maka bisa dilanjutkan ke cs231n, yang diajar langsung oleh Andrej Karpathy. Sedangkan untuk natural language processing, bisa dilanjutkan ke cs224n.

Kalau misalkan ingin melanjutkan mendalami spesifik ke deep learning, kelas algoritma yang lagi hangat-hangatnya, maka resource yang bisa digunakan adalah buku deep learning yang ditulis oleh Ian Goodfellow dan Yoshua Bengio (http://www.deeplearningbook.org/).

Nah, kalau misalkan sudah mendapat basic fundamental pemahaman machine learning yang cukup lewat course di atas, langkah selanjutnya yang bisa dilakukan adalah keep up dengan hasil perkembangan riset terbaru, apalagi untuk bidang deep learning yang sekarang sedang pesat-pesatnya.

Cara pertama menurut saya adalah dengan me-follow akun twitter dari researcher-researcher machine learning itu sendiri. Mereka sering berdiskusi dengan semangat apabila ada hasil terbaru dari paper yang mungkin kontroversial. Kekurangannya mungkin ada bakal ada sesekali bahasan yang tidak masuk ranah machine learning sama sekali, seperti kondisi politik Amerika Serikat. Untuk rekomendasi akun twitter apa saja yang menarik untuk di-follow, bisa refer ke thread ini.

Selain itu, komunitas yang paling aktif untuk berdiskusi menurut saya adalah di reddit.com/r/machinelearning. Banyak thread-thread menarik yg membahas mengenai artikel terpopuler, paper terbaru, bahkan drama dan gosip terhangat di ranah machine learning itu sendiri. Orang-orang besar dan berpengaruh di machine learning juga suka nimbrung di diskusinya. Bahkan Google Brain sudah dua kali mengadakan AMA di sini. Secara user, r/ml ini lebih spesifik dari hacker news dan format diskusinya lebih cocok menurut saya kalau dibanding quora. Tentu saja, yang namanya forum internet pasti ada saja sekumpulan troll yang suka ngomong seenak udel, mengganggu ketentraman dan jalannya diskusi. Tapi, dengan method upvoting/downvoting dan active moderation, gejalanya bisa ditekan, dan diskusi bisa berjalan dengan lancar.

Kalau mau benar-benar update, teman-teman bisa subscribe di arxiv (https://arxiv.org/help/subscribe), tempat di mana researcher mengunggah paper mereka sebelum nantinya muncul di conference top machine learning macam NIPS dan CVPR (perhatikan karena rate progress yang sangat kencang, publikasi di jurnal tidak menjadi pilihan utama, karena pada waktu artikel ter-publish 6 bulan kemudian bisa jadi ide-nya sudah kadaluwarsa).

Demikian, semoga bermanfaat. Happy learning machine learning…

Iklan

tips jalan-jalan

compass.PNG

Post kali ini saya ingin membagi tips (based on true story) kepada teman pembaca yang budiman yang mungkin hendak melakukan perjalanan ke luar negeri.

Tips navigasi

Apakah Anda tipe orang yang suka nyasar kalau jalan sendiri dan sangat mengandalkan Google Maps untuk bernavigasi dalam menemukan tempat tujuan Anda? Sayangnya di luar negeri Anda tidak bisa sepenuhnya memakai Google Maps karena dibatasi roaming yang mahal untuk menggunakan paket data internet.

Salah satu solusi yang bisa digunakan agar Anda tetap bisa menggunakan Google Maps adalah dengan men-download offline maps. Karena GPS tidak membutuhkan koneksi internet (hanya butuh satelit), maka kita tetap bisa bernavigasi dengan bebas dengan melihat posisi kita sekarang di peta, dan bisa kira2 dalam mencari arah untuk mencapai tempat tujuan. Kekurangannya kita tidak bisa menggunakan fitur search untuk mencari lokasinya.

offline maps
Buka apps Google Map di hape Anda dan pilih menu offline maps

Solusi lainnya mungkin bisa beli prepaid sim card atau sewa wifi router di traveloka dulu https://www.traveloka.com/en/connectivity/internet-luar-negeri karena selain masalah navigasi, ini juga menyelesaikan masalah komunikasi.

Tips keuangan

Pernahkah anda berada dalam skenario berikut ketika berjalan2 bersama teman2 Anda: Ada sesuatu hal yang butuh dibayar uang bersama, entah itu makan, beli oleh2, atau sekedar bayar parkir. Untuk mempermudah saat membayarnya, biasanya ada 1 orang yang menomboki bayar terlebih dahulu yang kemudian akan diganti nantinya.

Setelah jalan2 berakhir, barulah dilakukan hari perhitungan, di mana semua pengeluaran tersebut dihitung berdasarkan siapa yang mengeluarkan berapa. Perhitungan ini bisa sangat rumit dan membutuhkan waktu hingga seharian penuh dan juga PhD di bidang matematika. Apalagi kalau jumlah partisipan jalan2nya banyak dan melibatkan lebih dari 1 jenis mata uang.

Ucapkan selamat tinggal pada problem di atas karena sekarang sudah ada splitwise, aplikasi gratis (tersedia versi web, android, dan ios) yang berguna untuk mencatat semua pengeluaran.

splitwise.png

Selain itu dengan splitwise, kita melakukan democratization pada masalah keuangan jalan2, karena tidak perlu lagi ada peran bendahara yang tugasnya pusing menghitung semua pengeluaran bersama. Setiap orang (dalam satu grup yang sama) apabila merasa mengeluarkan uang untuk kebutuhan bersama dapat langsung mendaftarkan pengeluarannya di splitwise.

Lebih hebatnya lagi adalah fitur simplify debt. Dengan ini, kalau A hutang ke B, dan B hutang ke C, setelah di-simplify maka A cukup membayar sekali ke C. Praktis dan simpel bukan?

Penutup

Sekian tips yang bisa saya bagi. Teman pembaca ada saran yang lainnya?

Selamat jalan-jalan, semoga menyenangkan.

ml hands-on

handson

Pada post kali ini, saya ingin membagi sebuah contoh hands-on machine learning, yang kebetulan saya juga pakai untuk mengisi materi workshop Machine Learning dan Data Science di IT Del, Sumatera Utara beberapa bulan yang lalu bersama teman kantor saya.

Hands-on ini ditulis menggunakan bahasa python dengan library tambahan antara lain numpy, matplotlib, scikit-learn, dan jupyter notebook. Library bisa diinstal manual lewat pip atau anaconda.

Data yang akan dipakai adalah data gambar digit hasil scan-an pemilu yang sebelumnya pernah dijelaskan di post ini: https://mitbal.wordpress.com/2014/10/10/pemilu-presiden-indonesia-2014-pendekatan-pembelajaran-mesin/

Untuk data bisa diambil di sini: https://www.dropbox.com/s/0nwm318mggmi3ww/11c_2000i.zip?dl=0. Silakan unduh dan ekstrak di lokal komputer masing-masing.

Untuk link ke notebook nya sendiri bisa dilihat di sini: https://github.com/mitbal/itdel/blob/master/handson.ipynb

Hands-on ini diharapkan dapat memberikan gambaran mengenai tipikal workflow machine learning. Tentu saja akan ada perbedaan untuk problem yang berbeda, misalkan data preparation yang tergantung format datanya, fase feature engineering yang problem-dependent, begitu juga dengan skema evaluasinya.

Kalau viewer-nya tidak bisa dibuka, bisa coba unduh langsung source code-nya di, nanti di komputer lokal Anda cukup panggil jupyter notebook handson.ipynb maka notebook akan terbuka di browser Anda masing-masing (asal library nya sudah terinstal semua).

Selamat bereksperimen.

 

tmux

fallout

Zaman dahulu kala, saya pernah menuliskan artikel mengenai kegunaan GNU Screen sebagai cara untuk menjalankan perintah di remote machine, yang jalan dengan waktu lama, tanpa harus selalu tersambung koneksi ssh-nya. Silakan ke link berikut untuk menyegarkan ingatannya kembali: https://mitbal.wordpress.com/2015/04/02/screen/

Ternyata, saya baru tahu ada alternatif lain yang lebih kekinian, yaitu tmux.

tmux ini lebih hip, karena usianya yang lebih muda dibandingkan dengan dengan GNU screen. Selain itu dia juga masih aktif dikembangkan, berbeda dengan screen yang development nya sudah tutup usia.

Untuk instalasi di sistem ubuntu cukup menjalankan sudo apt-get install tmux.

List lain mengenai perintah yang paralel antar dua program tersebut bisa dilihat di sini: http://www.dayid.org/comp/tm.html

Semoga bermanfaat.

kalor laten

frozen

Bayangkan eksperimen seperti berikut. Anda memiliki sebongkah es dengan suhu -20 derajat Celsius. Es tersebut Anda panaskan terus menerus sehingga suhunya pun naik, -19, -18, dan seterusnya hingga akhirnya mencapai suhu 0 derajat Celsius.

Akan tetapi setelah itu, apabila kita tetap memberikan panas terus menerus, maka kita akan menemukan bahwa suhu es tersebut tidak naik lagi, tidak berubah dan tetap di 0 derajat. Secara makroskopik pun kalau dilihat dengan mata telanjang mungkin tidak terlihat perubahan apa-apa. Dia tetap terdiam angkuh seakan kalor atau energi yang kita berikan hilang, tidak terpakai, terbuang sia-sia…

Akan tetapi kalau kita perhatikan lebih dalam ke level mikroskopik maka kita akan mendapati  bahwa molekul-molekul es tersebut sedang berusaha untuk melepaskan dirinya dari ikatan antar molekul satu sama lain agar dapat berubah wujud. Kalor yang digunakan untuk sebuah zat dapat berubah wujud dari satu fase ke fase berikutnya ini disebut kalor laten. Laten sendiri berarti tersembunyi, seperti yang biasa di pakai di frase bahaya laten komunis atau latent variable models.

Maka jika kita tidak berhenti memberikan kalor kepada es tersebut, terus diberikan usaha, niscaya suatu saat es tersebut pasti akan berubah wujudnya ke fase berikutnya, menjadi cair. Dan kita setelah itu kita terus memberikannya kalor, maka suhunya pun akan terus naik, dan naik, dan naik hingga saat perubahan bentuk berikutnya…

==========================================================================

Cerita di atas aslinya saya karang di tempat pada waktu hari perpisahan teman lab saya dulu (Halo Big). Sebenarnya ini terinspirasi setelah mendengarkan presentasi creative machine di kampus beberapa hari sebelumnya yang menggunakan istilah yang sama untuk menggambarkan progres dari computational arts. (Mungkin cocok juga untuk menggambarkan progres dari neural network ya, yang adem ayem beberapa dekade lalu langsung melesat tajam bagai meteor).

dancing_salesman_problem
Dancing Salesman Problem: salah satu karya dari komputer tersebut.

Sifat kalor laten tersebut saya analogikan seperti manusia. Terkadang kita merasa bahwa kita tidak mengalami perbaikan, tidak bertambah jago di bidang yang kita tekuni meskipun telah menghabiskan banyak waktu dan tenaga untuk menguasainya. Tidak ada hasil yang dicapai, tak ada prestasi yang diraih. Akhirnya kita merasa semua yang kita lakukan itu sia-sia belaka dan tidak ada artinya. Menyerah karena putus asa dan kehilangan harapan.

Tapi percayalah, seperti partikel es di 0 derajat, semua tenaga yang diberikan itu digunakan agar kita naik ke tahap selanjutnya. Jangan berhenti memberi usaha, jangan berhenti memberi tenaga untuk lebih baik lagi. Karena setelah lewat dari jatah kalor laten yang harus diberi, maka progres kita pun akan kembali melesak terus hingga kita menemui fase perubahan wujud selanjutnya.

Walau mungkin fase laten dari manusia jauh lebih banyak dari benda mati (yang dulu mungkin cuma didefinisikan 3 (padat, cair, gas) walau sekarang sudah bertambah plasma dan Bose-Einstein condensate).

Salam super.

tantangan

annapurna

Alkisah, di suatu negeri yang tidak jauh letaknya dan di masa yang tidak terlalu berbeda, hiduplah seorang karyawan berusia paruh baya. Karyawan ini tinggal bersama keluarganya yang terdiri dari 1 istri, 2 anak, laki-laki dan perempuan, serta kedua orang tuanya. Ia selalu merasa bahwa rumah yang ditinggalinya itu sempit sekali dan sangat penuh sesak dengan keluarganya. Hal ini membuatnya merasa bahwa hidupnya sangat tidak enak dan tidak nyaman. Ia pun suka mengeluhkan keadaannya  ini kepada teman-temannya.

Salah satu temannya kemudian menyarankannya untuk menemui seorang pertapa bijak yang tinggal di lereng gunung, untuk meminta petunjuk dan nasihat. Karena merasa sudah muak dan hampir putus asa, maka ia pun menuruti nasihat temannya dan berangkat untuk menemui guru bijak tersebut.

Sesampainya di rumah guru tersebut, ia pun segera menceritakan keadaannya kepada pertapa bijak itu. Setelah mendengarkan cerita karyawan tersebut dengan seksama, orang bijak itu pun berkata, “Peliharalah ayam di dalam rumahmu, kemudian kembalilah setelah satu minggu.” Karyawan itu terbelalak, mukanya tercengang, tidak mempercayai suara yang didengarnya. Namun karena nyaris putus asa, dan membaca review bagus orang-orang yang pernah ditolong guru bijak tersebut di sebuah forum internet, ia pun beranjak pulang meski pikirannya masih penuh tanda tanya. Meskipun enggan, ia tetap menuruti perintah dari sang guru.

Setelah satu minggu karyawan tersebut kembali menemui sang guru bijak. Mukanya pucat seakan baru disiksa sebagai tawanan perang. Alih-alih prihatin kepada kondisi baru karyawan ini, sang guru malah berkata “Sekarang peliharalah kambing di dalam rumahmu. Datang kembali ke sini setelah satu minggu.” Sang karyawan hanya bisa terkejut, lalu melangkah gontai untuk pulang.

Satu minggu kemudian sang karyawan datang kembali dengan muka hampa, tatapannya kosong. “Sekarang pelihara jugalah seekor sapi di dalam rumahmu.” Ujar sang guru. “Pulanglah, kemudian datang kembali 1 minggu lagi.” Tanpa perlawanan, sang karyawan pun pulang.

Satu minggu kemudian karyawan itu datang kembali ke guru pertapa. Merasa tidak kuat lagi, ia pun akhirnya curhat kepada sang guru. “Guru, saya tidak sanggup lagi. Rasanya seperti mau mati. Hewan-hewan tersebut membuat kegaduhan yang bukan main. Kotorannya tersebar di mana-mana. Ampun guru, jangan siksa saya lagi. Bebaskan saya dari penderitaan ini…”

“Baiklah, sekarang keluarkan ayam dari rumahmu lalu kembali lagi satu minggu kemudian.” Terbersit sesimpul kecil senyuman di wajah karyawan itu. Dia pun mengucapkan terima kasih kepada guru, dan bergegas pulang.

Satu minggu kemudian karyawan itu datang kembali dengan raut muka yang lebih ceria. “Baiklah, sekarang keluarkan kambing dari rumahmu lalu kembalilah satu minggu kemudian”. Tak dapat wajahnya menyembunyikan pendar kegembiraan mendengarkan perintah tersebut.

“Baiklah, sekarang kamu bisa keluarkan sapi dari rumahmu. Kembali lagi ke sini satu minggu lagi”. Tampak senyumannya mengembang lebar.

Tepat satu minggu kemudian, karyawan itu kembali menemui guru bijak. “Terima kasih banyak, sekarang hidup saya jauh lebih tenang dan lebih baik. Terima kasih sekali lagi atas saran dan bantuannya, Guru.” Ujar karyawan tersebut dengan mata berbinar-binar…

==========================================================================

Kurang lebih begitulah cerita dari buku yang dulu pernah saya baca tapi lupa judulnya karena sudah kelewat lama. Walau kata-katanya tidak persis sama, kira-kira ide yang ingin disampaikan tetap sama.

Moral cerita yang bisa diambil tentunya adalah bahwa kesusahan itu sebenarnya cuma keadaan pikiran kita saja. Secara fisik, tidak ada yang berubah dari kondisi karyawan tersebut sebelum dan sesudah dia menjalani “pelatihan” dari sang guru. Rumah yang ditinggalinya masih mempunyai ukuran yang sama, dan ditinggali oleh orang-orang yang sama juga. Yang berbeda adalah kondisi mental atau pikiran dari karyawan itu.

Saya pribadi punya interpretasi yang sedikit berbeda dari cerita di atas. Kalau menurut saya, intinya adalah tantangan. Kalau kita merasa kondisi kita susah, berarti kita bisa menantang diri kita untuk mengerjakan hal yang lebih sulit lagi. Sebagai contoh, kalau kuliah 18 SKS terasa susah, maka coba ambil 21 SKS. Yang 18 SKS tidak akan terasa susah lagi. 21 SKS kewalahan? Coba ambil 24.

Puasa 14 jam bikin lapar dan haus? Coba puasa 20 jam sambil olahraga berat sorenya. Bawa 1 galon aqua terasa berat? Coba bawa 2 galon. Pasti yang 1 galon akan terasa ringan. Dan terkadang kita akan terkejut melihat apa yang sebenarnya bisa kita raih.

Salam super

data driven

datadriven2

Beberapa saat yang lalu di salah satu saluran komunikasi kantor saya, terjadi perdebatan seru mengenai data driven company. Diskusi berkisar di definisi data-driven itu sendiri, apa manfaatnya, kenapa kita harus menjadi data-driven, dan bagaimana agar bisa menjadi data-driven company.

Sebelum kita membahas lebih lanjut mengenai data-driven, tentunya lebih baik untuk menyamakan persepsi terlebih dahulu mengenai definisi data-driven itu sendiri, karena tentunya masing-masing mempunyai definisinya sendiri. Berdasarkan Google (yang mengambil dari wikipedia), definisinya adalah sebagai berikut.

datadrivenyang kalau diterjemahkan secara bebas kurang lebih berarti mengambil keputusan berdasarkan data, bukan berdasarkan perasaan atau hanya mengikuti keputusan dari atasan atau orang yang kedudukannya lebih tinggi. Kalau ada sesuatu yang hendak diputuskan, terlebih dahulu cari data atau lakukan eksperimen.

Dalam konteks technology company, biasanya data-driven diwujudkan dalam bentuk A/B testing. Misalkan kita ingin tahu apakah tombol berwarna merah atau hijau yang lebih meningkatkan sales. Kita bagi dua saja dua saja traffic yang masuk ke 2 versi website dengan warna tombol yang berbeda. Setelah terkumpul jumlah sampel yang cukup, kita lakukan statistical test dan lihat versi mana yang lebih bagus. Bukan langsung memilih warna merah karena itu warna kesukaan boss kita.

Namun menurut saya sendiri, definisi data-driven yang paling pas itu yang diinspirasi dari bayesian method.

posterior belief is proportional to prior belief times likelihood.

Jadi keputusan yang kita ambil jadinya adalah kombinasi dari prior belief kita, hal yang kita sendiri percayai tanpa melihat data terlebih dahulu (walaupun sebenarnya ini adalah bentuk internalisasi semua kumpulan data yang pernah kita alami sebelumnya), kemudian di-update dengan hasil atau data terbaru yang sesungguhnya terjadi.

Bagaimana prakteknya? Mari kita ambil contoh Zlatan Ibrahimovic yang kini membela Manchester United.

ibrahimovic-ke-mu-730x480_c
Zlatan dengan kaus MU

Prior belief itu berguna agar kita tidak terlalu cepat mengambil kesimpulan dengan hasil/data yang masih sedikit. Kalau tanpa prior dan kita mengamati Zlatan tidak mencetak gol dalam 3 pertandingan terakhir, maka keputusan yang diambil adalah kita tidak memainkannya kembali untuk pertandingan berikutnya. Padahal kalau kita lihat rekam jejaknya, Ibra bisa mencetak di lebih dari 30 pertandingan sepanjang musim. Dengan prior belief ini seharusnya kita tetap memainkan Zlatan untuk pertandingan berikutnya.

Nah, tapi kalau misalkan hingga 35 pertandingan ternyata Zlatan tidak bisa mencetak gol sama sekali, maka kita sudah mempunyai observasi atau data yang cukup (the likelihood term). Maka keputusan yang tepat mungkin adalah tidak memainkan Ibra kembali.

(Untuk yang familiar dengan teknisnya, kita bisa modelkan peluang Zlatan mencetak gol diambil dari binomial distribution, dan memiliki conjugate prior beta distribution dengan alpha dan beta bisa diambil dengan jumlah pertandingan yang di mana Zlatan mencetak gol di musim sebelumnya) .

(Ini hanyalah contoh belaka, bukan jinx. Penulis sangat berharap Zlatan bisa mencetak banyak gol sehingga MU bisa meraih gelar juara Liga Premier musim ini dan Liga Champion musim depan. GGMU)

Bagaimana contohnya di kehidupan nyata? Misalkan kita mau pasang iklan di berbagai website untuk mempromosikan produk kita. Berdasarkan data dari similarweb kita tahu website mana saja yang mempunyai traffic tinggi. Kita kemudian bisa memasang di beberapa website yang memiliki traffic tinggi. Akan tetapi, setelah beberapa saat kita bisa evaluasi iklan dari website mana yang sebenarnya berhasil meningkatkan metrik penjualan kita. Kira-kira begitu.

Happy data-driving.