Pertanyaan equivariance rotasi dalam Jaringan Saraf Konvolusional?


Saya ingin tahu apakah arsitektur dasar CNN memiliki properti equivarian rotasi? Saya hanya tahu ekivalen translasi tetapi tidak yakin tentang rotasi.

Dari pencarian saya, equivarian rotasi dapat dicapai dengan memutar gambar input untuk pelatihan. Apakah saya benar-benar perlu melakukan itu? Seberapa besar tingkat rotasi? Untuk menempatkan lebih banyak contex, Sebagai contoh, saya memiliki CNN yang dapat mendeteksi / membaca teks dalam mode lansekap. Jika saya memutar gambar 90 derajat / membuatnya potret, apakah akan memberikan hasil yang sama / melakukan yang sama dengan yang asli?


4
2018-01-28 20:18


asal


Jawaban:


Anda memiliki skala dan invarian rotasi hanya untuk beberapa derajat - berapa banyak tepatnya mungkin tergantung pada pengaturan Anda. Anda memilikinya karena kumpulan yang mengandung fitur berpotensi tumpang tindih.

Apa yang Anda usulkan tentu mungkin. Anda selalu dapat memodifikasi data pelatihan Anda menambahkan kebisingan, rotasi, skala yang berbeda dll untuk mencapai tujuan itu. Namun, model Anda tidak akan sepenuhnya berotasi-invarian. Ini juga memungkinkan untuk memodifikasi jaringan itu sendiri untuk mencapai tugas "dengan benar". Saya yakin Anda tersandung CNN ubin selama riset Anda (jika tidak, Anda pasti harus membaca kertas itu). Mereka menggunakan TICA untuk pretirsi, menemukan fitur invarian dalam prosesnya.

Untuk pertanyaan terakhir Anda dengan rotasi 90 °: Saya sarankan menguji ini sendiri. Jika kasus di mana rotasi terjadi diketahui (misalnya pada perangkat seluler), saya pribadi akan melihat apakah memutar gambar secara manual kembali ke 0 ° (sebelum memberikannya ke jaringan) adalah solusi yang memuaskan untuk kendala yang diberikan. Ini adalah pendekatan yang paling sederhana.


2
2018-01-29 14:47