Komputer Vision

Cara Kerja Komputer Vision

Bukan rahasia lagi bahwa AI ada di mana-mana, namun tidak selalu jelas kapan kita berinteraksi dengannya, apalagi teknik spesifik apa yang dimainkan. Tetapi satu bagian mudah dikenali: Jika pengalamannya cerdas dan melibatkan foto atau video, atau visual dengan cara apa pun, komputer vision kemungkinan bekerja di belakang layar. Komputer vision adalah subbidang AI, khususnya pembelajaran mesin. Jika AI memungkinkan mesin untuk "berpikir," maka komputer vision adalah yang memungkinkan mereka untuk "melihat." Secara lebih teknis, ini memungkinkan mesin untuk mengenali, memahami, dan merespons informasi visual seperti foto, video, dan input visual lainnya.

Selama beberapa tahun terakhir, komputer vision telah menjadi pendorong utama AI. Teknik ini digunakan secara luas di industri seperti manufaktur, e-commerce, pertanian, otomotif, dan obat-obatan, untuk beberapa nama. Ini mendukung segalanya mulai dari lensa Snapchat interaktif hingga siaran olahraga, belanja bertenaga AR, analisis medis, dan kemampuan mengemudi otonom. Dan pada tahun 2022, pasar global untuk subbidang ini diproyeksikan mencapai $48,6 miliar per tahun, naik dari hanya $6,6 miliar pada tahun 2015. Kisah komputer vision mengikuti kisah AI secara keseluruhan. Kenaikan lambat yang penuh dengan rintangan teknis.

Ledakan besar yang dimungkinkan oleh sejumlah besar data. Proliferasi cepat. Dan kemudian tumbuh kekhawatiran atas bias dan bagaimana teknologi digunakan. Untuk memahami komputer vision, penting untuk memahami cara kerjanya, cara penggunaannya, dan tantangan yang dihadapinya serta tantangan yang masih dihadapinya hingga saat ini. Bagaimana komputer vision bekerja? komputer vision memungkinkan komputer untuk menyelesaikan berbagai tugas. Ada segmentasi gambar (membagi gambar menjadi beberapa bagian dan memeriksanya satu per satu) dan pengenalan pola (mengenali pengulangan rangsangan visual antar gambar). Ada juga klasifikasi objek (mengklasifikasikan objek yang ditemukan dalam gambar), pelacakan objek (menemukan dan melacak objek bergerak dalam video), dan deteksi objek (mencari dan mengidentifikasi objek tertentu dalam gambar). Selain itu, ada pengenalan wajah, bentuk deteksi objek lanjutan yang dapat mendeteksi dan mengidentifikasi wajah manusia.

Seperti disebutkan, komputer vision adalah bagian dari pembelajaran mesin, dan juga menggunakan jaringan saraf untuk menyortir sejumlah besar data hingga memahami apa yang dilihatnya. Faktanya, contoh dalam penjelasan pembelajaran mesin kami tentang bagaimana pembelajaran mendalam dapat digunakan untuk memisahkan foto es krim dan pizza pepperoni lebih khusus merupakan kasus penggunaan komputer vision. Anda menyediakan sistem AI dengan banyak foto yang menggambarkan kedua makanan. Komputer kemudian menempatkan foto-foto itu melalui beberapa lapisan pemrosesan — yang membentuk jaringan saraf — untuk membedakan es krim dari pizza pepperoni selangkah demi selangkah. Lapisan sebelumnya melihat properti dasar seperti garis atau tepi antara bagian terang dan gelap dari gambar, sementara lapisan berikutnya mengidentifikasi fitur yang lebih kompleks seperti bentuk atau bahkan wajah. Ini berfungsi karena sistem komputer vision berfungsi dengan menafsirkan gambar (atau video) sebagai rangkaian piksel, yang masing-masing ditandai dengan nilai warna. Tag ini berfungsi sebagai input proses sistem saat memindahkan gambar melalui jaringan saraf.

Sejarah Visi Komputer

Seperti pembelajaran mesin secara keseluruhan, komputer vision berasal dari tahun 1950-an. Tanpa daya komputasi dan akses data kami saat ini, teknik ini awalnya sangat manual dan rentan terhadap kesalahan. Tapi itu masih menyerupai komputer vision seperti yang kita kenal sekarang; efektivitas pemrosesan pertama menurut sifat dasar seperti garis atau tepi, misalnya, ditemukan pada tahun 1959. Pada tahun yang sama juga melihat penemuan teknologi yang memungkinkan untuk mengubah gambar menjadi kisi-kisi angka , yang menggabungkan mesin bahasa biner dapat memahami menjadi gambar. Selama beberapa dekade berikutnya, lebih banyak terobosan teknis membantu membuka jalan bagi komputer vision. Pertama, ada perkembangan teknologi pemindaian komputer, yang untuk pertama kalinya memungkinkan komputer untuk mendigitalkan gambar.

Kemudian muncul kemampuan untuk mengubah gambar dua dimensi menjadi bentuk tiga dimensi. Teknologi pengenalan objek yang dapat mengenali teks muncul pada tahun 1974, dan pada tahun 1982, komputer vision benar-benar mulai terbentuk. Pada tahun yang sama, seorang peneliti mengembangkan lebih lanjut hierarki pemrosesan, sama seperti yang lain mengembangkan jaringan saraf awal.

Pada awal 2000-an, pengenalan objek secara khusus mengumpulkan banyak minat. Tapi itu adalah rilis ImageNet, kumpulan data yang berisi jutaan gambar yang ditandai, pada tahun 2010 yang membantu mendorong kebangkitan komputer vision. Tiba-tiba, sejumlah besar data berlabel siap pakai tersedia bagi siapa saja yang menginginkannya. Komputer vision digunakan secara luas, dan sebagian besar sistem komputer vision yang telah dibangun saat ini mengandalkannya. Tetapi sementara sistem komputer vision populer pada saat ini, mereka masih menemukan banyak kesalahan.

Itu berubah pada tahun 2012 ketika model bernama AlexNet, yang menggunakan ImageNet, secara signifikan mengurangi tingkat kesalahan untuk pengenalan gambar, mengantarkan bidang komputer vision saat ini. Bias dan tantangan komputer vision Ketersediaan ImageNet sangat transformatif untuk pertumbuhan dan adopsi komputer vision. Ini benar-benar menjadi dasar bagi industri. Tapi itu juga merusak teknologi dengan cara yang berdampak nyata saat ini. Kisah ImageNet mencerminkan pepatah populer dalam ilmu data dan AI: "sampah masuk, sampah keluar." Dalam melompat untuk memanfaatkan kumpulan data, peneliti dan ilmuwan data tidak berhenti sejenak untuk mempertimbangkan dari mana gambar itu berasal, siapa yang memilihnya, siapa yang melabelinya, mengapa diberi label seperti itu, gambar atau label apa yang mungkin dihilangkan, dan efek semua ini pada bagaimana teknologi mereka akan berfungsi, apalagi dampaknya terhadap masyarakat dan kehidupan masyarakat.

Bertahun-tahun kemudian, pada 2019, sebuah studi di ImageNet mengungkapkan prevalensi bias dan label bermasalah di seluruh kumpulan data. “Banyak kategori yang benar-benar ofensif dan berbahaya bersembunyi di kedalaman kategori Person ImageNet. Beberapa klasifikasi adalah misoginis, rasis, ageist, dan mampu. … Penghinaan, hinaan rasis, dan penilaian lisan berlimpah,” tulis peneliti AI Kate Crawford dalam bukunya Atlas of AI. Dan bahkan di samping bahaya yang jelas nyata ini (beberapa di antaranya telah dihapus — ImageNet dilaporkan bekerja untuk mengatasi berbagai sumber bias), pilihan aneh dalam hal kategori, hierarki, dan pelabelan telah ditemukan di seluruh kumpulan data. Sekarang banyak dikritik karena pelanggaran privasi juga, karena orang-orang yang fotonya digunakan dalam kumpulan data tidak setuju untuk dimasukkan atau diberi label. Data dan bias algoritmik adalah salah satu masalah inti AI secara keseluruhan, tetapi sangat mudah untuk melihat dampaknya di beberapa aplikasi komputer vision. Teknologi pengenalan wajah, misalnya, diketahui salah mengidentifikasi orang kulit hitam, tetapi penggunaannya melonjak di toko ritel. Ini juga sudah umum di kepolisian, yang telah memicu protes dan peraturan di beberapa kota dan negara bagian AS. Peraturan secara keseluruhan merupakan tantangan yang muncul untuk komputer vision (dan AI pada umumnya).

Jelas lebih banyak yang akan datang (terutama jika lebih banyak dunia mengikuti jalur Uni Eropa), tetapi belum diketahui persis seperti apa peraturan tersebut, sehingga menyulitkan peneliti dan perusahaan untuk menavigasi saat ini. “Tidak ada standarisasi dan tidak pasti. Untuk hal-hal seperti ini, klarifikasi akan sangat membantu, ”kata Haniyeh Mahmoudian, ahli etika AI global DataRobot dan pemenang penghargaan tanggung jawab dan etika Perempuan VentureBeat dalam AI.

Komputer vision memiliki beberapa tantangan teknis juga. Ini dibatasi oleh perangkat keras, termasuk kamera dan sensor. Selain itu, sistem komputer vision sangat kompleks untuk diukur. Dan seperti semua jenis AI, mereka membutuhkan sejumlah besar daya komputasi (yang mahal) dan data. Dan karena seluruh sejarah komputer vision memperjelas, data bagus yang representatif, tidak bias, dan dikumpulkan secara etis sulit didapat — dan sangat membosankan untuk ditandai.