Dahulu, saat awal dipublikasikannya mesin pencari, seperti Google, para pengguna perlu menuliskan kata kunci yang tepat dan mengikuti aturan-aturan tertentu agar mendapatkan dokumen-dokumen yang relevan. Misalnya, dengan menambahkan kata sambung OR, AND, dan sebagainya. Tentu saja, aturan-aturan ini sangat tidak familiar bagi orang yang baru menggunakan internet. Sehingga, sering terjadi tidak mendapatkan dokumen-dokumen yang relevan.

Jika kita bandingkan dengan kemampuan mesin pencari saat ini, sungguh mencengangkan. Siapapun dapat menggunakan mesin pencari tersebut, dan tetap mendapatkan dokumen-dokumen yang relevan. Seolah-olah mesin tersebut telah “memahami” dengan benar bahasa manusia dan keinginan manusia tersebut. Misalnya, kita bertanya mengenai nama ibu kota negara Indonesia, dengan menggunakan bahasa sehari-hari atau bahasa gaul (slank language). Kita masukan: apasih nama ibu kota negara Indonesia, mesin telah mampu menjawab dengan tepat.

Hal tersebut merupakan salah satu hasil dari pesatnya perkembangan teknologi komputer dan informatika saat ini. Dahulu, komputer hanya digunakan sebagai alat hitung dan penyimpan data. Kemudian, komputer dapat mengolah data secara statistik. Misalnya mencari rerata, modus, standar deviasi, dan lain sebagainya.

Seiring dengan memori komputer yang semakin murah dan kemampuan prosesor yang semakin cepat mengolah sinyal, ditambah kemampuan komputer untuk dapat “belajar” dari data yang diinputkan kedalam komputer. Hal ini sering diistilahkan dengan konsep machine learning (dalam bahasa Indonesia diterjemahkan dengan mesin pembelajaran). Komputer tidak hanya mampu belajar dari data-data yang bersifat numerik atau terstruktur saja, tetapi komputer juga mampu belajar dari data-data yang tidak terstruktur seperti gambar dan teks.

Dari kemampuan belajar dari teks inilah komputer pada akhirnya komputer memiliki “kemampuan” untuk “memahami” bahasa manusia, sebagaimana contoh kemampuan mesin pencari di atas. Sengaja dua kata “kemampuan” untuk “memahami” ini ditulis dalam tanda petik, karena tentunya kemampuan memahaminya belum sepandai manusia. Dalam bidang ilmu komputer, hal ini dipelajari dalam sub-ilmu natural language processing (NLP) atau sering diterjemahkan dengan “pengolahan bahasa alami”yang telah dikembangkan sejak tahun 1950-an.

Manusia berkomunikasi melalui tulisan ataupun lisan dalam bahasa alami asli (native) untuk mengesktrak dan memahami informasi. Bahasa alami adalah symbol yang digunakan manusia untuk berkomunikasi, berkolaborasi, dan bersosial antar sesama manusia. Dari definisi inilah yang coba dikembangkan dalam ilmu NLP, hanya saja komunikasi yang terjadi adalah antara komputer dengan manusia. Dalam hal ini yang dimaksud komputer, tidak hanya alat yang mungkin kita kenal sebagai laptop atau komputer desktop, tetapi juga termasuk smartphone atau mesin lainnya yang memungkinkan manusia dan komputer berkomunikasi menggunakan bahasa alami.

Secara umum, terdapat dua bentuk interaksi menggunakan “bahasa alami” antara manusia dan komputer, yaitu natural language understanding (NLU) dan natural language generation (NLG). NLU fokus pada proses melakukan pemetaan dari bahasa manusia (khususnya melalui teks) ke dalam bentuk representasi yang dipahami oleh computer, yaitu bentuk numerik. Karena pada dasarnya komputer hanya mampu mengolah data numerik saja. Sedangkan NLG, fokus pada merubah bentuk representasi numerik menjadi bentuk teks yang dipahami oleh manusia.

Bidang NLP memiliki kaitan yang erat dengan bidang linguistik dalam Ilmu Bahasa. Baik NLU maupun NLG membutuhkan analisis linguistik untuk dapat melakukan pemrosesan lebih lanjut. Diantara analisis linguistik yang diperlukan adalah pemisahan (parsing) antar paragraf, kalimat, maupun kata. Kemudian terkadang diperlukan juga analisis kategori kata atau part-of-speech (POS), analisis morfologi dari suatu kata, frase, dan tata bahasa. Tentunya analisis ini harus menyesuaikan bahasa yang digunakan sebagai input. Bentuk analisis linguistik dalam Bahasa Indonesia tentunya berbeda dengan Bahasa Inggris.

Dengan NLU ini, pada akhirnya komputer mampu mengelompokkan teks-teks berdasarkan tema yang dibahas, melakukan ekstraksi informasi dari teks, dan melakukan anotasi semantik dari teks. Bahkan mampu menerjemahkan teks dari suatu bahasa ke bahasa yang lain. Dalam teori linguistik, NLU ini bekerja di wilayah sintaktik dan semantik. Sedangkan wilayah pragmatik dikerjakan oleh NLG.

Pada akhir-akhir ini, para peneliti di bidang ilmu komputer yang biasanya bekerjasama dengan para peneliti di bidang bahasa, telah fokus mengerjakan wilayah pragmatik. Dimana mereka membangun mesin komputer yang mampu memahami konteks yang tersurat maupun tersirat dari suatu teks.

Maka dikenallah adanya analisis sentimen, yang mana komputer mampu memahami sentimen yang ditulis dalam suatu teks. Apakah sentimen itu mengarah ke hal yang positif, negatif, maupun netral. Misalnya ketika seorang kustomer memberikan ulasan pada produk yang dia beli, secara otomatis komputer mampu menentukan apakah ulasan itu positif, negatif, maupun netral.

Jika kemampuan analisis sentimen ini dikembangkan lebih lanjut, sebenarnya komputer mampu menentukan mana teks yang mengandung berita bohong (hoax), ungkapan kebencian, maupun perudungan (bullying). Setelah ditentukan, tentunya teks-teks tersebut dapat dihapus dari sistem untuk mencegah hal-hal buruk yang mungkin terjadi kemudian. Namun sayangnya, sistem ini belum digunakan oleh media-media sosial yang ada saat ini. Jika benar digunakan, barangkali mampu mencegah hiruk pikuk yang tidak perlu terjadi di dunia media sosial.

Kemudian, dari NLG ini, dibantu dengan perkembangan pada dunia deep learning, atau cara belajar yang sangat dalam, memungkinkan komputer untuk membuat teks sendiri. Baik teks dalam bentuk narasi, lirik lagu, puisi, dan lainnya. Tentunya untuk saat ini, hasil teks yang dibuat komputer belum sehalus seperti teks yang dibuat manusia. Namun untuk teks yang pendek, hasilnya sudah cukup bagus.

Contohnya pada bentuk sistem tanya jawab (question answering system) yang mana komputer mampu menjawab secara otomatis berdasarkan knowledge yang disimpan pada pertanyaan-pertanyaan yang diajukan manusia. Bahkan sistem komputer Watson yang dibangun oleh IBM mampu menjuarai kuis Jeopardy pada tahun 2011. Jeopardy merupakan suatu kuis tanya-jawab yang memerlukan pengetahuan ensiklopedis untuk dapat menjuarai kuis ini. Namun, sisi negatif dari kemampuan NLG ini adalah, komputer juga sangat mungkin membuat narasi-narasi yang bersifat provokatif, mengadu domba, berita bohong, dan konten negatif lainnya.

Foto podium kuis Jeopardy yang dimenangkan oleh mesin IBM Watson

Oleh karena itu, perkembangan kemampuan komputer yang super cepat ini tentunya harus ditanggapi oleh para pemangku kepentingan terutama para pejabat pembuat regulasi. Regulasi ini diperlukan sebagai upaya untuk mengontrol agar perkembangan pengetahuan tetap pada jalur yang mengedepankan etika.