Natural Language Processing
Apa itu Natural language processing
Natural language processing (NLP) adalah cabang
dari kecerdasan buatan yang berhubungan dengan
interaksi antara komputer dan manusia
menggunakan bahasa alami. Menurut Textmetrics, NLP digunakan untuk
mengukur sentimen dan menentukan bagian mana
dari bahasa manusia yang penting.
Pendekatan Natural language processing
Ada berbagai pendekatan yang digunakan agar
komputer dapat memahami bahasa manusia.
1. Pendekatan simbolik
Pendekatan simbolik menggunakan pendekatan
yang berdasarkan pada aturan dan leksikon yang
dikembangkan manusia. Artinya, sistem menerima aturan bicara dalam
bahasa tertentu yang diwujudkan dan direkam oleh
pakar linguistik untuk diikuti
2. Pendekatan statistik
Pendekatan statistik didasarkan pada contoh
fenomena linguistik yang dapat diamati dan
berulang. Sistem mengenali tema berulang melalui analisis
matematis. Setelah mengidentifikasi tren dalam sampel teks
yang besar, sistem komputer dapat
mengembangkan aturan linguistiknya sendiri yang
akan digunakan untuk menganalisis input bahasa
yang digunakan.
3. Pendekatan koneksi
Pendekatan koneksi merupakan pendekatan yang
menggabungkan pendekatan simbolik dan
pendekatan statistik. Hal ini dimulai dengan menggunakan aturan
bahasa secara umum dan menyesuaikannya dengan
aplikasi spesifik dari input yang berasal dari
pendekatan statistik.
Teknik dalam Natural language processing
Natural language processing menggunakan dua
teknik untuk menyelesaikan tugasnya.
1. Syntax
Syntax mengacu pada susunan kata-kata dalam
sebuah kalimat sehingga tampak masuk akal secara
tata bahasa. Natural language processing menggunakan analisis
syntax untuk menerapkan aturan tata bahasa pada
kumpulan kata yang ditemukannya.
Ada beberapa teknik syntax yang bisa digunakan.
1. Lemmatization, melakukan pengurangan berbagai
bentuk kata yang berubah menjadi satu bentuk untuk
memudahkan analisis. Contoh kata dari “swim”,
“swimming”, “swims”, “swam”, adalah semua bentuk
dari “swim”. Nah jadi lemma dari semua kata-kata
tersebut adalah “swim”.
2. Segmentasi morfologis, melibatkan pembagian kata
menjadi unit-unit individu atau morfem.
3. Segmentasi kata, membagi sebagian besar teks
berkelanjutan menjadi unit-unit berbeda.
4. Penandaan part-of-speech, dengan mengidentifikasi
bagian dari ucapan untuk setiap kata.
5. Parsing, dengan melakukan analisis tata bahasa untuk
kalimat yang disediakan. contoh, “Budi”. Ketika kita
ingin mengajar anak kecil, kita sering kali memecahkan
kalimat atau kata per elemennya. “B, U, BU”. “D, I, DI”,
“Budi”.
6. Pemutusan kalimat, dengan menempatkan batas
kalimat pada sepotong teks besar.
7. Stemming, memotong kata-kata yang diubah ke bentuk
akarnya. Contoh “bi” di awal kata “bicycle”, “er” di akhir
kata “lighter”
2. Semantics
Semantics mengacu pada makna yang disampaikan
oleh sebuah teks. Ini merupakan aspek yang paling sulit dianalisis
dalam natural language processing dan belum
sepenuhnya dipelajari. Analisis ini melibatkan penerapan algoritma
komputer untuk memahami arti dan interpretasi
kata-kata dan bagaimana kalimat disusun.
Berikut beberapa teknik semantics yang umum
digunakan dalam Natural language processing .
1. Named entity recognition (NER), melibatkan
penentuan bagian-bagian teks yang dapat
diidentifikasi dan dikategorikan ke dalam grup
tertentu. Contohnya nama orang dan nama tempat.
2. Disambiguasi arti kata, melibatkan pemberian
makna pada kata berdasarkan konteksnya.
3. Natural language generation, melibatkan
penggunaan database untuk mendapatkan maksud
semantik dari teks dan mengubahnya menjadi
bahasa manusia.
Masalah di Natural language processing
Beberapa masalah yang dihadapi dalam
pemrosesan bahasa alami antara lain adalah :
1. Suatu kalimat sering kali tidak lengkap, artinya tidak
memberi informasi yang jelas atau lengkap
2. Satu kalimat dapat memiliki lebih dari satu
pengertiandalam konteks yang berbeda
3. Tidak ada program pemroses bahasa alami yang cukup
lengkap karena bahasa selalu berkembang, kosa kata
selalu bertambah.
4. Bisa terdapat lebih dari satu cara (lebih dari satu
kalimat) untuk mengungkapkan hal(maksud) yang
sama.
Pembagian Natural language processing
Masalah pemrosesan bahasa alami dibagi
menjadi dua bagian besar, yaitu :
1. Pemrosesan Naskah Tertulis : menggunkan
pengetahuan tentang leksikal, sintax, dan
semantic.
2. Pemrosesan Bahasa Lisan : menggunakan semua
pengetahuan dari pemrosesan naskah tertulis
ditambah pengetahuan tentang phonology.
Tahapan Proses Natural language processing
Untuk memproses bahasa alami diperlukan 5
langkah sebagai berikut :
1. Analisis Morpology
Pada tahap ini dilakukan analisa untuk setiap kata dan
komponen yang dimiliki tiap kata termasuk token non
kata seperti spasi, tanda baca, tanda pemisah.
2. Analisis Sintax
Pada tahap ini sederetan kata disusun kedalam
struktur yang memperlihatkan bagaimana hubungan
satu kata dengan kata lainnya. Deretan kata akan
ditolak bila tidak memenuhi aturan penyusunan kata
yang ada.
3. Analisis semantik
Pada tahap ini struktur deretan kata yang sudah
terbentuk akan diberi arti. Dengan kata lain
pemetaan dibuat antara struktur sintax dengan
object yang berhubungan.
4. Penyatuan Arah (konteks)
Pada tahap ini arti dari suatu kalimat disesuaikan
dengan kalimat-kalimat lain, karena arti dari
suatu kalimat biasanya berhubungan dengan
kalimat sebelumnya dan kalimat sesudahnya.
5. Analisis Pragmatis
Struktur yang terbentuk menghasilkan
interpretasi ulang dari apa yang sudah dikatakan
atau ditulis sebelumnya dengan arti yang
sebenarnya.
Komentar
Posting Komentar