Natural Language Processing

 

Apa itu Natural language processing

Natural language processing (NLP) adalah cabang dari kecerdasan buatan yang berhubungan dengan interaksi antara komputer dan manusia menggunakan bahasa alami. Menurut Textmetrics, NLP digunakan untuk mengukur sentimen dan menentukan bagian mana dari bahasa manusia yang penting.


Pendekatan Natural language processing

Ada berbagai pendekatan yang digunakan agar komputer dapat memahami bahasa manusia. 
1. Pendekatan simbolik 
    Pendekatan simbolik menggunakan pendekatan yang berdasarkan pada aturan dan leksikon yang dikembangkan manusia. Artinya, sistem menerima aturan bicara dalam bahasa tertentu yang diwujudkan dan direkam oleh pakar linguistik untuk diikuti

2. Pendekatan statistik 
    Pendekatan statistik didasarkan pada contoh fenomena linguistik yang dapat diamati dan berulang.  Sistem mengenali tema berulang melalui analisis matematis. Setelah mengidentifikasi tren dalam sampel teks yang besar, sistem komputer dapat mengembangkan aturan linguistiknya sendiri yang akan digunakan untuk menganalisis input bahasa yang digunakan.

3. Pendekatan koneksi
    Pendekatan koneksi merupakan pendekatan yang menggabungkan pendekatan simbolik dan pendekatan statistik. Hal ini dimulai dengan menggunakan aturan bahasa secara umum dan menyesuaikannya dengan aplikasi spesifik dari input yang berasal dari pendekatan statistik.

Teknik dalam Natural language processing

Natural language processing menggunakan dua teknik untuk menyelesaikan tugasnya. 
1. Syntax 
    Syntax mengacu pada susunan kata-kata dalam sebuah kalimat sehingga tampak masuk akal secara tata bahasa. Natural language processing menggunakan analisis syntax untuk menerapkan aturan tata bahasa pada kumpulan kata yang ditemukannya.

Ada beberapa teknik syntax yang bisa digunakan. 
1. Lemmatization, melakukan pengurangan berbagai bentuk kata yang berubah menjadi satu bentuk untuk memudahkan analisis. Contoh kata dari “swim”, “swimming”, “swims”, “swam”, adalah semua bentuk dari “swim”. Nah jadi lemma dari semua kata-kata tersebut adalah “swim”. 
2. Segmentasi morfologis, melibatkan pembagian kata menjadi unit-unit individu atau morfem. 
3. Segmentasi kata, membagi sebagian besar teks berkelanjutan menjadi unit-unit berbeda.
4. Penandaan part-of-speech, dengan mengidentifikasi bagian dari ucapan untuk setiap kata. 
5. Parsing, dengan melakukan analisis tata bahasa untuk kalimat yang disediakan. contoh, “Budi”. Ketika kita ingin mengajar anak kecil, kita sering kali memecahkan kalimat atau kata per elemennya. “B, U, BU”. “D, I, DI”, “Budi”. 
6. Pemutusan kalimat, dengan menempatkan batas kalimat pada sepotong teks besar. 
7. Stemming, memotong kata-kata yang diubah ke bentuk akarnya. Contoh “bi” di awal kata “bicycle”, “er” di akhir kata “lighter”


2. Semantics
    Semantics mengacu pada makna yang disampaikan oleh sebuah teks. Ini merupakan aspek yang paling sulit dianalisis dalam natural language processing dan belum sepenuhnya dipelajari. Analisis ini melibatkan penerapan algoritma komputer untuk memahami arti dan interpretasi kata-kata dan bagaimana kalimat disusun.

Berikut beberapa teknik semantics yang umum digunakan dalam Natural language processing . 
1. Named entity recognition (NER), melibatkan penentuan bagian-bagian teks yang dapat diidentifikasi dan dikategorikan ke dalam grup tertentu. Contohnya nama orang dan nama tempat. 
2. Disambiguasi arti kata, melibatkan pemberian makna pada kata berdasarkan konteksnya. 
3. Natural language generation, melibatkan penggunaan database untuk mendapatkan maksud semantik dari teks dan mengubahnya menjadi bahasa manusia.

Masalah di Natural language processing 

Beberapa masalah yang dihadapi dalam pemrosesan bahasa alami antara lain adalah : 
1. Suatu kalimat sering kali tidak lengkap, artinya tidak memberi informasi yang jelas atau lengkap 
2. Satu kalimat dapat memiliki lebih dari satu pengertiandalam konteks yang berbeda 
3. Tidak ada program pemroses bahasa alami yang cukup lengkap karena bahasa selalu berkembang, kosa kata selalu bertambah. 
4. Bisa terdapat lebih dari satu cara (lebih dari satu kalimat) untuk mengungkapkan hal(maksud) yang sama.

Pembagian Natural language processing

Masalah pemrosesan bahasa alami dibagi menjadi dua bagian besar, yaitu : 
1. Pemrosesan Naskah Tertulis : menggunkan pengetahuan tentang leksikal, sintax, dan semantic. 
2. Pemrosesan Bahasa Lisan : menggunakan semua pengetahuan dari pemrosesan naskah tertulis ditambah pengetahuan tentang phonology.

 Tahapan Proses Natural language processing

Untuk memproses bahasa alami diperlukan 5 langkah sebagai berikut  :
1. Analisis Morpology 
    Pada tahap ini dilakukan analisa untuk setiap kata dan komponen yang dimiliki tiap kata termasuk token non kata seperti spasi, tanda baca, tanda pemisah. 
2. Analisis Sintax 
    Pada tahap ini sederetan kata disusun kedalam struktur yang memperlihatkan bagaimana hubungan satu kata dengan kata lainnya. Deretan kata akan ditolak bila tidak memenuhi aturan penyusunan kata yang ada.
3. Analisis semantik 
    Pada tahap ini struktur deretan kata yang sudah terbentuk akan diberi arti. Dengan kata lain pemetaan dibuat antara struktur sintax dengan object yang berhubungan. 
4. Penyatuan Arah (konteks) 
    Pada tahap ini arti dari suatu kalimat disesuaikan dengan kalimat-kalimat lain, karena arti dari suatu kalimat biasanya berhubungan dengan kalimat sebelumnya dan kalimat sesudahnya.
5. Analisis Pragmatis 
    Struktur yang terbentuk menghasilkan interpretasi ulang dari apa yang sudah dikatakan atau ditulis  sebelumnya dengan arti yang sebenarnya.

Komentar

Postingan Populer