PENGENALAN DIALEK DI SUMATERA SELATAN MENGGUNAKAN ALGORITMA DEEP NEURAL NETWORK

  • M Rizki Putra
  • Bhakti Yudho Suprapto
  • Suci Dwijayanti
Keywords: dnn, dialect recognition, mel spectrogram, stft, mfcc

Abstract

ABSTRAK: Suatu bahasa memiliki beragam dialek di setiap daerah. Hal ini dapat mempengaruhi perkembangan teknologi, khususnya dalam pengenalan suara. Namun, penelitian yang membahas tentang dialek Sumatera Selatan belum ada sehingga pada penelitian ini dikembangkan sistem pengenalan dialek daerah dari Sumatera Selatan dengan menggunakan model deep neural network (DNN). Dataset yang digunakan dalam penelitian ini adalah data primer dari 5 reponden yang merupakan penutur asli dari dialek yang digunakan, yang terdiri dari dialek Beliti, dialek Sekayu, dialek Palembang, dialek Lahat, dialek Muara Enim, dan bahasa Indonesia baku. Ciri-ciri sinyal suara yang diperoleh dari dataset adalah mel spectrogram, short time fourier transform (STFT), dan mel frequency cepstral coefficient (MFCC). Hasil pengujian menunjukkan bahwa model DNN yang menggunakan optimizer Adam dan loss cross entropy memiliki hasil yang cukup baik dengan input berupa ekstraksi mel spectrogram dan STFT. Akurasi tertinggi dicapai dalam mengenali dialek Beliti, yaitu 72,7% dan dialek Palembang 71,4 % jika ekstrasi ciri yang digunakan adalah mel spectrogram. Sedangkan untuk Bahasa Indonesia, akurasi tertinggi adalah dengan menggunakan ekstraksi ciri STFT, yaitu 71,4%. Model yang menggunakan ciri MFCC menunjukkan performansi yang paling rendah. Hasil ini menunjukkan bahwa mel spectrogram dan STFT dapat digunakan sebagai input DNN untuk pengenalan dialek. Hasil penelitian juga menunjukkan bahwa model DNN dapat memprediksi semua dialek, kecuali dialek Muara Enim. Hal ini dikarenakan dialek Muara Enim direkam pada ruang terbuka sehingga background noise mempengaruhi pengenalan dialek.
Kata Kunci: DNN, pengenalan dialek, mel spectrogram, STFT, MFCC

ABSTRACT: A language has various dialects in each region. It can affect the development of technology, especially in speech recognition. However, the South Sumatran dialects have not been discussed yet. Thus, this study developed a method to recognize dialects using the deep neural network (DNN) model. The dataset used in this study was primary data from 5 respondents who are native speakers of the dialect used, which consists of Beliti dialect, Sekayu dialect, Palembang dialect, Lahat dialect, Muara Enim dialect, and standard Indonesian. The characteristics of the voice signal obtained from the dataset are mel spectrogram, short-time Fourier transform (STFT), and mel frequency cepstral coefficient (MFCC). The test results showed that the DNN model that uses the Adam optimizer and loss cross-entropy has good accuracy value with input in the form of mel spectrogram and STFT. The highest accuracy was achieved in recognizing the Beliti dialect at 73% and the Palembang dialect at 71% when using mel spectrogram features. As for Indonesian, the highest accuracy was achieved using STFT feature extraction, which was 71%. Meanwhile, MFCC showed the lowest performance. These results indicate that the mel spectrogram and STFT can be used as DNN input for dialect recognition. The results also showed that the DNN model can predict all dialects, except the Muara Enim dialect. This is because the Muara Enim dialect was recorded in an open space so that background noise affected dialect recognition
Keywords: DNN, dialect recognition, mel spectrogram, STFT, MFCC

Published
2021-12-19