A research paper by Agus Hartoyo and Suyanto
This paper focuses on IG-tree + best-guess strategy as a model to develop Indonesian grapheme-to-phoneme conversion (IndoG2P). The model is basically a decision-tree structure built based on a training set. It is constructed using a concept of information gain (IG) in weighing the relative importance of attributes, and equipped with the best-guess strategy in classifying the new instances. It is also leveraged with two new features added to its pre-existing structure for improvement. The first feature is a pruning mechanism to minimize the IG-tree dimension and to improve its generalization ability. The second one is a homograph handler using a text-categorization method to handle its special case of a few sets of words which are exactly the same in spelling representations but different each other in phonetic representations. Computer simulation showed that the complete model performs well. The two additional features gave expected benefits.
Download the journal publishing the complete paper
Tampilkan postingan dengan label We are drowning in data but starving for knowledge. Tampilkan semua postingan
Tampilkan postingan dengan label We are drowning in data but starving for knowledge. Tampilkan semua postingan
Jumat, 24 September 2010
An Improved Indonesian Grapheme-to-Phoneme (G2P) Conversion using Statistic and Linguistic Information
Diposting oleh
Agus Har The Classifier
di
22.06
0
komentar
Senin, 09 Maret 2009
Kenapa Data Mining Disebut sebagai “Ilmu Muda yang Prospektif”? (part 1)
Untuk menjawab pertanyaan tersebut, pertama-tama tentu saja pastikan bahwa kita memahami apa itu data mining. Inilah makna dari pepatah Arab “Fahmus su’al nishfuj jawab” : mengerti maksud dari pertanyaan adalah separuh jalan menuju jawaban. Jangan bermimpi bisa menjawab pertanyaan – pertanyaan apapun itu – dengan benar jika maksud dari pertanyaan atau bahkan maksud dari subpertanyaan pun kita tidak mengerti; sedangkan orang yang mengerti maksud pertanyaan pun belum tentu kemudian menjawabnya dengan benar karena dari posisi orang itu ke jawaban yang benar masih ada jarak separuh jalan lagi. Oleh sebab itu jika ketika mendapat pertanyaan tersebut kita justeru balik bertanya, “Data mining itu semacam data tentang perusahaan tambang di dunia bukan?” atau bahkan “Data mining itu makanan apa ya?”, alamat kita harus membaca dulu artikel saya yang satu ini.
Jika kita sudah relatif tidak bermasalah dengan pengetahuan dasar data mining yang merupakan modal utama untuk menjawab pertanyaan di atas, kita masih harus mengupas pertanyaan di atas lebih lanjut sebelum menjawabnya – seperti mengupas bawang: sesiung demi sesiung. Apa sesungguhnya yang benar-benar ditanyakan dengan pertanyaan itu? Kenapa data mining disebut sebagai “ilmu muda yang prospektif”? dengan kata muda dicetak miring atau Kenapa data mining disebut sebagai “ilmu muda yang prospektif”? dengan kata prospektif dicetak miring? Itu adalah dua pertanyaan yang berbeda. Untunglah kita akan menjawab kedua-duanya.
Kenapa data mining disebut sebagai “ilmu muda yang prospektif” dapat dijelaskan pertama-tama dengan memperhatikan tabel yang disebut sebagai timeline evolusi teknologi basisdata di bawah ini.
Timeline di atas jelas menunjukkan bahwa ternyata data mining masih muda, bahkan remaja! Jika dianalogikan dengan fase kehidupan manusia ia berada di sekitar usia SMP atau SMA pada hari ini. Bandingkan dengan usia bapak dan abang-abangnya di mana ia belajar dan mengambil ide dari mereka: matematika /statistik yang sudah ratusan atau bahkan ribuan tahun, teknologi mesin pembelajar yang sudah berkepala lima, dan teknologi basisdata yang sudah setengah baya. Sebagaimana kata Plato “Necessity if the mother of invention” data mining adalah penemuan baru era 90-an yang tampil sebagai jawaban atas kebutuhan yang tidak ada sebelumnya. Kebutuhan baru itu adalah kebutuhan untuk membuat “onggokan data raksasa” – onggokan ajaib yang baru ditemukan pada beberapa tahun yang lalu itu – tidak sekedar sebagi onggokan, namun bisa menjadi lahan pertambangan penghasil emas permata pengetahuan dan informasi yang berkilauan penuh manfaat.
Akan tetapi perlu saya tekankan di sini bahwa meskipun data mining sebagai sebuah disiplin ilmu yang tersendiri dan mapan adalah sangat belia, sesungguhnya cikal bakal tradisionalnya telah ada bahkan sejak kehidupan manusia berawal. Jika data mining hanya dipandang sebagai analisis pencarian pola dari data minus aspek otomatisasi dan skalabilitasnya, maka analisis pencarian pola sudah dilakukan bahkan oleh bapak-bapak kita di awal kehidupan manusia. Pemburu mencari pola pergerakan binatang buruan; petani mencari pola musim dan pertumbuhan tanaman; politisi mencari pola opini pemilih; bahkan para pecinta mencari pola respon para kekasih mereka. Itu semua adalah bentuk-bentuk pencarian pola dari data dalam bentuk-bentuknya yang paling tradisional. Sungguh sayang, dengan menyesal kita menyatakan bahwa praktik-praktik bapak-bapak kita tersebut tidak bisa kita kategorikan sebagai data mining karena batasan-batasan kerumitan yang kita tetapkan dan tentu saja… agar data mining tetap bisa kita nyatakan sebagai ilmu yang masih belia nan imut. (To be continued…)
Referensi:
- Introduction to Data Mining (Tan, Steinbach, & Kumar)
- Data Mining Concepts and Techniques (Han & Kamber)
- Data Mining: Practical Machine Learning Tools and Techniques (Witten & Frank)
Jika kita sudah relatif tidak bermasalah dengan pengetahuan dasar data mining yang merupakan modal utama untuk menjawab pertanyaan di atas, kita masih harus mengupas pertanyaan di atas lebih lanjut sebelum menjawabnya – seperti mengupas bawang: sesiung demi sesiung. Apa sesungguhnya yang benar-benar ditanyakan dengan pertanyaan itu? Kenapa data mining disebut sebagai “ilmu muda yang prospektif”? dengan kata muda dicetak miring atau Kenapa data mining disebut sebagai “ilmu muda yang prospektif”? dengan kata prospektif dicetak miring? Itu adalah dua pertanyaan yang berbeda. Untunglah kita akan menjawab kedua-duanya.
Kenapa data mining disebut sebagai “ilmu muda yang prospektif” dapat dijelaskan pertama-tama dengan memperhatikan tabel yang disebut sebagai timeline evolusi teknologi basisdata di bawah ini.

Timeline di atas jelas menunjukkan bahwa ternyata data mining masih muda, bahkan remaja! Jika dianalogikan dengan fase kehidupan manusia ia berada di sekitar usia SMP atau SMA pada hari ini. Bandingkan dengan usia bapak dan abang-abangnya di mana ia belajar dan mengambil ide dari mereka: matematika /statistik yang sudah ratusan atau bahkan ribuan tahun, teknologi mesin pembelajar yang sudah berkepala lima, dan teknologi basisdata yang sudah setengah baya. Sebagaimana kata Plato “Necessity if the mother of invention” data mining adalah penemuan baru era 90-an yang tampil sebagai jawaban atas kebutuhan yang tidak ada sebelumnya. Kebutuhan baru itu adalah kebutuhan untuk membuat “onggokan data raksasa” – onggokan ajaib yang baru ditemukan pada beberapa tahun yang lalu itu – tidak sekedar sebagi onggokan, namun bisa menjadi lahan pertambangan penghasil emas permata pengetahuan dan informasi yang berkilauan penuh manfaat.
Akan tetapi perlu saya tekankan di sini bahwa meskipun data mining sebagai sebuah disiplin ilmu yang tersendiri dan mapan adalah sangat belia, sesungguhnya cikal bakal tradisionalnya telah ada bahkan sejak kehidupan manusia berawal. Jika data mining hanya dipandang sebagai analisis pencarian pola dari data minus aspek otomatisasi dan skalabilitasnya, maka analisis pencarian pola sudah dilakukan bahkan oleh bapak-bapak kita di awal kehidupan manusia. Pemburu mencari pola pergerakan binatang buruan; petani mencari pola musim dan pertumbuhan tanaman; politisi mencari pola opini pemilih; bahkan para pecinta mencari pola respon para kekasih mereka. Itu semua adalah bentuk-bentuk pencarian pola dari data dalam bentuk-bentuknya yang paling tradisional. Sungguh sayang, dengan menyesal kita menyatakan bahwa praktik-praktik bapak-bapak kita tersebut tidak bisa kita kategorikan sebagai data mining karena batasan-batasan kerumitan yang kita tetapkan dan tentu saja… agar data mining tetap bisa kita nyatakan sebagai ilmu yang masih belia nan imut. (To be continued…)
Referensi:
- Introduction to Data Mining (Tan, Steinbach, & Kumar)
- Data Mining Concepts and Techniques (Han & Kamber)
- Data Mining: Practical Machine Learning Tools and Techniques (Witten & Frank)
Diposting oleh
Agus Har The Classifier
di
16.32
0
komentar
We are Drowning in Data but Starving for Knowledge!
Biasanya pembahasan tentang data mining dimulai dari cerita tentang apa yang disebut sebagai “ledakan data”. Disebutkan di sejumlah referensi bahwa jumlah data di dunia mengganda menjadi 2 kali lipatnya setiap 20 bulan. Hal itu terjadi karena data bertambah dalam orde per detik, serentak, melalui berbagai jalur, dan dalam partai besar, mulai dari data web, data e-commerce, data pembelian di grosir dan supermarket, data transaksi di bank, data telekomunikasi, hingga data satelit. Hal itu juga tidak lepas dari dampak perkembangan cepat bidang perangkat keras yang membuat komputer sebagai alat pengumpul data menjadi kian murah, tapi pada saat yang sama, juga kian powerful. Di lain pihak peningkatan data yang eksponesial itu sama sekali tidak diimbangi oleh jumlah analis data (Lihat gambar di bawah). Terciptalah di dunia ini apa yang disebut sebagai “onggokan data raksasa” dan tercetuslah idiom yang terkenal ini: “We are drowning in data but starving for knowledge!”. Ya, kita semua tenggelam dalam data tapi dilanda kelaparan akan pengetahuan, kurang lebih menyerupai ayam mati di lumbung padi. Data mining lahir untuk memecahkan masalah ini.

Dengan menggabungkan beberapa definisi dari beberapa sumber, saya merumuskan ini dia definisi yang paling komprehensif untuk data mining: eksplorasi dan ekstraksi non-trivial akan informasi / pola / aturan yang implisit, tidak diketahui sebelumnya, dan potensial berguna dari sekumpulan besar data menggunakan kakas otomatis atau semiotomatis. Jika kita harus menerjemahkan setiap istilah penting ke dalam bahasa Indonesia, definisi di atas menuntun kita untuk menerjemahkan data mining cenderung sebagai “penambangan data” alih-alih "pertambangan data”. Kenyataannya kita tidak harus, bahkan tidak perlu, menggunakan bentuk Indonesia untuk setiap istilah kita karena, seperti yang kita ketahui bersama, data mining tetap disebut data mining, bahkan kebanyakan tanpa dicetak miring, dalam artikel-artikel berbahasa Indonesia.
Referensi:
- Introduction to Data Mining (Tan, Steinbach, & Kumar)
- Data Mining Concepts and Techniques (Han & Kamber)

Dengan menggabungkan beberapa definisi dari beberapa sumber, saya merumuskan ini dia definisi yang paling komprehensif untuk data mining: eksplorasi dan ekstraksi non-trivial akan informasi / pola / aturan yang implisit, tidak diketahui sebelumnya, dan potensial berguna dari sekumpulan besar data menggunakan kakas otomatis atau semiotomatis. Jika kita harus menerjemahkan setiap istilah penting ke dalam bahasa Indonesia, definisi di atas menuntun kita untuk menerjemahkan data mining cenderung sebagai “penambangan data” alih-alih "pertambangan data”. Kenyataannya kita tidak harus, bahkan tidak perlu, menggunakan bentuk Indonesia untuk setiap istilah kita karena, seperti yang kita ketahui bersama, data mining tetap disebut data mining, bahkan kebanyakan tanpa dicetak miring, dalam artikel-artikel berbahasa Indonesia.
Referensi:
- Introduction to Data Mining (Tan, Steinbach, & Kumar)
- Data Mining Concepts and Techniques (Han & Kamber)
Diposting oleh
Agus Har The Classifier
di
07.50
0
komentar
Langganan:
Postingan (Atom)