Haz 022019
 
2.076 kez okundu

Facebook wit.ai ile Sesten Yazıya

Son dönemdeki kitap çalışmalarım nedeniyle bu siteyi epeyce ihmal ettim. Umarım arayı kısa sürede kapatırız.
Yeni çalışmalarım, “Sesten Yazıya” ve “Yazıdan Sese” dönüşüm üzerine.
Bu yazımda Facebook’un denetimindeki wit.ai sitesi üzerinden sağlanan Sesten Yazıya çalışmasına bir örnek vereceğim. Bu hizmet tamamiyle ücretsiz.
Wit.ai gibi Google, Google Cloud, Microsoft Azure ve IBM tarafından sağlanan Sesten Yazıya çözümleme hizmetleri de bulunuyor.
Google ve Google Cloud belli kısıtlamalar içerse de uzun soluklu ve ücretsiz hizmetler sunuyor.
IBM ise “one month of inactivity” gibi bir kısıtlama koymuş. Benim yaptığım gibi deneme amaçlı bir hesap açar ve bu zamanı geçirirseniz, bir daha IBM ile -ücretsiz- çalışamıyorsunuz.
Benzer bir durum da Microsoft Azure için var. Sadece bir aylık ücretsiz üyelik sağlıyor. Daha sonra yapacağınız denemeler için ücret ödemek zorundasınız.
Eğer ticari olarak yararlanmayı düşünmüyorsanız IBM ve Microsoft dışındaki ücretsiz çözümler size daha cazip gelebilir.
Facebook – wit.ai bunlardan biri.
Öncelikle bu siteye üye olmanız ve bir hesap oluşturarak yeni bir API anahtarı almanız gerekiyor.
Gerekli işlemler şöyle:

1. https://wit.ai sitesine gir

https://wit.ai sitesine bağlan


2. Facebook veya Github üyeliğin üzerinden sisteme bağlan (ilgili butona tıkla)
3. Sayfanın sağ üst tarafındaki artı (+) işaretine tıklayarak yeni bir hesap oluştur
3.1. Hesaba bir isim ver (resimdeki deneme hesabı)
3.2. İkinci kutuya bir açıklama yaz
3.3. Language (dil) olarak Turkish seç
3.4 En alttaki “+ Create App” butonuna tıkla

Sayfanın sağ üst tarafındaki artı (+) işaretine tıklayarak yeni bir hesap oluştur

4. Sağ üst köşedeki “Settings” butonuna tıkla

Sağ üst köşedeki “Settings” butonuna tıkla

5. Bu sayfadaki “Server Access Token” değerini kopyala (API anahtarı olarak bu bilgi kullanılacak)
5.1 Gerekiyorsa Default Timezone ve Language değerlerini değiştir.

API anahtarı olarak Server Access Token değerini kopyala

6. Python projenin çalışma klasöründe witkeys_tr.py (veya benzeri) bir dosya oluştur
7. Bu dosyanın içine WIT_ACCESS_TOKEN= yaz ve eşit işaretinin sağ tarafına tırnak içinde 5. satırda elde ettiğin değeri yaz
8. Dosyayı kaydet

Şimdi de kullanacağımız betiği görelim:

Betiğimizde speech_recognition modülünü kullanıyoruz.
Bu modülü kurmak için vereceğimiz konsol komutu şudur:

Betiğimiz Python 3.6 için hazırlanmıştır ve Ubuntu 18.04, Windows 10 ve Mac OS Sierra üzerinde sorunsuz çalışmaktadır.

Ahmet Aksoy

Eyl 212018
 
alice ekler
9.487 kez okundu



Python ile Türkçe Kelime Eklerinin Dağılımı

Türkçe “eklemeli” bir dildir. Bu nitelikteki diğer iki dil Macarca ve Moğolcadır.

Türkçede kullandığımız kelimeleri türeten eklerin konumlarını ve frekanslarını belirleyen bir çalışma yaptım.

Bu amaçla ekleri ayrıştırıp sınıflandırmak için Zemberek kütüphanesinden yararlandım.

Çalışmamın bir bölümünde derlem dosyasındaki kelimeleri kullandım.

Rekorumuz “ilişki” isminde.

Bu isme 10 ayrı ek ulanarak “ilişkilendirilemeyeceklerini” sözcüğünün oluştuğunu görüyoruz.

Daha fazla kök içeren başka kelimeler de bulunabilir. Ama bu tür örnekler büyük olasılıkla uygulanabilirlikten uzak olacaklardır.

Bu sözcüğün Zemberek ile elde ettiğimiz kırılım yapısı şu şekilde:
ilişkilendirilemeyeceklerini
ilişki ISIM_KOK 0
ilişki-le ISIM_DONUSUM_LE 1
ilişki-le-n FIIL_EDILGENSESLI_N 2
ilişki-le-n-dir FIIL_ETTIRGEN_TIR 3
ilişki-le-n-dir-il FIIL_EDILGEN_IL 4
ilişki-le-n-dir-il-e FIIL_YETERSIZLIK_E 5
ilişki-le-n-dir-il-e-me FIIL_OLUMSUZLUK_ME 6
ilişki-le-n-dir-il-e-me-yecek FIIL_DONUSUM_ECEK 7
ilişki-le-n-dir-il-e-me-yecek-ler ISIM_COGUL_LER 8
ilişki-le-n-dir-il-e-me-yecek-ler-in ISIM_TAMLAMA_IN 9
ilişki-le-n-dir-il-e-me-yecek-ler-in-i ISIM_BELIRTME_I 10

Aynı yöntemle alice.txt öyküsünü sözcüklerine, sözcükleri de eklerine ayrıştırdım ve konum frekanslarını saptadım.

Öyküde kullanılan kelimelerin ek kırılım tablosu aşağıdaki gibidir:

Şimdi toplam ek frekanslarını görselleştirelim:

Türkçe Kelime Eklerinin Dağılımı

Konum 0’daki ek sayısı, aslında hiç ek almayan kelime sayısına karşılık geliyor.
Sadece bir ek alan kelimelerin toplamı, 4545.
6 ek alan kelime ise öyküde sadece 1 kez kullanılmış:(alamadıklarından: al-a-ma-dık-lar-ın-dan)
5 ek alan kelimeler şunlar: (toplandıklarında, resimlerindekine, mırıldandığından, kestiremiyordu, götüremeyeceğini, olamayacağını, kullanmamalıydın, bahsedemezdiniz, kesilemezdi, dolamadığını, söyleyebileceklerimin, beceremiyormuşum)

Sınırlı sayıda kelime kökü (20 bin civarı) ile kısıtlı sayıda ekin (yaklaşık 100 civarı) kombinasyonu, Türkçenin zenginliğini oluşturuyor.

Siz de aşağıda verdiğim kodlardaki kaynak dosyayı değiştirerek benzer incelemeler yapabilirsiniz.

Beni izlemeye devam edin.

Ahmet Aksoy

Keywords: türkçe kökler, kelime kökleri, türkçe kelime ekleri, zemberek, python, türkçe, eklemeli dil