Haz 072019
 
405 kez okundu

Türkçede Hece Kullanım Frekansları

“Yazıdan Sese” çalışmalarım için Türkçede kullanılan hecelere ve kullanım sıklıklarına gerek duyuyorum. Bu amaçla yaptığım çalışmalardan bir kaç ayrıntıyı sizlerle paylaşmak istedim.

Daha önce oluşturduğum Türkçe derlem dosyasındaki kelimeleri kullanarak hece frekanslarını elde ettim.
Kullandığım derlem dosyası bazı filtrelerden geçmiş durumda ve 658 bin 278 adet kelime içeriyor.

Bu kelimeleri oluşturan toplam 5 bin 958 ayrık hece var. Bazı heceler yabancı sözcüklerden, bazıları da yazım sorunları nedeniyle hatalı şekilde oluşmuş. Bunları ayıklamak için ayrıca çalışmalar yapmak gerekiyor. Uygun bir zamanda bunu da yapacağım.

Öte yandan sorunlu ve/veya hatalı kelimeler ve bundan kaynaklanan hecelerin kullanım frekansları çok küçük -genellikle 1 (bir)- olduğu için, yüksek frekanslı hecelerin sağlıklı olduğunu rahatlıkla söyleyebilirim.

Türkçede en çok kullanılan ilk 10 heceyi aşağıdaki gibi saptadım:
1. la : 89037 kelimede geçiyor, kullanım frekansı: 7,313,903
2. le : 78131 kelimede geçiyor, kullanım frekansı: 5,563,362
3. a : 27575 kelimede geçiyor, kullanım frekansı: 4,698,545
4. i : 11533 kelimede geçiyor, kullanım frekansı: 4,339,676
5. ma : 59892 kelimede geçiyor, kullanım frekansı: 3,950,706
6. ka : 28192 kelimede geçiyor, kullanım frekansı: 3,844,792
7. ya : 35443 kelimede geçiyor, kullanım frekansı: 3,632,207
8. o : 10193 kelimede geçiyor, kullanım frekansı: 2,885,237
9. de : 22307 kelimede geçiyor, kullanım frekansı: 2,815,445
10. di: 24341 kelimede geçiyor, kullanım frekansı: 2,593,940

Hecelerin Kelime Frekansları

‘la’ hecesinin içinde geçtiği 89 bin 037 kelimeden bir kısmını örnek olarak listeleyeyim:
‘olarak’, ‘olacak’, ‘yaklaşık’, ‘açıklamada’, ‘galatasaray’, ‘başladı’, ‘şunları’, ‘uluslararası’, ‘yapılacak’, ‘başlayan’, ‘dolayı’, ‘açıkladı’, ‘anlatan’, ‘lazım’, ‘açıklama’, ‘olabilir’, ‘dolayısıyla’, ‘bunların’, ‘olacağını’, ‘çalışmaları’, ‘aralarında’, ‘alarak’, ‘insanların’, ‘vurgulayan’, ‘bunları’, ‘olduklarını’, ‘onların’, ‘mutlaka’, ‘alacak’, ‘çocukların’, ‘yaptıkları’, ‘uygulama’, ‘alanında’, ‘vurguladı’, ‘alanı’, ‘kullanılan’, ‘hakları’, ‘başlayacak’, ‘hazırlanan’, ‘onları’, ‘olayın’, ‘sıralarında’, ‘sonuçları’, ‘ortalama’, ‘onlara’, ‘dolara’, ‘kadınların’, ‘olayı’, ‘çocukları’, ‘tamamladı’, ‘olacaktır’, ‘sağlayan’, ‘sağlamak’, ‘hatırlatan’, ‘olacağı’, ‘vatandaşların’, ‘anlamına’, ‘yaptıklarını’, ‘açıklaması’, ‘çalışmalarını’, ‘insanları’, ‘fiyatları’, ‘yaralanan’, ‘oldukları’, ‘kullanan’, ‘sorularını’, ‘kullanarak’, ‘sağlayacak’, ‘toplanan’, ‘sorunları’, ‘yayınlanan’, ‘başladığı’, ‘yakınları’, ‘oyunları’, ‘açıklamalarda’, ‘başladığını’, ‘bazıları’, ‘olayları’, ‘açıklamasında’, ‘arkadaşları’, ‘yanıtladı’, ‘çalışmalarına’, ‘çocuklara’, ‘alana’, ‘oyuncuların’, ‘olağanüstü’, ‘soruları’, ‘ulaşım’, ‘aldıkları’, ‘açıklamaya’, ‘olacağız’, ‘oyuncuları’, ‘yayımlanan’, ‘vurgulayarak’, ‘olabileceğini’, ‘hazırladığı’, ‘uygulaması’, ‘aldıklarını’, ‘ulaşan’, ‘maçları’, ‘anlatıyor’, ‘yolları’, ‘lacivertli’, ‘olası’, ‘uygulamaya’, ‘uygulanan’, ‘başladık’, ‘yılları’, ‘adayların’, ‘çağlayan’, ‘katılacak’, ‘insanlara’, ‘olayların’, ‘çalışmaların’, ‘sağladı’, ‘kalabalık’, ‘başlatılan’, ‘bunlara’, ‘iddiaları’, ‘planlanan’, ‘araçların’, ‘alanına’, ‘alacağı’, ‘kalacak’, ‘doları’, ‘çalışmalara’, ‘açıklamalar’, ‘aylarında’, ‘patlama’, ‘çalışmalarının’, ‘fotoğrafları’, ‘açıklayan’, ‘kullanımı’, ‘alanları’, ‘başlatıldı’, ‘hazırlanıyor’, ‘hatırlatarak’, ‘yakınlarında’, ‘yapılacağı’, ‘yaşadıklarını’, ‘futbolcuların’, ‘başladım’, ‘layık’, ‘yanıtlayan’, ‘hastalıkları’, ‘olmaları’, ‘paylaşım’, ‘çocuklarının’, ‘başkanları’, ‘haklarını’, ‘olamaz’, ‘çalıştıklarını’, ‘çalışanları’, ‘olabileceği’, ‘tamamlayan’, ‘pazarlama’, ‘kullanım’, ‘açıklamaları’, ‘taraftarların’, ‘araçları’, ‘selahattin’, ‘ilave’, ‘kararları’, ‘kaynakları’, ‘açıklanan’, ‘yıllarında’, ‘sorunların’, ‘kadınlara’, ‘adamları’, ‘maçlarında’, ‘takımlarından’, ‘kurumları’, ‘şartları’, ‘yapılacağını’, ‘mensuplarının’, ‘yakaladı’, ‘açılacak’, ‘uygulanacak’, ‘anlamında’, ‘hastaların’, ‘takımları’, ‘kuruluşları’, ‘olaya’, ‘karşılaşacak’, ‘avukatları’, ‘programları’, ‘kurulacak’, ‘yargılanan’, ‘arkadaşlarımız’, ‘olanların’, ‘kullanıyor’, ‘olabilecek’, ‘sanıkların’, ‘yakalanan’, ‘sonuçlarını’, ‘kullanılması’, ‘yargılama’, ‘açıklamasını’, ‘çalışanların’, ‘sınırları’, ‘fiyatlarının’, ‘bankaların’, ‘adayları’, ‘anlamı’, ‘okulların’, ‘firmaların’, ‘olacağına’, ‘taraftarları’, ‘hazırlıklarını’, ‘konuları’, ‘yaşadıkları’, ‘yapacaklarını’, ‘vatandaşları’, ‘yatırımları’, ‘kullanılacak’, ‘koşulları’, ‘işadamları’, ‘doların’, ‘olağan’, ‘kadınları’, ‘vatandaşlara’, ‘açıklamıştı’, ‘takımların’, ‘uygulamanın’, ‘yollarını’, ‘arkadaşlarının’, …

Bir de ‘bıy’ hecesini örnekleyeyim.
İçinde ‘bıy’ hecesi geçen 56 sözcüğün tamamı şöyle:
‘kitabıyla’, ‘kaybıyla’, ‘lakabıyla’, ‘ayakkabıyla’, ‘hesabıyla’, ‘cevabıyla’, ‘etabıyla’, ‘şarabıyla’, ‘sevabıyla’, ‘hitabıyla’, ‘eşarbıyla’, ‘arabıyla’, ‘kitabıydı’, ‘azabıyla’, ‘adabıyla’, ‘ıstırabıyla’, ‘kebabıyla’, ‘kaybıydı’, ‘cevabıydı’, ‘buzdolabıyla’, ‘çorabıyla’, ‘kitabıymış’, ‘hesabıydı’, ‘lakabıydı’, ‘kalıbıyla’, ‘girdabıydı’, ‘gazabıyla’, ‘gazabıydı’, ‘erbabıydı’, ‘dolabıyla’, ‘şarabıymış’, ‘ıstırabıydı’, ‘zarbıyla’, ‘sincabıydın’, ‘pikabıyla’, ‘muhatabıyla’, ‘muhatabıydı’, ‘mihrabıysa’, ‘mihrabıydı’, ‘kebabıydı’, ‘kasabıydı’, ‘kabıyla’, ‘kabıydı’, ‘inkılabıydı’, ‘iltihabıyla’, ‘icabıydı’, ‘girdabıyla’, ‘etabıydı’, ‘dolabıydı’, ‘buzdolabıysa’, ‘azabıydı’, ‘ayakkabıydı’, ‘ashabıyla’, ‘ahbabıyla’, ‘ahbabıydılar’, ‘ahbabıydı’

Elde ettiğim bilgilerin tamamını ne yazık ki sizlerle paylaşamıyorum. Çünkü toplam dosya boyutu 38MB’dan fazla. Web sitemin kapasitesi ve hosting yapısı bu boyuttaki dosyaları paylaşmaya uygun değil. Bu dosyayı Google Drive üzerinden paylaşmam da pek işe yaramıyor. Çünkü daha önce orada paylaştığım veri kümeleri boşu boşuna yer işgal etmekten başka işe yaramadı.

Şu aşamada bu tür bilgilere ihtiyaç duyanlar benimle bağlantı kurarsa, paylaşmanın bir yolunu buluruz.

Daha ilerisi için -eğer gerekli desteği bulabilirsem- Türkçe veri kümelerinin (ses dahil) rahatlıkla paylaşılabileceği kapsamlı bir site oluşturmayı düşünüyorum.

Bu yazımda kullandığım Python kodlarını paylaşmaya da gerek duymadım. Çünkü paylaşmaya değecek kadar bir ayrıcalıkları bulunmuyor.

Soru, uyarı ve önerilerinizi aşağıdaki “Yorum” alanından bana iletebilirsiniz.

Ahmet Aksoy

Eyl 212018
 
alice ekler
1.413 kez okundu



Python ile Türkçe Kelime Eklerinin Dağılımı

Türkçe “eklemeli” bir dildir. Bu nitelikteki diğer iki dil Macarca ve Moğolcadır.

Türkçede kullandığımız kelimeleri türeten eklerin konumlarını ve frekanslarını belirleyen bir çalışma yaptım.

Bu amaçla ekleri ayrıştırıp sınıflandırmak için Zemberek kütüphanesinden yararlandım.

Çalışmamın bir bölümünde derlem dosyasındaki kelimeleri kullandım.

Rekorumuz “ilişki” isminde.

Bu isme 10 ayrı ek ulanarak “ilişkilendirilemeyeceklerini” sözcüğünün oluştuğunu görüyoruz.

Daha fazla kök içeren başka kelimeler de bulunabilir. Ama bu tür örnekler büyük olasılıkla uygulanabilirlikten uzak olacaklardır.

Bu sözcüğün Zemberek ile elde ettiğimiz kırılım yapısı şu şekilde:
ilişkilendirilemeyeceklerini
ilişki ISIM_KOK 0
ilişki-le ISIM_DONUSUM_LE 1
ilişki-le-n FIIL_EDILGENSESLI_N 2
ilişki-le-n-dir FIIL_ETTIRGEN_TIR 3
ilişki-le-n-dir-il FIIL_EDILGEN_IL 4
ilişki-le-n-dir-il-e FIIL_YETERSIZLIK_E 5
ilişki-le-n-dir-il-e-me FIIL_OLUMSUZLUK_ME 6
ilişki-le-n-dir-il-e-me-yecek FIIL_DONUSUM_ECEK 7
ilişki-le-n-dir-il-e-me-yecek-ler ISIM_COGUL_LER 8
ilişki-le-n-dir-il-e-me-yecek-ler-in ISIM_TAMLAMA_IN 9
ilişki-le-n-dir-il-e-me-yecek-ler-in-i ISIM_BELIRTME_I 10

Aynı yöntemle alice.txt öyküsünü sözcüklerine, sözcükleri de eklerine ayrıştırdım ve konum frekanslarını saptadım.

Öyküde kullanılan kelimelerin ek kırılım tablosu aşağıdaki gibidir:

Şimdi toplam ek frekanslarını görselleştirelim:

Türkçe Kelime Eklerinin Dağılımı

Konum 0’daki ek sayısı, aslında hiç ek almayan kelime sayısına karşılık geliyor.
Sadece bir ek alan kelimelerin toplamı, 4545.
6 ek alan kelime ise öyküde sadece 1 kez kullanılmış:(alamadıklarından: al-a-ma-dık-lar-ın-dan)
5 ek alan kelimeler şunlar: (toplandıklarında, resimlerindekine, mırıldandığından, kestiremiyordu, götüremeyeceğini, olamayacağını, kullanmamalıydın, bahsedemezdiniz, kesilemezdi, dolamadığını, söyleyebileceklerimin, beceremiyormuşum)

Sınırlı sayıda kelime kökü (20 bin civarı) ile kısıtlı sayıda ekin (yaklaşık 100 civarı) kombinasyonu, Türkçenin zenginliğini oluşturuyor.

Siz de aşağıda verdiğim kodlardaki kaynak dosyayı değiştirerek benzer incelemeler yapabilirsiniz.

Beni izlemeye devam edin.

Ahmet Aksoy

Keywords: türkçe kökler, kelime kökleri, türkçe kelime ekleri, zemberek, python, türkçe, eklemeli dil