Haz 072019
 
2.471 kez okundu

Türkçede Hece Kullanım Frekansları

“Yazıdan Sese” çalışmalarım için Türkçede kullanılan hecelere ve kullanım sıklıklarına gerek duyuyorum. Bu amaçla yaptığım çalışmalardan bir kaç ayrıntıyı sizlerle paylaşmak istedim.

Daha önce oluşturduğum Türkçe derlem dosyasındaki kelimeleri kullanarak hece frekanslarını elde ettim.
Kullandığım derlem dosyası bazı filtrelerden geçmiş durumda ve 658 bin 278 adet kelime içeriyor.

Bu kelimeleri oluşturan toplam 5 bin 958 ayrık hece var. Bazı heceler yabancı sözcüklerden, bazıları da yazım sorunları nedeniyle hatalı şekilde oluşmuş. Bunları ayıklamak için ayrıca çalışmalar yapmak gerekiyor. Uygun bir zamanda bunu da yapacağım.

Öte yandan sorunlu ve/veya hatalı kelimeler ve bundan kaynaklanan hecelerin kullanım frekansları çok küçük -genellikle 1 (bir)- olduğu için, yüksek frekanslı hecelerin sağlıklı olduğunu rahatlıkla söyleyebilirim.

Türkçede en çok kullanılan ilk 10 heceyi aşağıdaki gibi saptadım:
1. la : 89037 kelimede geçiyor, kullanım frekansı: 7,313,903
2. le : 78131 kelimede geçiyor, kullanım frekansı: 5,563,362
3. a : 27575 kelimede geçiyor, kullanım frekansı: 4,698,545
4. i : 11533 kelimede geçiyor, kullanım frekansı: 4,339,676
5. ma : 59892 kelimede geçiyor, kullanım frekansı: 3,950,706
6. ka : 28192 kelimede geçiyor, kullanım frekansı: 3,844,792
7. ya : 35443 kelimede geçiyor, kullanım frekansı: 3,632,207
8. o : 10193 kelimede geçiyor, kullanım frekansı: 2,885,237
9. de : 22307 kelimede geçiyor, kullanım frekansı: 2,815,445
10. di: 24341 kelimede geçiyor, kullanım frekansı: 2,593,940

Hecelerin Kelime Frekansları

‘la’ hecesinin içinde geçtiği 89 bin 037 kelimeden bir kısmını örnek olarak listeleyeyim:
‘olarak’, ‘olacak’, ‘yaklaşık’, ‘açıklamada’, ‘galatasaray’, ‘başladı’, ‘şunları’, ‘uluslararası’, ‘yapılacak’, ‘başlayan’, ‘dolayı’, ‘açıkladı’, ‘anlatan’, ‘lazım’, ‘açıklama’, ‘olabilir’, ‘dolayısıyla’, ‘bunların’, ‘olacağını’, ‘çalışmaları’, ‘aralarında’, ‘alarak’, ‘insanların’, ‘vurgulayan’, ‘bunları’, ‘olduklarını’, ‘onların’, ‘mutlaka’, ‘alacak’, ‘çocukların’, ‘yaptıkları’, ‘uygulama’, ‘alanında’, ‘vurguladı’, ‘alanı’, ‘kullanılan’, ‘hakları’, ‘başlayacak’, ‘hazırlanan’, ‘onları’, ‘olayın’, ‘sıralarında’, ‘sonuçları’, ‘ortalama’, ‘onlara’, ‘dolara’, ‘kadınların’, ‘olayı’, ‘çocukları’, ‘tamamladı’, ‘olacaktır’, ‘sağlayan’, ‘sağlamak’, ‘hatırlatan’, ‘olacağı’, ‘vatandaşların’, ‘anlamına’, ‘yaptıklarını’, ‘açıklaması’, ‘çalışmalarını’, ‘insanları’, ‘fiyatları’, ‘yaralanan’, ‘oldukları’, ‘kullanan’, ‘sorularını’, ‘kullanarak’, ‘sağlayacak’, ‘toplanan’, ‘sorunları’, ‘yayınlanan’, ‘başladığı’, ‘yakınları’, ‘oyunları’, ‘açıklamalarda’, ‘başladığını’, ‘bazıları’, ‘olayları’, ‘açıklamasında’, ‘arkadaşları’, ‘yanıtladı’, ‘çalışmalarına’, ‘çocuklara’, ‘alana’, ‘oyuncuların’, ‘olağanüstü’, ‘soruları’, ‘ulaşım’, ‘aldıkları’, ‘açıklamaya’, ‘olacağız’, ‘oyuncuları’, ‘yayımlanan’, ‘vurgulayarak’, ‘olabileceğini’, ‘hazırladığı’, ‘uygulaması’, ‘aldıklarını’, ‘ulaşan’, ‘maçları’, ‘anlatıyor’, ‘yolları’, ‘lacivertli’, ‘olası’, ‘uygulamaya’, ‘uygulanan’, ‘başladık’, ‘yılları’, ‘adayların’, ‘çağlayan’, ‘katılacak’, ‘insanlara’, ‘olayların’, ‘çalışmaların’, ‘sağladı’, ‘kalabalık’, ‘başlatılan’, ‘bunlara’, ‘iddiaları’, ‘planlanan’, ‘araçların’, ‘alanına’, ‘alacağı’, ‘kalacak’, ‘doları’, ‘çalışmalara’, ‘açıklamalar’, ‘aylarında’, ‘patlama’, ‘çalışmalarının’, ‘fotoğrafları’, ‘açıklayan’, ‘kullanımı’, ‘alanları’, ‘başlatıldı’, ‘hazırlanıyor’, ‘hatırlatarak’, ‘yakınlarında’, ‘yapılacağı’, ‘yaşadıklarını’, ‘futbolcuların’, ‘başladım’, ‘layık’, ‘yanıtlayan’, ‘hastalıkları’, ‘olmaları’, ‘paylaşım’, ‘çocuklarının’, ‘başkanları’, ‘haklarını’, ‘olamaz’, ‘çalıştıklarını’, ‘çalışanları’, ‘olabileceği’, ‘tamamlayan’, ‘pazarlama’, ‘kullanım’, ‘açıklamaları’, ‘taraftarların’, ‘araçları’, ‘selahattin’, ‘ilave’, ‘kararları’, ‘kaynakları’, ‘açıklanan’, ‘yıllarında’, ‘sorunların’, ‘kadınlara’, ‘adamları’, ‘maçlarında’, ‘takımlarından’, ‘kurumları’, ‘şartları’, ‘yapılacağını’, ‘mensuplarının’, ‘yakaladı’, ‘açılacak’, ‘uygulanacak’, ‘anlamında’, ‘hastaların’, ‘takımları’, ‘kuruluşları’, ‘olaya’, ‘karşılaşacak’, ‘avukatları’, ‘programları’, ‘kurulacak’, ‘yargılanan’, ‘arkadaşlarımız’, ‘olanların’, ‘kullanıyor’, ‘olabilecek’, ‘sanıkların’, ‘yakalanan’, ‘sonuçlarını’, ‘kullanılması’, ‘yargılama’, ‘açıklamasını’, ‘çalışanların’, ‘sınırları’, ‘fiyatlarının’, ‘bankaların’, ‘adayları’, ‘anlamı’, ‘okulların’, ‘firmaların’, ‘olacağına’, ‘taraftarları’, ‘hazırlıklarını’, ‘konuları’, ‘yaşadıkları’, ‘yapacaklarını’, ‘vatandaşları’, ‘yatırımları’, ‘kullanılacak’, ‘koşulları’, ‘işadamları’, ‘doların’, ‘olağan’, ‘kadınları’, ‘vatandaşlara’, ‘açıklamıştı’, ‘takımların’, ‘uygulamanın’, ‘yollarını’, ‘arkadaşlarının’, …

Bir de ‘bıy’ hecesini örnekleyeyim.
İçinde ‘bıy’ hecesi geçen 56 sözcüğün tamamı şöyle:
‘kitabıyla’, ‘kaybıyla’, ‘lakabıyla’, ‘ayakkabıyla’, ‘hesabıyla’, ‘cevabıyla’, ‘etabıyla’, ‘şarabıyla’, ‘sevabıyla’, ‘hitabıyla’, ‘eşarbıyla’, ‘arabıyla’, ‘kitabıydı’, ‘azabıyla’, ‘adabıyla’, ‘ıstırabıyla’, ‘kebabıyla’, ‘kaybıydı’, ‘cevabıydı’, ‘buzdolabıyla’, ‘çorabıyla’, ‘kitabıymış’, ‘hesabıydı’, ‘lakabıydı’, ‘kalıbıyla’, ‘girdabıydı’, ‘gazabıyla’, ‘gazabıydı’, ‘erbabıydı’, ‘dolabıyla’, ‘şarabıymış’, ‘ıstırabıydı’, ‘zarbıyla’, ‘sincabıydın’, ‘pikabıyla’, ‘muhatabıyla’, ‘muhatabıydı’, ‘mihrabıysa’, ‘mihrabıydı’, ‘kebabıydı’, ‘kasabıydı’, ‘kabıyla’, ‘kabıydı’, ‘inkılabıydı’, ‘iltihabıyla’, ‘icabıydı’, ‘girdabıyla’, ‘etabıydı’, ‘dolabıydı’, ‘buzdolabıysa’, ‘azabıydı’, ‘ayakkabıydı’, ‘ashabıyla’, ‘ahbabıyla’, ‘ahbabıydılar’, ‘ahbabıydı’

Elde ettiğim bilgilerin tamamını ne yazık ki sizlerle paylaşamıyorum. Çünkü toplam dosya boyutu 38MB’dan fazla. Web sitemin kapasitesi ve hosting yapısı bu boyuttaki dosyaları paylaşmaya uygun değil. Bu dosyayı Google Drive üzerinden paylaşmam da pek işe yaramıyor. Çünkü daha önce orada paylaştığım veri kümeleri boşu boşuna yer işgal etmekten başka işe yaramadı.

Şu aşamada bu tür bilgilere ihtiyaç duyanlar benimle bağlantı kurarsa, paylaşmanın bir yolunu buluruz.

Daha ilerisi için -eğer gerekli desteği bulabilirsem- Türkçe veri kümelerinin (ses dahil) rahatlıkla paylaşılabileceği kapsamlı bir site oluşturmayı düşünüyorum.

Bu yazımda kullandığım Python kodlarını paylaşmaya da gerek duymadım. Çünkü paylaşmaya değecek kadar bir ayrıcalıkları bulunmuyor.

Soru, uyarı ve önerilerinizi aşağıdaki “Yorum” alanından bana iletebilirsiniz.

Ahmet Aksoy