Haz 112019
 

Türkçenin Heceleme Algoritması Üzerine

Türkçe sözcüklerin hecelerine ayrılması ve kullanımı üzerine daha önce yazıp paylaştığım bir kaç yazı var:

7 Haziran 2019 – Türkçede Hece Kullanım Frekansları

7 Kasım 2016 – Türkçe Kelimelerde Hecelerin Sayısal Dağılımı

19 Nisan 2016 – Türkçe Hecelemede 6 Temel Kural

Python ile yazılmış bir heceleme algoritması da bunların arasında.

Bu yazımda yine Türkçe kelimelerin hecelenmesi ile ilgili farklı bir konuya gireceğim.

wordcloud ile Türkçe heceler

Özellikle bir çok futbol kulübünün isminde karşılaştığımız hecelere ayırmada “genel yaklaşıma” aykırı bir durum oluşuyor.
Örneğin “bursaspor” sözcüğünü kurallara göre hecelediğimizde: bur-sas-por hecelerini elde ediyoruz. Algoritmik çözüm açısından ben de bu sonuca katılıyorum.
Ancak son dönemde üzerinde yoğunlaşmaya başladığım sesten yazıya ve yazıdan sese çalışmalarında bu sonuç beni de rahatsız etmeye başladı.

Bileşik kelime haline getirilen; ayrı yazıldığında bile ilk sözcük sesli harfle bittiği ve ikinci sözcük sessiz harfle başladığı için birbirine ulanarak seslendirilen bu sözcükler biraz yadırgatıcı bir sonuç üretiyor.

Örneğin “sas” hecesi aşağıdaki sözcüklerde geçiyor. Özel isimleri ayırırsak esas, sansasyon, sassuolo, sassari, assassin, ihtisas, hassas, sastre, kısas, ihsas gibi sözcükler var. Hepsi yabancı kökenli. Yani “sas” sesi Türkçeye uygun bir ses değil.

sas: 123 [‘bursaspor’, ‘manisaspor’, ‘esasları’, ‘esaslar’, ‘bursasporlu’, ‘esastır’, ‘esaslı’, ‘esastan’, ‘sansasyonel’, ‘esaslara’, ‘sasha’, ‘esaslarına’, ‘manisasporlu’, ‘esaslarını’, ‘sassuolo’, ‘sansasyon’, ‘sassari’, ‘esasların’, ‘hassastır’, ‘esaslarının’, ‘brisaspor’, ‘teksaslı’, ‘assassin’, ‘bursastore’, ‘ihtisaslaşmış’, ‘esasta’, ‘bursasporlular’, ‘saski’, ‘osasco’, ‘esaslarında’, ‘hassaslar’, ‘esaslarla’, ‘hassastı’, ‘hassaslaştırabilir’, ‘sassoon’, ‘esaslarda’, ‘sasso’, ‘hassaslık’, ‘esaslarından’, ‘ihtisaslaşma’, ‘bursasporumuzun’, ‘bursasporluyum’, ‘saskia’, ‘saskatchewan’, ‘assassins’, ‘hassassınız’, ‘hassaslığı’, ‘sashimi’, ‘hassastırlar’, ‘esasla’, ‘sansasyonları’, ‘bursasporum’, ‘esastı’, ‘esaslardan’, ‘sansasyona’, ‘esaslarıyla’, ‘hassaslaşmış’, ‘hassaslaşan’, ‘esaslıca’, ‘esaslarıdır’, ‘sastre’, ‘kısastan’, ‘kısasta’, ‘ihtisasları’, ‘ihsaslarıma’, ‘hassastım’, ‘hassastılar’, ‘hassassın’, ‘hassassa’, ‘hassaslığını’, ‘hassaslıkla’, ‘hassaslaştırıcıdır’, ‘hassaslaştırmıştı’, ‘hassaslaşmıştı’, ‘hassasken’, ‘esastaki’, ‘esaslıydı’, ‘esaslıdırlar’, ‘esaslıdır’, ‘sansasyonlu’, ‘sansasyonlarla’, ‘sansasyonlar’, ‘sansasyonla’, ‘sansasyonellik’, ‘sansasyonda’, ‘ihtisaslaşmıştır’, ‘ihtisaslaşmaya’, ‘ihtisaslaşmanın’, ‘ihtisaslaşmak’, ‘ihtisaslaşacağını’, ‘ihtisaslarınızı’, ‘ihtisaslarına’, ‘ihtisaslar’, ‘hassasça’, ‘hassasmışsın’, ‘hassasmış’, ‘hassaslığıyla’, ‘hassaslığına’, ‘hassaslığımız’, ‘hassaslığa’, ‘hassaslaşır’, ‘hassaslaşınca’, ‘hassaslaştığı’, ‘hassaslaştırılmış’, ‘hassaslaştırmak’, ‘hassaslaştıran’, ‘hassaslaştıracaksın’, ‘hassaslaştı’, ‘hassaslaşmıştım’, ‘hassaslaşma’, ‘esastırlar’, ‘esassızdır’, ‘esassız’, ‘esaslıymış’, ‘esaslıydım’, ‘esaslısından’, ‘esaslısın’, ‘esaslısı’, ‘esaslılık’, ‘esaslarımızdandır’, ‘esaslardandır’, ‘esaslandırdı’, ‘esaslandıran’]

Gelelim “por” hecesine.
Burada da kesinlikle “Öz Türkçe” diyebileceğimiz tek bir sözcük bile bulunmuyor.
por: 488 [‘raporda’, ‘portekiz’, ‘portekizli’, ‘röportaj’, ‘portakal’, ‘porto’, ‘röportajda’, ‘raporları’, ‘raporlar’, ‘porno’, ‘trabzonsporlu’, ‘röportajında’, ‘pasaportu’, ‘bursasporlu’, ‘röportajı’, ‘raporlarını’, ‘raporla’, ‘raporlarının’, ‘raporlarına’, ‘deportivo’, ‘raporlarında’, ‘porsiyon’, ‘raporların’, ‘portre’, ‘portresi’, ‘portalı’, ‘porselen’, ‘raporlarda’, ‘raporlara’, ‘röportajın’, ‘röportajlar’, ‘eskişehirsporlu’, ‘porsuk’, ‘pasaportunu’, ‘rapordaki’, ‘raportörü’, ‘portatif’, ‘belediyesporlu’, ‘raporlama’, ‘rapordan’, ‘pornosu’, ‘pornografik’, ‘röportaja’, ‘sivassporlu’, ‘kayserisporlu’, ‘motorsporları’, ‘portal’, ‘portekizce’, ‘portresini’, ‘pasaportun’, ‘raporlarla’, ‘portreleri’, ‘antalyasporlu’, ‘manisasporlu’, ‘portakallar’, ‘raporlu’, ‘pasaportuna’, ‘röportajdan’, ‘gaziantepsporlu’, ‘röportajını’, ‘raportör’, ‘raporlarıyla’, ‘röportajları’, ‘porsiyonu’, ‘trabzonsporlular’, ‘karabüksporlu’, ‘porter’, ‘pasaporta’, ‘röportajlarda’, ‘bucasporlu’, ‘pasaportunun’, ‘portresinin’, ‘portuna’, ‘kaporta’, ‘laporta’, ‘konyasporlu’, ‘pasaportuyla’, ‘işporta’, ‘samsunsporlu’, ‘portreler’, ‘portakalı’, ‘raporlarından’, ‘pornografisi’, ‘raporlardan’, ‘denizlisporlu’, ‘elazığsporlu’, ‘ordusporlu’, ‘röportajınızda’, ‘işportacı’, ‘rizesporlu’, ‘portekizliler’, ‘portakalın’, ‘pasaportumu’, ‘pornografi’, ‘portrelerini’, ‘röportajından’, ‘opportunity’, ‘portu’, ‘portakallı’, ‘röportajının’, ‘portalda’, ‘porsiyonlar’, ‘diyarbakırsporlu’, ‘portalına’, ‘işportacılar’, ‘porte’, ‘portalında’, ‘röportajlarında’, ‘pasaportunda’, ‘röportajlara’, ‘portalının’, ‘kaportası’, ‘röportajların’, ‘demirsporlu’, ‘erciyessporlu’, ‘adanasporlu’, ‘raporlarındaki’, ‘portrenin’, ‘balıkesirsporlu’, ‘esporte’, ‘röportajdaki’, ‘pasaportum’, ‘raportörün’, ‘röportajla’, ‘reporter’, ‘porçini’, ‘porta’, ‘raporlanması’, ‘portrelerinin’, ‘portofino’, ‘röportajlardan’, ‘quattroporte’, ‘kaportacı’, ‘izmirsporlu’, ‘bursasporlular’, ‘trabzonsporluların’, ‘portalları’, ‘işportacılık’, ‘portuondo’, ‘portable’, ‘bolusporlu’, ‘röportajına’, ‘işportaya’, ‘saporta’, ‘portugal’, ‘röportajlarını’, ‘raporlardaki’, ‘portör’, ‘porsiyonları’, ‘portreyi’, ‘portrelerinden’, ‘portecho’, ‘portresine’, ‘portrait’, ‘portolu’, ‘transporter’, ‘raporlarımızı’, ‘rapordur’, ‘portalın’, ‘otoportre’, ‘trabzonsporluyum’, ‘röportajlarından’, ‘portakalların’, ‘raportörleri’, ‘portekizlilerin’, ‘portallarından’, ‘porsiyonlarda’, ‘şekersporlu’, ‘portobello’, ‘portia’, ‘porselenleri’, ‘pasaportundaki’, ‘işportacıların’, ‘röportajıyla’, ‘porsiyonların’, ‘porselenler’, ‘motorsporlarının’, ‘fethiyesporlu’, ‘ankarasporlu’, ‘şanlıurfasporlu’, ‘raportörlüğü’, ‘raportörler’, ‘proportionality’, ‘portala’, ‘portakalları’, ‘linyitsporlu’, ‘kocaelisporlu’, ‘işportada’, ‘röportajımda’, ‘portrelerin’, ‘porsumuş’, ‘pornoya’, ‘porcini’, ‘röportajımızda’, ‘portrede’, ‘portimao’, ‘portalını’, ‘motorsporlarına’, ‘raporlayan’, ‘portresiyle’, ‘portakalda’, ‘otoportresi’, ‘kasımpaşasporlu’, ‘röportajındaki’, ‘portresinden’, ‘portallarında’, ‘porsun’, ‘pornonun’, ‘malatyasporlu’, ‘kartalsporlu’, ‘giresunsporlu’, ‘raporlamalar’, ‘portreye’, ‘portas’, ‘pornografiye’, ‘pasaportuma’, ‘laporte’, ‘important’, ‘deportes’, ‘röportajlarıyla’, ‘raportörlük’, ‘portalından’, ‘porsiyonlarınızı’, ‘porsiyonlarla’, ‘porseleni’, ‘pornosuna’, ‘kaportayı’, ‘kaportasına’, ‘bandırmasporlu’, ‘alanyasporlu’, ‘röportajım’, ‘raporlarımızda’, ‘portreleriyle’, ‘portrelerine’, ‘porsiyonluk’, ‘pornografisine’, ‘pasaportunuzu’, ‘kağıtsporlu’, ‘işportacılara’, ‘eyüpsporlu’, ‘bursasporluyum’, ‘röportajımıza’, ‘raporlandı’, ‘pornocu’, ‘motorsporlarında’, ‘tokatsporlu’, ‘sakaryasporlu’, ‘röportajımız’, ‘reporting’, ‘raporlamaya’, ‘portishead’, ‘pornosuyla’, ‘pornografiyi’, ‘pasaportunuzun’, ‘pasaportunuz’, ‘keşansporlu’, ‘işportadan’, ‘hataysporlu’, ‘röportajlarımda’, ‘raportöre’, ‘raporluyor’, ‘raporlandığı’, ‘portali’, ‘pornografinin’, ‘petrolsporlu’, ‘oportünist’, ‘kayserisporlular’, ‘raportörünün’, ‘raportörlerin’, ‘raporlayacak’, ‘porteouverte’, ‘portakala’, ‘porsiyona’, ‘porselenden’, ‘pornografiyle’, ‘pasaportumuz’, ‘kaportacılık’, ‘disproportionate’, ‘deporte’, ‘superdeporte’, ‘reported’, ‘raporlayıp’, ‘raporlanıyor’, ‘rapordu’, ‘portresinde’, ‘portrelerden’, ‘portillo’, ‘portallarına’, ‘portakaldan’, ‘porsiyonun’, ‘porsiyonlara’, ‘kurtalansporlu’, ‘kaportasında’, ‘deportiva’, ‘bafrasporlu’, ‘portrelere’, ‘kaportanın’, ‘raporlan’, ‘portredeki’, ‘porsuklar’, ‘işportacılığı’, ‘raporlarım’, ‘raporlardı’, ‘portresiydi’, ‘portreleriydi’, ‘portakalla’, ‘porsuğu’, ‘pasaportumdaki’, ‘pasaportumda’, ‘işportacının’, ‘röportajımı’, ‘röportajlarla’, ‘raporlarınızı’, ‘raporlarınızda’, ‘portrelerle’, ‘portreden’, ‘portesine’, ‘porsuyup’, ‘porselenleriyle’, ‘porselenlerinin’, ‘porselenin’, ‘pasaportuydu’, ‘kaportasının’, ‘kaportadaki’, ‘işportası’, ‘işportacılardan’, ‘triportörle’, ‘röportajlarınızdan’, ‘röportajlarının’, ‘raporsuz’, ‘raporludur’, ‘raporlaştırmışlardı’, ‘raporlarımıza’, ‘portresindeki’, ‘portrenizi’, ‘portremi’, ‘portreli’, ‘portrelerinizi’, ‘portrelerinde’, ‘portredir’, ‘portrecilik’, ‘portovenere’, ‘portesi’, ‘portakalım’, ‘portakallara’, ‘porsuğa’, ‘porsiyondan’, ‘porselenlerin’, ‘porfir’, ‘pasaportumun’, ‘pasaportumla’, ‘oportünistti’, ‘kaportaya’, ‘kaportacının’, ‘kaportacılar’, ‘işportalarda’, ‘işportacıyı’, ‘işportacıya’, ‘işportacılıktan’, ‘işportacıdan’, ‘triportörüme’, ‘röportajınızı’, ‘röportajınız’, ‘röportajımın’, ‘röportajımdan’, ‘röportajlarınızı’, ‘röportajdı’, ‘röportajcının’, ‘röportajcıların’, ‘röportajcıları’, ‘röportajcılarla’, ‘röportajcılar’, ‘röportajcı’, ‘raporluymuş’, ‘raporlusu’, ‘raporlular’, ‘raporlaştırır’, ‘raporlarımızın’, ‘raporlarımız’, ‘raporlarıdır’, ‘raporlardır’, ‘raporlanmasının’, ‘raporlanmasını’, ‘raporlaması’, ‘raporlamaları’, ‘raporladı’, ‘proporsiyonu’, ‘portunu’, ‘portreyle’, ‘portreydi’, ‘portresiyse’, ‘portresidir’, ‘portrenize’, ‘portreniz’, ‘portreni’, ‘portrene’, ‘portremizi’, ‘portremin’, ‘portremdi’, ‘portrem’, ‘portrelerimiz’, ‘portrelerimdeki’, ‘portrelerdi’, ‘portrelerdeki’, ‘portredekine’, ‘portredekinden’, ‘portreciliğine’, ‘portreciler’, ‘portoyu’, ‘portoya’, ‘portos’, ‘porton’, ‘portoları’, ‘portolardan’, ‘portolan’, ‘portodan’, ‘porteye’, ‘portesinin’, ‘portesinde’, ‘portenin’, ‘portelerden’, ‘porteler’, ‘portekizliye’, ‘portatifin’, ‘portatifi’, ‘portallarının’, ‘portakalının’, ‘portakalını’, ‘portakallarını’, ‘portakallarımız’, ‘portakallarla’, ‘portakallardan’, ‘portakaldı’, ‘portakalcılarla’, ‘porsuğunu’, ‘porsuğun’, ‘porsuyan’, ‘porsutulmuş’, ‘porsuttuğunu’, ‘porsukların’, ‘porsukları’, ‘porsuklarda’, ‘porsuklara’, ‘porsudu’, ‘porsu’, ‘porsiyonunu’, ‘porsiyonumu’, ‘porsiyonlardan’, ‘porsiyonda’, ‘porselenlerle’, ‘porselenleriydi’, ‘porselenlerini’, ‘porselenle’, ‘porselenini’, ‘porseleninden’, ‘porselenimsi’, ‘porselene’, ‘porselendi’, ‘pornosunun’, ‘pornosunu’, ‘pornografimde’, ‘pornografim’, ‘pornografiden’, ‘porfirden’, ‘pasaportunuza’, ‘pasaportundan’, ‘pasaportumdan’, ‘oportünizmin’, ‘oportünizmi’, ‘oportünizm’, ‘oportünistsin’, ‘oportünistlikle’, ‘oportünistlere’, ‘oportünistler’, ‘kaportasıysa’, ‘kaportasını’, ‘kaportalarını’, ‘kaportacıdaymış’, ‘kaportacıda’, ‘işportasını’, ‘işportaları’, ‘işportalar’, ‘işportacıydı’, ‘işportacısının’, ‘işportacısını’, ‘işportacısıdır’, ‘işportacılığa’, ‘işportacılıkla’]

“trabzonspor” örneği daha da çarpıcı. Hecelediğimizde “trab-zons-por” hecelerini elde ediyoruz. “zons” hecesi sadece “trabzonspor” sözcüğüyle birlikte var.

zons: 9 [‘trabzonspor’, ‘trabzonsporlu’, ‘trabzonsporlular’, ‘trabzonsporluların’, ‘trabzonsporumuz’, ‘trabzonsporluyum’, ‘trazonspor’, ‘trabzonsporumuzun’, ‘trabzonsporumuza’]

Başka örnekler de olmakla birlikte, sözcükleri, bu örneklerdeki gibi Türkçeye yabancı seslere ayırmanın çok sağlıklı olduğunu düşünmüyorum.

Bu tür sözcüklere “Öz Türkçe” heceleme algoritmasını dayatmak yerine, orijinal sözcükleri bir bütün olarak dikkate almak daha anlamlı sonuçlar üretebilir.

Örneğin “bursaspor” sözcüğünü “bur-sa-spor” olarak ayrıştırdığımızda sesler daha uyumlu hale geliyor. Aslında daha da iyisi “spor” yerine “si-por” kullanmak olabilir. Halk ağzında yaygın olarak spor yerine sipor denmesi boşuna değil. Çünkü Türkçemizde hiçbir hece veya kelime çift sessiz harfle başlamıyor.

Temel Türkçe hece yapılarını hatırlayalım:
1. Sesli (Örnek: a-li, ö-dev)
2. Sessiz+Sesli (Örnek: gel-se, dedi)
3. Sesli+Sessiz (Örnek: al-tın, el-li)
4. Sessiz+Sesli+Sessiz (Örnek: er-ken, sarsak)
5. Sesli+Sessiz+Sessiz (Örnek: alt-mış, üst)
6. Sessiz+Sesli+Sessiz+Sessiz (Örnek: sert, berk)

Konuya “Yazıdan Sese” dönüştürme yöntemleri açısından baktığımızda, yabancı kökenli sözcükleri ayrı birer birim olarak ele almanın pek çok sorunu çözmesi mümkün. Böyle yaparsak, örneğin “stres” sözcüğünü Türkçe kurallarına göre hecelemeye kalkmak yerine onu ayrı bir birim -ayrı bir hece sesi- olarak değerlendirebiliriz. “Tren” sözcüğü için de aynı şey geçerlidir.

Dilimizdeki yerleşik yabancı kökenli kelime sayısı oranı çok yüksek. Bu durumdan kurtulmak için teknolojik terim ve kavramlara karşılık gelen yeni sözcükler türetmeksizin, yabancı kökenli tüm terim ve kavramları dilimizden atmaya kalkarsak geriye kullanışsız ve zorlama bir çerçeve kalacaktır. (Türkçeyi temizlemenin olanaksız olduğunu söylemek istemiyorum ama, kendimiz yeni teknoloji ve kavramlar üretemediğimiz sürece, yabancı terimleri olduğu gibi veya kısmen uyarlayarak kullanmak dışında pek bir seçeneğimiz kalmıyor.)

Sonuç olarak, yazıyı sese çevirirken Öz Türkçe sözcükleri ve eklentilerini hecelerine göre, yabancı sözcükleri ise orijinaline uygun birimler halinde seslendirebileceğimizi düşünüyorum.

Çalışma ve deneylerimin sonuçlarını yine buradan sizlerle paylaşacağım.

Ahmet Aksoy

  tarafından 23:44 itibariyle gönderildi.

 Bir yanıt bırakın

Bu HTML tagleri ve özellikleri kullanabilirsiniz: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">

(gerekli)

(gerekli)

This site uses Akismet to reduce spam. Learn how your comment data is processed.