24 Eylül 2017

Kindle'a Atılan Taranmış PDF'lerdeki Bazı Harflerin Görünmemesi Sorununun Çözümü

24 Eylül 2017
Eski kafalıyımdır biraz, ama bunun en önemli istisnası e-kitap okuyucusudur. İlk başlarda elbette ben de "kitabı eline alacaksın, altını kalemle çizeceksin, o kokusu yok mu o kokusu" gibi gereksiz gösterişlere saplanıp kalmıştım, ama sonra bir Kindle hediye edildi doğum günüm için ve ondan sonra işlerin hiç de öyle olmadığını gördüm. Nitekim Kindle denilen nane, hele ki MOBI format için muazzam bir okuma deneyimi sunuyor. Bunu bilenler bilir, bilmeyenlere de ne desek nasıl anlatsak güç.

Gelgelelim, Kindle'ın PDF dosyalarını açma özelliği olmasına karşın, çoğumuz "taranmış PDF" dosyası sahibi olduğumuz için bu dosyayı atınca bazı harflerin görünmemesi gibi sorunlar ortaya çıkıyor. Yani her sayfada, hele ki temiz taranmamış PDF'lerde, mutlaka birkaç harf eksik oluyor. Elbette ki bu da yukarıda övdüğüm okuma zevkini alıp götürüyor.

Peki böyle olmasının sebebi ve çözümü nedir? Anlatayım.

Öncelikle PDF dosyalarında şu ayrıma gitmek lazım: Şayet Word dosyasında adamakıllı yazılmış bir yazı PDF'e dönüştürülürse, Kindle bunu açmakta hiçbir sıkıntı yaşamaz. Ancak bir tarayıcı vasıtasıyla veya fotoğraf çekmek suretiyle bir metnin görüntü dosyasını alıp bunu da "ABBYY FineReader" gibi programlarla "OCR taraması" yaparak "okunabilir-metni seçilebilir" hale getirilerek PDF yapılması durumunda bazı harfler görünmeyebilir. Burada tarama ve OCR işleminin kalitesi çok önemlidir. Çok iyi bir tarama ve OCR yapılmışsa yine sorunsuz PDF okunabilir. Ancak amatör bir tarama ve OCR işleminden geçmiş "taranmış PDF" muhtemelen sorunlu olacaktır. 

Bunun sebebini ise kabaca şöyle anlatabilirim: OCR demek, fotoğrafı çekilen veya taranan metindeki harfleri tanıma, okuma ve yazma işlemidir. Yani bir sayfanın fotoğrafını çekip OCR (Optical Character Recognition - Optik Karakter Tanımlama) işleminden geçirirseniz, mesela bilgisayarda açtığınızda PDF dosyasının metnini seçebilir, kopyalayabilirsiniz. Ancak kopyaladığınız metni diyelim ki metin belgesine yapıştır dediğinizde bazı karakterlerin saçma sapan çıktığını da görürsünüz. Çünkü PDF'te normal görünen bir harf, aslında harfin olması gereken doğal kodundan farklı şekilde kodlanmıştır ve metin belgesi gibi "basit" yerlere/uygulamalara/programlara aktarıldığında, kodlarla modifiye edilerek normal harf gibi görünen şey acayip bir şekle bürünebilir.

Her neyse, bunlar işin alakasız ve teknik boyutları, ama neden Kindle "taranmış PDF"lerde bazı harfleri görtermiyor sorusunun da cevabı burada yatıyor. Bilgisayar ekranında "e" gibi görünen harf, OCR sonucunda farklı tarandığı için Kindle bunu okuyamıyor ve boş bırakıyor diyebiliriz.

Bunun çözümü nedir?

Bir yıldır ben uzun ve meşakkatli bir çözüm kullanıyordum, genel bilgi olması mahiyetinde ondan kısaca bahsedeyim.

Bildiğiniz üzere, PDF dosyalarında metin seçilebilir olanlar ve seçilemez olanlar var. Seçilemez olanlar JPEG gibi görüntü formatlarının doğrudan PDF'e aktarılmış halidir. Şayet Kindle'a JPEG formatından -yani OCR işlemi yapılmadan- oluşturulmuş PDF atarsak, bize aslında görüntüyü göstereceğinden hiçbir karakter eksilmesi yaşamayız. Ancak bunun kötü yanı, satırların altının da çizilemez, not alınamaz olmasıdır. Kabaca bunu nasıl yaptığımı anlatayım:

1. Öncelikle taranmış PDF dosyalarını sayfa sayfa JPEG'e çevirmek için PDF2JPG programını kullanmak gerekiyor. Her sayfayı bir fotoğraf gibi kaydediyor bu program. (Bu işlemi online yapanlar da var ancak çok zaman aldığı için program indirip bilgisayarda halletmeyi seçiyorum, bu kısa sürüyor.)

2. Her sayfası JPEG olarak kaydedilmiş dosyayı PDFMate Free PDF Merger vasıtasıyla tekrar PDF'e dönüştürüyorum. Dolayısıyla elimizde artık metni seçilemez olan bir PDF oluyor. Bu da aslında taranmış ancak OCR işlemi yapılmamış bir PDF demek oluyor.

3. Aslında elinizdeki dosyayı doğrudan Kindle'ınıza atıp okuyabilirsiniz, ancak ben bir de sayfaları kırparak boyutlandırmasını yapıyordum. Bunun için Briss adlı bir program kullanıyordum. (Tüm bu programların nasıl kullanıldığını anlatmayacağım, çünkü aşağıda daha basit ve sağlıklı yöntemi anlatacağım, bu sadece genel bir bilgi olarak dursun istiyorum.) Bu program sayesinde sağ-sol-üst-altlardaki boşlukları kesip biçiyor, olabilecek en doğru biçime getiriyordum PDF'i.

Gördüğünüz gibi bu yöntem biraz uzun ve karışık. Gerçi olaya hakim olunca bir kitabı okunabilir hale getirmek 2-3 dakikanızı alıyor, ancak yukarıda da dediğim gibi, en büyük eksisi Kindle içinde altı çizilebilir olmaması.

Gelelim daha dün keşfettiğim ve Kindle'a metni seçilebilir taranmış PDF'leri atıp sorunsuz çalıştırma yöntemimize.

PDF'lerden tam verim alamamak gene kafamı bozmuş ve canım da sıkılmış bir haldeyken tekrar bu sorunun çözümü için ne yapılabilir diye internette fink atıyordum. Konuyla alakasız bir biçimde bazı print edilen PDF dosyalarının çıktılarının sağlıksız olduğu, bunu düzeltmek için "sanal printer" kurmak gerektiği gibi bir şey okudum bir yerde. O an dank etti. Ta en başta anlattığım üzere, Kindle'da da karakterlerin görünmemesine neden olan şey, harflerin doğru taranmamış olmasıydı. Şayet bu "sanal printer" PDF dosyasının çıktısını düzeltiyorsa, aslında "daha basit makineler için" onları tekrar ve doğru kodluyor, yani kodlanmış olanı elden geçiriyor olabilirdi.

Hemen üç beş "sanal printer" kurdum bilgisayara ama tam olarak istediğim verimi alamadım. Çünkü kimisi sayfaya kendi reklamını koyuyordu, kimisi çok yavaştı. Derken derken CutePDF Writer'ı kurdum. Ve bu sanal printer ile işlemden geçirdiğim dosyalar artık Kindle'da sorunsuz bir biçimde açılmaya başladı.

Çok hızlı gittim, değil mi? Gelin adım adım neyi nasıl yapacağınızı anlatayım.

1. Öncelikle bu tatlı mı tatlı CutePDF Writer'ı bilgisayarınıza indirin. (Açılan sayfadaki "Free Download" yazan yere tıklayarak indirin.) Kendisi bedavadır, reklam falan da içermez.

2. Kurulumun aşamasında bir ara size kendi internet sitesinden bazı kodekler indirmek istediğini söyleyecek ve sizden izin isteyecek. Buna mutlaka izin verin.

3. Kurulum tamamlandıktan sonra Kindle'a atmak istediğiniz PDF dosyasını Adobe Acrobat Reader ile açın. (Bu program hepinizde vardır muhakkak, indirecek yer söylemiyorum bile.)

4. Sol üstteki "Dosya" kısmından "Yazdır" seçeneğine tıklayın.

5. Açılan pencerede yukarıda "Yazıcı" diye bir kısım olduğunu göreceksiniz. Normalde bilgisayara bağlı bir yazıcı olunca burada görünür. İşte bizim "sanal printer" olarak "CutePDF Writer" de burada yer alıyor. Seçeneklerden onu seçin.

6. Sağ taraftaki "gelişmiş" kısmına tıklayın. Ayarların aşağı yukarı yandaki gibi olmasına özen gösterin. Kendinize göre ufak tefek değişiklikler yapabilirsiniz ama sakın "görüntü olarak yazdır"ı işaretlemeyin. O, yukarıdaki gibi JPEG formatında kaydedilmesini sağlar ve öyle olunca da Kindle'da gene altını çizemezsiniz metnin.

7. Genel ayarların ise bu yandakine yakın olmasında bir sakınca yok. Mesela ben "sığdır" şeklindeyi makul gördüm, ancak siz özel ölçek atayabilirsiniz. Burası sizin zevkinize kalmış.

8. Son olarak "yazdır" diyorsunuz. Bu işlem biraz zaman alabilir. Bilgisayarın sağ altında, saatin yanında bir fax işareti belirecek. Acele etmeyin, bırakın işlemi yapsın, bir iki dakika sürebilir.

9. Nihayet "Farklı kaydet" şeklinde bir pencere açılarak dosyayı nereye kaydetmek istediğinizi soracak. Ben masaüstünü seçiyorum, seçim sizin, zevk sizin, seçin bir yer.

10. İşte karşınızda karakter kodlaması düzelmiş, Kindle'a atabileceğiniz ve sorunsuz şekilde okuyup altını çizip not alabileceğiniz bir PDF.

Şimdiye dek sorunlu pek çok taranmış PDF dosyasında denedim bu yöntemi ve her birinde işe yaradı. Elinizde fena olmayan kalitede taranmış ve OCR edilmiş DPI'si yani çözünürlüğü ortalama şekilde bir PDF varsa muhtemelen sizde de sorunsuz işe yarayacaktır bu yöntem.

Son olarak not düşeyim, Kindle PaperWhite 3 kullanıyorum ben. Bildiğim kadarıyla en sıkıntılı olanlar da bunlar zaten. Mesela Kindle Fire'da app (uygulama) kurarak bile sorun çözülebiliyormuş. O yüzden emin olmamakla birlikte PDF sorunu yaşayan her Kindle için bu çözümün geçerli olacağını düşünüyor veya umuyorum.

Esen kalın.

2 yorum:

Adsız dedi ki...

bu uzun işlemlere hiç gerek yok. hangi pdf'de sorun varsa, clearscan (CS) yapmalısınız. Bunun yöntemi de şu;

abbyyfinereader'da görev-adobe pdf- görüntü dosyasını pdf'e seçeneği

[Belge seçenekleri'nde "yalnızca sayfa görüntüsü" ve resim seçeneğinde "dengeli" seçili olacak; biçim pdf seçili olacak]

ile mevcut pdf'i abbyy'den geçirin; çıktısını adobe acrobatta metin tanıma kısmından türkçe 600 dpi ile clearscan yapın)

bu kadarcık.

Ümid Gurbanov dedi ki...

Yöntem uzun değil efendim, yazı uzun. :)

Sizin dediğiniz şekilde işlem epey sürer, ancak bu yöntemle sadece bir defalık sanal printer kuruluyor ve ondan sonra print et diyerek yeniden kaydediliyor dosya, hepsi bu.

Yorum Gönder

 
|| © 2018 - Herhangi bir hak bulursanız, saklayın! || Tasarım: Pocket ||