Ναι πραγματι. Δεν εχω ασχοληθει πολυ με OCR αλλα απο οσο ξερω, ειναι πολυ δυσκολο να διαβαστει μια σελιδα και να αποδοθει με το κειμενο μαζι με το φορμαρισμα (τιτλοι, μεγεθη, παραγραφοι, στοιχιση, bold, italic). Οσες φορες εχω δοκιμασει στο παρελθον, ηταν τραγικα τα αποτελεσματα, και παντα απαιτειται διορθωση (ουσιαστικα απο το 0) απο το χρηστη.
Επισης μια επισημανση
Το τελικό μου αποτέλεσμα θέλω να είναι ενα pdf του τύπου:
http://www.freeclassicebooks.com/Jane Austen/Emma.pdf που μπορεί ευκολα να μετατραπεί/διαβαστεί σε φορητές συσκευές
Τα pdf εξ ορισμου δεν μετατρεπονται. Το μονο πραγμα που μπορεις να "αλλαξεις" σε ενα πδφ ειναι ο τροπος που το εμφανιζεις, δηλ να το δεις σε μεγεθυνση ή σμίκρυνση, οποτε ουσιαστικα δεν εχει σημασια αν προκειται για ψηφιακο κειμενο ή σκαναρισμενη εικονα κειμενου.
Αν αυτο που σε απασχολει ειναι να αναδιπλωνονται σωστα οι γραμμες και οι παραγραφοι ανεξαρτητως μεγεθους συσκευης, οθονης, παραθυρου κλπ (reflowable document), τοτε δεν πρεπει να ασχοληθεις με μετατροπη προς pdf, αλλα προς αρχειο κειμενου.
Οποτε η πιο απλη διαδικασια πουμπορω να σκεφτω ειναι η εξης: βρισκεις ενα δωρεαν προγραμμα OCR που αναγνωριζει ελληνικα και μετατρεπει ενα pdf σε σκετο κειμενο. Κατοπιν, εαν σε ενδιαφερει το φορμαρισμα (επικεφαλιδες, παραγραφοι), παιρνεις το σκετο κειμενο και το μορφοποιεις σε ενα προγραμμα τυπου Word. Κατοπιν κοιτας πως αυτο μπορει να "μετατραπει" σε epub ή mobi.
Εφοσον ψαχνεις για δωρεαν λογισμικο, φανταζομαι μπορεις να βρεις γκουγκλαροντας (1) ενα προγραμμα OCR που μετατρεπει πδφ σε κειμενο και (2) ενα προγραμμα που μετατρεπει κειμενο ή αρχειο Word σε epub ή mobi. Κατι απο τα παραπανω τα κανει και το calibre απο οσο ξερω, αλλα δεν ξερω σε πιο βαθμο.
Εαν υπαρχουν εξωφυλλα και εικονες η διαδικασια πρεπει να ειναι αρκετα πιο περιπλοκη
Δυστυχως δε μπορω να φανταστω κατι πιο απλο, αυτοματοποιημενο και αξιοπιστο, τουλαχιστον για την εποχη μας (αποτελει τεχνολογια τεχνητης νοημοσυνης, και ειμαστε ακομα μονο στο 2016), και για
δωρεαν προγραματα.
(φυσικα αν ξερει καποιος κατι παραπανω ή πιο απλο, παρακαλω να με διορθωσει)