полезни статии

Как да създам търсен архив на PDF файлове?

В тази колона за технически съвети на Goldavelez.com - продължете въпросите си, хора! - помагаме на читател, който има твърде много важни документи, които трябва да направят магически преход към цифровото царство. Поне това звучи много по-вълнуващо от „Оптично разпознаване на символи“, което всъщност не се търкаля от езика.

Читателят на Goldavelez.com Фил пише:

Благодаря за любезните думи, Фил! Радвам се да помогна - не заради ласкателствата, а защото въпросът ви е такъв, за който много читатели вероятно са се замислили (включително и аз). Имам цял куп неща, които с удоволствие бих се преместил от физическия в дигиталния свят, така че после мога да Мари Кондо оригиналните документи и снимки да бъдат забравени. Купища хартия не ми носят радост.

Имате няколко опции, които можете да опитате. Ще започна с едно очевидно: Google. Ако приемем, че създавате PDF файлове, качете вашите файлове или файлове в Google Drive. Щракнете с десния бутон на мишката върху всеки отделен PDF файл, задръжте курсора на мишката върху „Отваряне с“ и изберете „Google Документи“. След това Google ще се опита да стартира някои OCR на вашия PDF файл и вие ще можете да запазите получения файл като документ. След това можете да търсите в този документ (и всички други, които преобразувате) чрез самия диск.

Колкото повече мисля за това, обаче, това решение изглежда малко неелегантно, като се има предвид колко файлове трябва да работите. Вместо това бих могъл да изпробвам софтуер като TesseractStudio.Net - или просто Tesseract OCR, ако не се страхувате от командния ред. Трябва да можете да използвате това за създаване на OCR данни от вашите файлове и след това можете да ги търсите директно през Windows или macOS. OCRmyPDF е друга опция, подобна на Tesseract OCR, но отново ще играете с въведени команди за прилагане на OCR към вашите файлове. Няма GUI, нито има (директна) поддръжка на Windows.

Има и Paperwork, инструмент за катализиране на документи с отворен код, който се предлага с вграден OCR, който определено бих помислил, като се има предвид, че е проектиран да бъде цял един софтуер за архивиране, сортиране и търсене на документи. Звучи, че може да е точно това, което търсите.

Не съм използвал PDF-XChange Viewer, но други го препоръчаха като опция. Безплатната версия ще пусне водни знаци във вашите PDF файлове, но може да създаде PDF файлове от изображения и, ако съм прав, добавете OCR към тези съществуващи PDF файлове, които имате. Струва си да проучите, дори и да не е идеалното (безплатно) решение. По подобен начин FreeOCR може да приема вашите изображения или PDF файлове, да прилага OCR и да експортира резултатите като обикновени текстови файлове или Word документи. Ако нямате нищо против да търсите по архивите си по този начин, това е опция.

Що се отнася до платените решения, винаги има Adobe Acrobat Pro или Foxit PhantomPDF . И двете ще ви позволят да добавяте OCR към PDF файлове и би трябвало да можете да обработвате всичките си документи като голяма партида (или да създадете скрипт, който прави това със съдържание на папки). Можете дори да успеете да направите всичко това по време на безплатните изпитания на приложенията, ако те не поставят ограничения за своите OCR възможности. Виждал съм и други с вашия конкретен проблем да постигнат успех, като използват приложение като PDF OCR, което може да бъде по-евтина алтернатива.

Това е всичко, за което се сещам от върха на главата си (и с малко проучване). Да се ​​надяваме, че едно от тези решения работи за вас - без да ви струва малко богатство. Пишете обратно и ме уведомете кое приложение работи най-добре за вас!

Tech 911 Имате ли технологичен въпрос, който ви поддържа през нощта? Ще се радваме да му отговорим! Изпратете имейл с „Tech 911“ в темата.