Копирайте текст от PDF с персонализиран ШРИФТ

Опитвам се да копирам текст от PDF. Но когато го поставя в word файл, това е просто някакъв боклук. Нещо като മുഖവുര. PDF файлът е на малаяламски език. Когато видя File->Properties->Fonts, се казва BRHMalayalam (Embedded Subset), както е показано на екранната снимка.

въведете описание на изображението тук

Инсталирах различни малаяламски шрифтове, но все още нямам успех. Може ли някой да ме напътства?

PDF файлът, от който се опитвам да копирам, е https://drive.google.com/open?id=0B3QCwY9Vanoza0tBdFJjd295WEE&authuser=0


person Karthik Andhamil    schedule 13.05.2015    source източник
comment
Наличието на примерен документ е единственият абсолютно сигурен начин да се диагностицира какво точно се случва тук...   -  person David van Driessche    schedule 14.05.2015
comment
Дейвид, ето PDF файла: drive.google.com/file/d/ 0B3QCwY9Vanoza0tBdFJjd295WEE/   -  person Karthik Andhamil    schedule 14.05.2015


Отговори (3)


Инсталирането на шрифтове няма да помогне, тъй като те са вградени в документа. Читателят ще използва тези в документа.

Всъщност почти сигурно трябва да използва тези в документа, защото вероятно ще е използвал кодове на знаци, специфични за всеки поднабор от шрифтове.

Вашият PDF вероятно има кодове на знаци, които не са Unicode стойности, и не съдържа ToUnicode CMaps за въпросните шрифтове (обърнете внимание на едно и също име на шрифт, вградено няколко пъти). Няма реалистичен начин да копирате текста.

Най-доброто, което можете да направите, е да го разпознаете.

person KenS    schedule 13.05.2015
comment
Внимавайте с твърдението: Читателят ще използва тези в документа. Някои зрители (като Adobe Acrobat и Adobe Reader) имат предпочитание, което ги конфигурира да използват локални шрифтове вместо вградените в документа шрифтове от съображения за производителност. Това е омразна опция за всеки, който се занимава с качествени PDF документи и по подразбиране е настроен да използва локални шрифтове... - person David van Driessche; 14.05.2015
comment
И почти сигурно ще даде неправилни отговори с прекодиран шрифт на подмножество, което почти сигурно е това, което имаме тук. Лично аз бих считал тази опция за еквивалентна на „счупен“. Също така не мога да намеря тази опция в моите различни версии на Acrobat или Reader. Разбира се, има толкова много опции..... - person KenS; 14.05.2015
comment
Не съм сигурен кога са започнали с това, но го знам от много години. В предпочитанията трябва да има раздел (добре, те използват списък сега, защото имат твърде много опции), наречен Page display (въпреки че вярвам, че някога се е наричал просто дисплей) и обикновено трябва да има опцията. Заедно с опцията за предварителен преглед на надпечатване. - person David van Driessche; 14.05.2015
comment
Е, там има опция за „локални шрифтове“, но t не използва локални шрифтове вместо вградени за мен. Доколкото виждам, това се отразява на поведението на Acrobat, когато шрифтовете не са вградени в PDF файла. Доколкото мога да видя, ако шрифтът не е вграден, Acrobat няма да използва локално инсталираните OS шрифтове, а използва само собствените си шрифтове (ако тази опция е зададена). Whcih ви дава по-добра представа как ще изглежда PDF файлът на друг компютър, ако не вградите шрифтове. Разбира се, невграждането на шрифтове е лошо нещо...... - person KenS; 14.05.2015

След като разгледахте файла и потвърдихте отговора, даден вече от @KenS, проблемът с този PDF документ всъщност е как е конструиран. Или по-скоро как е вграден шрифтът в документа.

Документът съдържа множество шрифтове Times и Arial, за които текстът може да се копира успешно. Тези шрифтове са вградени като подмножество с WinAnsi кодиране. Това, което всъщност е във файла, е достатъчно близо до това, така че текстът изглежда копиран добре.

Проблемният шрифт (BRHMalayalam) също е вграден като подмножество и неговото кодиране е също зададено като WinAnsiEncoding, което напълно няма смисъл.

въведете описание на изображението тук

И тъй като шрифтът не съдържа ToUnicode таблица за съпоставяне, PDF визуализаторът няма друг избор при копиране и поставяне, за да приеме, че знаците в PDF файла наистина са Win Ansi кодиране, което означава, че в крайна сметка получавате (объркани) латински знаци.

person David van Driessche    schedule 14.05.2015
comment
И така, означава ли, че PDF файлът е безполезен за мен? - person Karthik Andhamil; 21.05.2015
comment
Що се отнася до копирането и поставянето, до голяма степен, да. Единствената ви възможност е да го конвертирате в изображения и да го OCR. OCR машината - ако поддържа правилния език - трябва да може да получи добро количество от действителния текст вместо вас. Но PDF файлът такъв, какъвто е, не съдържа достатъчно информация, за да извлече текста правилно. - person David van Driessche; 21.05.2015

Просто конвертирайте pdf файла в word файл и след това редактирайте, копирайте или модифицирайте текста, присъстващ във файла, просто :) и след завършване отидете на файл -> запиши като -> и променете формата на doc в pdf ..надявам се, че сте разбрали: )

person hacker tech    schedule 24.11.2017