Zakaj se je besedilo pri kopiranju iz PDF-ja pokvarilo

Če kopiramo besedilo iz datoteke PDF v Word ali celo pretvorimo celotno datoteko iz ene oblike v drugo, se lahko zgodi da se del ali večina besedila pokvari, spremeni ali izgubi obliko, ne ohrani se postavitev, določeni deli celo niso vidni itd. Zato mora te dokumente vedno nekdo pregledati in popraviti.

Najpogostejše so težave s šumniki, predvsem č Č ž Ž, manj pogosto tudi š Š.

  1. Čeprav je besedilo v PDF-ju videti v redu, lahko pri kopiranju dobite druge znake. To se zgodi, če PDF ni pravilno shranjen oz. so črke spremenjene v krivulje. Primer: pri kopiranju spodnjega stavka se zgodi naslednje:
Besedilo
Pokvarjeno besedilo
Iz ne povsem jasnega razloga se je ena vrstica besedila spremenila v kvadratke.
  1. Pogosto se besedilo ne prekopira kot stavek, ampak je vsaka vrstica ločena z znakom za novo vrstico (tipko Enter).

Primer:

Odstavek

Se prekopira kot:

Vrstice

Opomba: v Wordu morate za prikaz teh znakov klikniti ikonoPi.

  1. Naslednja težava je, da se besedilo v stolpcih ne prekopira smiselno, ampak vsaka vrstica posebej.

Primer:

2 stolpca

Se prekopira kot:

1 stolpec

V teh primerih sicer obstaja nekaj zahtevnejših rešitev za pridobivanje besedila iz PDF-ja.

Prva je uporaba orodja za OCR, tudi to pa ne poteka čisto brez težav. Orodja za pretvarjanje PDF-jev v Word še nimajo razvitih algoritmov, ki bi znali besedilo in posamezne besede pravilno umestiti v kontekst. Če orodje zaznava sliko kot »mi«, jo bo tako tudi interpretiralo, čeprav potem to v stavku izgleda npr. »Poleti bomo šli na mirje, kjer se bomo kopali in sončili.« Človeško oko zlahka opazi, da je tukaj napaka, orodja pa imajo pri tem težave. Običajno lahko dosti napak odpravimo, če zaženemo črkovalnik (ki ga imajo boljša orodja že vgrajenega), problem pa je, da je veliko napačnih besed dejansko pravilnih besed in jih črkovalnik preskoči – kot v tem primeru, ko sta pravilni obe besedi, »morje« in »mirje«.

Orodja delajo pri pretvorbi dokumentov napake tudi zato, ker je kakovost slik ali skeniranih dokumentov slaba, besedilo je lahko premajhno, uporabljeni so neobičajni fonti itd. Tako se moramo po pretvorbi dokumenta iz oblike PDF v Word še vedno zanesti na človeški pregled, ki zagotovi pravilnost in ustreznost besedila v naših dokumentih.


OGLEJTE SI TUDI:


Če potrebujete pomoč pri urejanju ali prevodu PDF-ja, nas kontaktirajte na pdf@aikwit.com.


Ključne besede:
kopiranje besedila iz PDF-ja, pokvarjen tekst, čudni znaki