Porady na temat DjVu by Kaz 2008-05-13 09:56:29

Wiele osób zgłosiło chęć pomocy przy rozbudowie biblioteki. Wiele z nich przysyła surowe materiały, ale niektóre z nich gotowce, już przetworzone do formatu DjVu. Każdy robił to w inny sposób, czego efektem jest różna jakość i objętość, czasami tych samych, materiałów. Aby uniknąć odkrywania Ameryki przez każdego z osobna postanowiliśmy z kolegą Maciejem "Scalakiem" Mendelą podzielić się swoimi wiadomościami na temat wykonywania plików w formacie DjVu. Być może kiedyś przemieni się to w bardziej rozbudowane i usystematyzowane FAQ.



Dla nieobeznanych z DjVu - jes to format przechowywania dokumentów, szczególnie przydatny, gdy jest ich wiele albo gdy mają być prezentowane w internecie. Podobny do formatu PDF, ale posiadający pewne zalety, dzięki którym cały czas zwiększa swoją popularność. Najważniejszą pozytywną cechą w stosunku do PDF jest oszczędności w rozmiarach plików. I nie wynika ona z tego, że użyta kompresja jest bardziej stratna niż w formacie JPG czy PDF, ale z tego, że skanowany materiał najpierw jest rozdzielany na warstwy (tekstowa, graficzna, tła) i każda z nich kompresowana najskuteczniejsza metodą. O innych zaletach tego formatu można poczytać tutaj, a potrzebne programy ściągnąć stąd. Do formatu DjVu polecam programy, których sam używam: do przeglądania "WinDjView", a do tworzenia takich dokumentów "DjVu Solo" (dostępny tutaj). Wszystkie wymienione programy są darmowe, ale można też zaopatrzyć się w narzędzia płatne, bardziej rozbudowane, do profesjonalnych zastosowań.

Problem 1 - skanowany materiał

Powtórzę za kolegą Dely-em: równe i dokładne zeskanowanie materiału to więcej niż połowa sukcesu. Wszelka obróbka w poźniejszych fazach, w tym prostowanie, zmiany kontrastu, i tym podobne wymuszone akcje, gwałtownie obniżają jakość skanów i w efekcie końcowego pliku. Lepiej poświęcić trochę czasu na prawidłowe ustawienie parametrów skanera oraz przyłożyć się do równego ułożenia materiału niż potem spędzić wiele czasu nad docinaniem kartek w programie graficznym, poprawianiem krzywizn, zmianą kontrastu i jasności. Oczywiście nie zawsze się tak da - wiele starych, pirackich instrukcji do gier jest krzywych w oryginale, a przecież czasem chodzi nam właśnie o to, by zachować ten klimat.

Problem 2 - jasność/kontrast

Większość z podesłanych do mnie materiałów ma podstawowy problem: słaby kontrast między tłem a tekstem, wynikający ze złych ustawień skanera (albo złego zaciemnienia podczas skanowania). Strony wyglądają na "poszarzałe", a przecież łatwo to można skorygować w prawie każdym programie do obróbki zdjęć. Ja używam darmowego, ale wspaniałego "XnView", gdzie wystarczy wykorzystać opcję "Obraz -> Mapa kolorów -> Automatyczne poziomy/Automatyczny kontrast" ewentualnie "Obraz -> Dostosuj -> Jasność/Kontrast/Gamma/Balans". I już strony wyglądają o wiele lepiej i bardziej czytelnie. Mam więc prośbę do wszystkich wykonujących pliki DjVu - przed wygenerowaniem pliku poprawcie kontrast na wszystkich stronach, które tego wymagają ("XnView" pozwala to zrobić automatycznie na wielu skanach opcją "Narzędzia -> Konwertuj wiele plików").

z lewej wyblakła kartka, z prawej poprawiona


Problem 3 - jakość w "DjVu Solo"

Największy problem w obsłudze DjVu sprawia program "DjVu Solo", który służy do generowania dokumentów w tym formacie. Problem ten polega na tym, że ten darmowy program ma nieco mylący opis opcji oraz niezbyt rozbudowaną pomoc i stąd bierze się wiele dokumentów DjVu o niepotrzebnie słabej jakości. Na podstawie tego niektórzy sądzą, że to cecha formatu DjVu, myląc się oczywiście, bo jakością dokumentu można sterować. Kolega Scalak, po przetrawieniu do DjVu dziesiątków "Bajtków", wielu próbach i testach, jest wśród nas obecnie najbardziej zaawansowanym praktykiem tego formatu i ma najwięcej doświadczenia. Poprosiłem go więc, żeby podzielił się z nami wszystkimi swoją wiedzą:

"Podczas opisywania doświadczeń problem pojawił się jak to w życiu, a zwłaszcza w nauce bywa, w sytuacjach na granicach przedziałów... więc wiedziony chęcią rozgryzienia sprawy DPI/wielkość pliku/jakość pozwoliłem sobie zrobić prosty test. Wygenerowałem 301 plików DjVu okładki "Bajtka" (po około kilkanaście MB jedna) i zrobiłem zestawienie w formie tabelki obserwacji. Następnie organoleptycznie/naocznie oceniłem jakość w danym przedziale na jego granicach. Ocena jakości polegała na sprawdzeniu szczegółów, czy są wyraźniejsze/mniej znikształcone w stosunku do oryginału.

Podczas tworzenia plików DjVu programem "DjVu Solo" niejednokrotnie odniosłem wrażenie, że pomimo zapisu z różnymi DPI osiągam tę samą, a przynajmniej niewiele różniącą się wielkość pliku wynikowego. Zaintrygowany zjawiskiem poddałem próbce skan w rozdzielczości 600 DPI. Program umożliwia zapis pliku w zakresie 50-1200 DPI (ustawiane tuż przed zapisem). Im NIŻSZA wartość tym plik wynikowy większy i jest on lepszej jakości. Po kilkudziesięciu próbach wyselekcjonowałem przedziały, w których pliki mają tę samą/zbliżoną wielkość. Oto one: 50-124, 125-174, 175-274, 275-374, 375-474, 475-574, 575-1200.

Teraz z kolei zaistniało pytanie: jak wygląda sprawa jakości w przedziałach? Czy plik wygenerowany w 50 DPI ma taka samą jakość jak 124 DPI przy tej samej przecież wielkości? Postanowiłem więc przy pomocy programu "DjVu Viewer" zrobić zestawienie parametrów strony w końcach przedziałów (opcja w programie "Pomoc -> Informacje o stronie..."). Wyniki w pliku PDF. Widać jak na dłoni, patrząc na ilość DPI na granicach przedziałów w masce warstwy treści jak i warstwie tła, że w dolnych końcach przedziałów jest znacznie wyższa jakość utworzonego pliku (w myśl logiki DjVu im niższa wartość dpi tym lepsza jakość). Przykładowo dla opcji zapisu 274 DPI - warstwa treści zostanie "potraktowana" 548 DPI, zaś warstwa tła 137 DPI. Wybierając opcje zapisu 175 DPI uzyskamy takiej samej wielkości plik (jak dla 275 DPI), ale dla warstwy treści zostanie zastosowane 350 DPI, a dla tła 87 DPI. W myśl zasady im mniej DPI tym lepiej - widać, że lepiej zapisywać opcją z dolnej granicy (w tym przypadku 175 DPI).

Reasumując, najlepiej zapisywać nasze pliki przy użyciu DPI z dolnych końców przedziału. Jeśli chodzi o "Bajtki", moim zdaniem formaty A4 najlepiej zapisywać w 275 DPI ze względu na dobrą jakość druku/farby, a inne formaty (A3 i "kwadraty") w 175 DPI (moje zacząłem 200 DPI i tak już zostawiłem)."


im mniej tym lepsza jakość - miejsce wielu nieporozumień


Problem 4 - obsługa "DjVu Solo"

Niby prosty program, a jak wiele trudności sprawia zauważam po korespondencji od tych, którzy przysyłają mi pliki DjVu. Najczęściej pada pytanie, w jaki sposób dodać wiele stron jednocześnie do tworzonego dokumentu. Scalak kiedyś też miał ten problem, więc teraz odpowiada na to pytanie: "Po załadowaniu pierwszej strony, w celu dodania wielu kolejnych stron, należy skorzystać z opcji "Edit -> Append Page(s)" i w selektorze plików wskazać te, które mają być dodane. Dzięki temu nie musimy pojedynczo dodawać kolejnych stron."

Dodam do słów Maćka, że można się też posłużyć opcjami "Edit -> Insert Page(s) Before/After", które załączają strony odpowiednio przed i za aktualnie pokazaną stroną.

Problem 5 - strony z różną jakością

W "DjVu Solo" możemy generować każdą stronę z inną jakością, by potem je połączyć w jedno, co daje nam spore możliwości manewru. Zdarza się bowiem, że wśród wielu dobrych skanów zdarza się jedna słabo zeskanowana strona, albo strona z drukiem, który po kompresji wygląda źle (zdjęcia są pokryte szarymi smugami, wyglądają jak "paćka"). W takim wypadku wybrane strony możemy przerobić do DjVu z opcją "Photo", gdzie program zachowa treść bez rozdzielania na warstwy i ich kompresowania, a potem takie dołączyć do całości. Podobnie można czynić, gdy mamy część stron kolorowych, a część czarno-białych. Te ostatnie można zrobić osobno, korzystając z jednej z pozostałych opcji ("Scan", "Bitonal", "Clean"), co powinno dać oszczędność miejsca.

Jeżeli macie dodatkowe obserwacje z zakresu obsługi "DjVu Solo" czy DjVu albo pytania lub sugestie, to proszę je wpisywać w komentarzach poniżej.
piotrwdk 2008-05-13 13:37:17

Pogratulowac wytrwałości i zaangażowania w projekt przetwarzania archiwalnych pism na postać elektroniczną. Doskonały opis! Nie natrafiłem do tej pory na tak wyczerującą informację howto z DJVu. Nic tylko skanować :). Tak trzymać!

sikor 2008-05-14 16:21:38

Niestety, u mnie na Windows Serwer 2003 DjvuSolo nie chce ruszyć... ;( I lipa...

DAK 2008-05-17 23:39:37

@Sikor - ja mam serv2k3 r2 x64 i do formatu djvu (tworzenia jak i odczytu) używam Document Express Professional Editor 6.0 tej oto firmy http://www.lizardtech.com/
Pozdrawiam

Kaz 2008-05-18 19:00:03

Dodam tylko, ze ich komercyjne programy maja 30-dniowe wersje trial. Jakby co, to mozna sie w miesiac sprezyc z robieniem plikow do naszej biblioteki ;).

anonim 2008-05-25 16:36:39

http://code.google.com/p/pdf2djvu/wiki/WindowsGUI

http://code.google.com/p/pdf2djvu/

Kaz 2008-06-01 00:59:44

Cenna informacja, dzieki anonimie.