DjVu - DjVu

DjVu
Djvu icon.svg
Filnamnstillägg
.djvu, .djv
Internetmedietyp
image/vnd.djvu, image/x-djvu
Magiskt nummer AT&T
Utvecklad av AT&T Labs - Forskning
Initial release 1998 ; 23 år sedan ( 1998 )
Senaste släppningen
Version 3.5.28
(8 januari 2021 ; 9 månader sedan ) ( 2021-01-08 )
Typ av format Bildfilformat
Innehållet av Utbytesfilformat
Öppet format ? GNU GPLv2 för DjVu Reference Library och DjVuLibre-3.5;
Licensbidrag enligt GNU GPL för flera patent som täcker aspekter av biblioteket

DjVu ( / ˌ d ʒ ɑː v U / DAG -zhah- VOO , som franska " déjà vu ") är en dator filformat främst avsedd för att lagra skannade dokument , i synnerhet de som innehåller en kombination av text, linjeritningar, indexerad färg bilder och fotografier. Den använder teknik som bildlagerseparation av text och bakgrund/bilder, progressiv laddning , aritmetisk kodning och förlustkomprimering för bitonala ( svartvita ) bilder. Detta gör att läsbara bilder av hög kvalitet kan lagras på ett minimum av utrymme, så att de kan göras tillgängliga på webben .

DjVu har marknadsförts för att tillhandahålla mindre filer än PDF för de flesta skannade dokument. DjVu-utvecklarna rapporterar att färgmagasinsidor komprimeras till 40–70 kB, svartvita tekniska papper komprimeras till 15–40 kB och gamla manuskript komprimeras till cirka 100 kB; en tillfredsställande JPEG -bild kräver vanligtvis 500 kB. Precis som PDF kan DjVu innehålla ett OCR -textlager, vilket gör det enkelt att utföra kopierings- och klistra- och textsökningsoperationer.

Gratis skapare, manipulatorer, omvandlare, plugin-program för webbläsare och skrivbordsvisare är tillgängliga. DjVu stöds av ett antal dokumentformat i flera format och e-bokläsarprogram på Linux ( Okular , Evince ), Windows ( Okular , SumatraPDF ) och Android (FBReader, EBookDroid, PocketBook).

Historia

DjVu -tekniken utvecklades ursprungligen av Yann LeCun , Léon Bottou , Patrick Haffner , Paul G. Howard , Patrice Simard och Yoshua BengioAT&T Labs från 1996 till 2001.

Innan standardiseringen av PDF 2008 hade DjVu ansetts överlägsen på grund av att det var ett öppet filformat i motsats till PDF: s äganderätt då. Det deklarerade högre komprimeringsförhållandet (och därmed mindre filstorlek), och den påstått enkla att konvertera stora volymer text till DjVu -format, var andra argument för DjVus överlägsenhet över PDF i tekniklandskapet 2004. Oberoende tekniker Brewster Kahle i ett samtal 2004 på IT -konversationer diskuterade fördelarna med att ge enklare åtkomst till DjVu -filer.

DjVu-biblioteket som distribueras som en del av paketet med öppen källkod DjVuLibre har blivit referensimplementeringen för DjVu-formatet. DjVuLibre har underhållits och uppdaterats av de ursprungliga utvecklarna av DjVu sedan 2002.

Specifikationen för DjVu -filformat har genomgått ett antal revisioner, den senaste är från 2005.

Revisionshistorik
Version Utgivningsdatum Anteckningar
Gammal version, underhålls inte längre: 1–19 1996–1999 Utvecklingsversioner av AT&T labs före försäljningen av formatet till LizardTech .
Gammal version, underhålls inte längre: Version 20 April 1999 DjVu version 3. DjVu ändrades från ett enkelsidesformat till ett flersidigt format.
Äldre version, men ändå underhållen: Version 21 September 1999 Indirekt lagringsformat ersatt. Det sökbara textlagret har lagts till.
Äldre version, men ändå underhållen: Version 22 April 2001 Sidorientering, färg JB2
Gammal version, underhålls inte längre: Version 23 Juli 2002 CID -bit
Gammal version, underhålls inte längre: Version 24 Februari 2003 LTAnno bit
Äldre version, men ändå underhållen: Version 25 Maj 2003 NAVM -bit. Stöd för DjVu -bokmärken (konturer) har lagts till. Ändringar gjorda av versionerna 23 och 24 gjordes föråldrade.
Nuvarande stabil version: Version 26 April 2005 Text-/radkommentarer
Legend:
Gammal version
Äldre version, fortfarande underhållen
Senaste versionen
Senaste förhandsversionen
Framtida släpp

Roll i mjukvaruekosystemet

DjVu -formatets primära användning har varit elektronisk distribution av dokument med en kvalitet som kan jämföras med tryckta dokument. Eftersom den nischen också är den primära användningen för PDF, var det oundvikligt att de två formaten skulle bli konkurrenter. Det bör dock observeras att de två formaten närmar sig problemet med att leverera dokument med hög upplösning på mycket olika sätt: PDF kodar främst grafik och text som vektoriserad data, medan DjVu främst kodar dem som pixmappbilder . Detta innebär att PDF lägger bördan på att göra dokumentet på läsaren, medan DjVu lägger den bördan på skaparen.

Under ett antal år, väsentligt överlappande med perioden då DjVu utvecklades, fanns det inga PDF -tittare för gratis operativsystem - en särskild stötesten var återgivningen av vektoriserade teckensnitt, som är avgörande för att kombinera liten filstorlek med hög upplösning i PDF. Eftersom visning av DjVu var ett enklare problem för vilket fri programvara fanns tillgänglig, fanns det förslag om att fri programvarurörelse skulle använda DjVu istället för PDF för att distribuera dokumentation; rendering för att skapa DjVu skiljer sig i princip inte mycket från rendering för en enhetsspecifik skrivardrivrutin, och DjVu kan som en sista utväg genereras från skanningar av pappersmedia. Men när FreeType 2.0 år 2000 började ge återgivning av alla större vektoriserade teckensnittsformat, började den specifika fördelen med DjVu att urholkas.

På 2000 -talet, med tillväxten av world wide web och innan bredband antogs, antogs DjVu ofta av digitala bibliotek som sitt val av format, tack vare dess integration med programvara som Greenstone och Internet Archive , webbläsarplugins som möjliggjorde avancerade online-surfning, mindre filstorlek för jämförbar kvalitet på bokskanningar och andra bildtunga dokument och stöd för inbäddning och sökning av fulltext från OCR . Vissa funktioner, till exempel miniatyrförhandsgranskningar, integrerades senare i Internet -arkivets BookReader och DjVu -surfning utfärdades till sin fördel eftersom cirka 2015 slutade några större webbläsare att stödja NPAPI- och DjVu -plugins med dem.

DjVu.js Viewer försöker ersätta de saknade pluginsna.

Teknisk översikt

Filstruktur

DjVu -filformatet är baserat på Interchange File Format och består av hierarkiskt organiserade bitar. IFF-strukturen föregås av ett 4-bytes AT&T magiskt tal . Följande är en enda FORMbit med en sekundär identifierare för antingen DJVUeller DJVMför en enkel- eller flersidig dokument.

Alla bitar kan finnas i en enda fil för de så kallade medföljande dokumenten, eller kan finnas i flera filer: en fil för varje sida plus några filer med delade bitar.

Chunk typer

Chunk typer i DjVu filer
Chunk identifierare Innehållet av Beskrivning
FORM: DJVU FORM: DJVM Beskriver en enda sida. Kan antingen vara roten till ett dokument och vara ett enkelsidigt dokument eller hänvisas till från en DIRMbit.
FORM: DJVM Ej tillgängligt Beskriver ett flersidigt dokument. Är dokumentets rotdel.
FORM: DJVI FORM: DJVM Innehåller data som delas av flera sidor.
FORM: THUM FORM: DJVM Innehåller miniatyrbilder.
INFO FORM: DJVU Måste vara den första delen. Beskriver sidbredd, höjd, formatversion, upplösning , gamma och rotation.
DIRM FORM: DJVM Måste vara den första delen. Refererar till andra FORMbitar. Dessa bitar kan antingen följa denna bit inuti FORM:DJVMbiten eller finnas i externa filer. Dessa typer av dokument kallas buntade eller indirekta .
NAVM FORM: DJVM Om det finns, måste omedelbart följa DIRMbiten. Innehåller en BZZ-komprimerad kontur av dokumentet.
ANTa, ANTz FORM: DJVI eller FORM: DJVU Anteckningar.
TXTa, TXTz FORM: DJVU Unicode -text och layoutinformation.
INKL FORM: DJVU ID för en inkluderad FORM::DJVIdel.
Sjbz FORM: DJVU BZZ -komprimerad JB2 bitonal data som används för att lagra mask.
Djbz FORM: DJVI eller FORM: DJVU Delat formbord.
WMRM ? JB2 -data krävs för att ta bort ett vattenstämpel.
CIDa FORM: DJVU Föråldrad bit med okänt innehåll.

Kompression

DjVu delar upp en enda bild i många olika bilder och komprimerar dem sedan separat. För att skapa en DjVu -fil separeras den första bilden först i tre bilder: en bakgrundsbild, en förgrundsbild och en maskbild. Bakgrunds- och förgrundsbilderna är vanligtvis färgbilder med lägre upplösning (t.ex. 100 dpi); maskbilden är en högupplöst bilevel-bild (t.ex. 300 dpi) och är vanligtvis där texten lagras. Bakgrunds- och förgrundsbilderna komprimeras sedan med en wavelet-baserad komprimeringsalgoritm med namnet IW44. Maskbilden komprimeras med en metod som kallas JB2 (liknande JBIG2 ). JB2 -kodningsmetoden identifierar nästan identiska former på sidan, till exempel flera förekomster av ett visst tecken i ett visst teckensnitt, stil och storlek. Den komprimerar bitmappen för varje unik form separat och kodar sedan platserna där varje form visas på sidan. Således, i stället för att komprimera en bokstav "e" i ett givet teckensnitt flera gånger, komprimerar den bokstaven "e" en gång (som en komprimerad bitbild) och registrerar sedan varje plats på sidan det förekommer.

Eventuellt kan dessa former mappas till UTF-8- koder (antingen för hand eller eventuellt av ett textigenkänningssystem ) och lagras i DjVu-filen. Om denna mappning finns är det möjligt att välja och kopiera text.

Eftersom JB2 (även kallad DjVuBitonal) är en variant på JBIG2, som arbetar på samma principer, har båda komprimeringsmetoderna samma problem när de utför förlustig komprimering. År 2013 framkom det att Xerox kopiatorer och skannrar hade ersatt siffror med liknande utseende, till exempel bytt ut en 6 med en 8. Ett DjVu -dokument har upptäckts i naturen med karaktärsbyten, till exempel ett n med blödande serier som blivit au och ett o med en plats inuti som blir till ett e. Huruvida förlustkomprimering har inträffat sparas inte i filen och DjView -visningsprogrammet varnar inte användaren för att teckenbyten kan ha inträffat, varken när en komprimerad fil öppnas eller i dialogrutorna Information eller Metadata.

Formatera licensiering

DjVu är ett öppet filformat med patent. Filformatspecifikationen publiceras, liksom källkoden för referensbiblioteket. De ursprungliga författarna distribuerar en implementering med öppen källkod som heter " DjVuLibre " under GNU General Public License . Rättigheterna till kommersiell utveckling av kodningsmjukvaran har överförts till olika företag under åren, inklusive AT&T Corporation , LizardTech , Celartem och Cuminas .

Celartem förvärvade LizardTech och Extensis.

Stöd

DjVu stöds inte i stor utsträckning av program för skanning och visning. Medan tittare kan laddas ner, öppnas DjVu -filer inte som standard i de flesta operativsystem. Det största undantaget är de flesta Linux -distributioner .

År 2002 valdes DjVu-filformatet av Internetarkivet som ett format där dess Million Book Project tillhandahåller skannade offentliga böcker online (tillsammans med TIFF och PDF). I februari 2016 meddelade Internet Archive att DjVu inte längre skulle användas för nya uppladdningar.

Wikimedia Commons , ett medialager som bland annat används av Wikipedia , tillåter villkorligt PDF- och DjVu -mediefiler.

Se även

Referenser

externa länkar