<?xml version='1.0' encoding='iso-8859-2' ?>
<?xml-stylesheet type='text/css' href='/html/lista.css' ?>
<link rel='stylesheet' type='text/css' href='/html/lista.css' ?>
<DKA>
<identifier> 
	<URLOfDoc>http://keptar.oszk.hu/061000/061048</URLOfDoc> 
	<Filename>kpeter_webarch.jpg</Filename>
        <Thumbnail>http://keptar.oszk.hu/061000/061048/kpeter_webarch_kiskep.jpg</Thumbnail> 
</identifier>
<DKAtitle> 
	<MainTitle>Web harvesztelés</MainTitle>
	<UniformTitle>Web harvesztelés</UniformTitle>
</DKAtitle>
<other_title>
	<OtherTitle>Automatikus módszerekkel</OtherTitle> 
	<TitleRefinement>alcím</TitleRefinement>
</other_title>
<creator> 
	<RoleOfCreator>létrehozó</RoleOfCreator> 
	<CreatorFamilyName>Kovács</CreatorFamilyName> 
        <CreatorGivenName>Péter</CreatorGivenName> 
        <CreatorInvert>N</CreatorInvert>
</creator>
<date>
        <Pevent>felvéve</Pevent>
        <PdateChar>2016-08-04</PdateChar>
        <Pdate>2016-08-04</Pdate>
</date>
<date>
        <Pevent>létrehozva</Pevent>
        <PdateChar>2010-03-19</PdateChar>
        <Pdate>2010-03-19</Pdate>
        <PdateNote>A prezentáció készítésének dátuma</PdateNote>
</date>
<type>
        <NameOfType>prezentáció</NameOfType>
</type>
<subcollection>
        <NameOfCollection>Prezentáció</NameOfCollection>
</subcollection>
<subcollection>
        <NameOfCollection>Könyvtártudomány - prezentáció</NameOfCollection>
</subcollection>
<source>
        <NameOfSource>Networkshop</NameOfSource>
        <URLOfSource>https://nws.niif.hu/ncd2010/docs/phu/241.pdf</URLOfSource>
</source>
<rights>
        <CCCode>Attribution-NonCommercial 2.5</CCCode>
</rights>
<topic>
        <Topic>Számítástechnika, hálózatok</Topic>
        <Subtopic>Internet általában</Subtopic>
</topic>
<topic>
        <Topic>Számítástechnika, hálózatok</Topic>
        <Subtopic>Internet használat</Subtopic>
</topic>
<subject>
        <Keyword>internet</Keyword>
        <SubjectRefinement>tárgyszó/kulcsszó</SubjectRefinement>
</subject>
<subject>
        <Keyword>alkalmazás</Keyword>
        <SubjectRefinement>tárgyszó/kulcsszó</SubjectRefinement>
</subject>
<subject>
        <Keyword>web</Keyword>
        <SubjectRefinement>tárgyszó/kulcsszó</SubjectRefinement>
</subject>
<subject>
        <Keyword>weblap</Keyword>
        <SubjectRefinement>tárgyszó/kulcsszó</SubjectRefinement>
</subject>
<subject>
        <Keyword>adatgyűjtés</Keyword>
        <SubjectRefinement>tárgyszó/kulcsszó</SubjectRefinement>
</subject>
<subject>
        <Keyword>adatfeldolgozás</Keyword>
        <SubjectRefinement>tárgyszó/kulcsszó</SubjectRefinement>
</subject>
<description>
        <Caption>Webharvesztelés Automatikus módszerekkel</Caption>
        <OCRText>Web harvesztelés Automatikus módszerekkel
Kovács Péter
Országos Széchényi Könyvtár

Miről lesz szó?
Mi is az a web harvesztelés?
Mire és hol használjuk? Miért hasznos?
Saját megvalósításaink

Mi a web harvesztelés? (web aratás)
Interneten található weboldalak begyűjtése, majd az adatok feldolgozása (Pl.: kereshetővé tétele)
Lépések
Adatok begyűjtése (crawl)
Feldolgozás (index)
Közzététel (search)

Nem egy új keletű dolog

Mire és hol használjuk a szolgáltatást, miért hasznos?
Főként keresésre használjuk
Otthon, munkahelyen, iskolákban &#8211; mindenhol, ahol internet van
Hasznos
Gyors, egyszerű keresés
Szűrési lehetőségek (&#8222;&#8221; , site: stb.)
Tárolt változat

Hasznosak, ingyenesek, DE&#8230;
Nem a sajátunk, ezért
Nem azt aratjuk, amit mi szeretnénk 
Nem akkor aratunk, amikor mi szeretnénk
Forráskód nincs a birtokukban, ez fejlesztési szempontból hátrány
Harvesztelt adatok sincsenek a birtokunkban
Kulturális értékeket meg kell őrizni, ennek a legjobb módja, ha eltároljuk őket

Saját megoldások
Szerettünk volna olyan megoldást, ahol MI irányítjuk a harvesztelést + adott esetben fejleszteni is tudjuk a szolgáltatást
3 dolog hiányzott: Szerver, tárhely, ember.
Open Source programokat kerestünk
Ingyenesek
Forráskód, beállítások elérhetők
Segítség (Forum, wiki, howto)

Szerver
Teszteléshez használt konfiguráció  (Hp Proliant ML350)
2 magos Intel Xeon Processzor (32 bit)
2 GB RAM
SCSI merevlemez
Javasolt szerver konfiguráció      (Ideális esetben 3 szerver)
2*2 vagy 1*4 magos processzor (64 bit)
8 GB RAM
SAS vagy SSD merevlemez

Operációs rendszer
Debian linux 5.0 (Lenny)
Linux disztribúciók közül az egyik legjobb
Vannak tapasztalataink
Gyors, stabil, biztonságos
Ingyenes

Felhasznált programok
Crawler &#8211; adatok begyűjtését végzi
Indexer  - fulltext kereséshez
Indexer &#8211; URL kereséshez
Java alap kereső felületekhez használjuk

Folyamat
Adat gyűjtés (Crawl)
Adatok indexelése (Fulltext és URL kereséshez)
Központi adattároló (Storage)
Kereső felületek

Heritrix
Aktuális stabil verzió: 3.0.0
Weboldalak begyűjtését végzi (crawl)
Warc.gz fájlokban tárolja az adatokat
WARC (Web ARChive) fájl &#8211; képeket, dokumentumokat stb. is a fájlban tárolunk
Tömörített fájl &#8211; helymegtakarítás fontos a nagyobb harveszteléseknél
Szabványnak köszönhetően más programok gond nélkül kezelik

WARC fájl &#8211; timestamp (időbélyeg)
Fájl névben van egy időbélyeg &#8211; mikor készült a fájl
Minden egyes url mellé a Heritrix szintén hozzáad egy időbélyeget
Pl.: 20090914123124 &#8211; Egyedi
Fontos szerepe van

Heritrix - GUI

nutchwax
Jelenlegi stabil verzió 0.13
Begyűjtött adatokat indexeljük vele
I/O műveletek miatt magas memória és gyors merevlemez igény
Index adatbázisban keresünk
Fulltext keresés
Mindent leindexel ami a warc fájlban van
Szöveges dokumentumokban (PDF, DOC, RTF stb.) is kereshetek
Képek, videók, flash fájlok stb nevére kereshetek

Nutchwax - Search
Java alapú kereső, Apache Tomcat alatt fut
Java miatt lassú, nem könnyű szerkeszteni

Nutchwax - Opensearch
Nem kell hozzá Java, HTML alapú
Gyors, könnyű beágyazni weblapokba

Nucthwax &#8211; search vs. opensearch

Opensearch - all versions

Wayback machine
Jelenlegi stabil verzió 1.4.2
Szintén a begyűjtött adatokat indexeljük vele
Index adatbázisában keresünk (kisebb méret)
URL-ek keresésére használjuk
Kezeli az időbélyegeket
Azonos URL címek között különbséget tesz
Verziókövetésre kiváló

Timestamp példa
http://www.oszk.hu/index.html aratva lett:
20090914123124 = 2009.09.14 12:31:24
20091023092522 = 2009.10.22 09:25:22
Bár az URL cím ugyanaz, az időbélyeg, mint egy egyedi azonosító megkülönbözteti a 2 harvesztelést

Wayback kereső

www.oszk.hu/index.html - 2009.09.14
www.oszk.hu/index.html - 2009.10.22

Heritrix vs. Google

Hol tartunk, tervek
Tesztelési fázis
Kell még tesztelni
Új szerver &#8211; 6.0-ás Debián tesztje
Tervek
Teljes magyar domain (.hu) fél évenkénti, illetve különböző oldalak - események időszakos harvesztelése
Két további szerverre lenne szükség, ezzel kapcsolatban már fordultunk a fenntartókhoz

Forrásanyagok
http://crawler.archive.org/
http://archive-access.sourceforge.net/projects/nutch/
http://www.archive.org/web/web.php
http://tomcat.apache.org/

Köszönöm a figyelmet
kovacs.peter@oszk.hu</OCRText>
        <LanguageOfDocument>magyar</LanguageOfDocument>
</description>
<relation>
        <NameOfRelation>Drótos László: Mi a MIA?  Javaslat egy Magyar Internet Archívum létrehozására</NameOfRelation>
        <URLOfRelation>http://dka.oszk.hu/030300/030362</URLOfRelation>
</relation>
<format>
        <FormatName>PowerPoint prezentáció</FormatName>
        <PageNumber>28</PageNumber>
        <NoteOfTechnology>Microsoft Office PowerPoint 2003</NoteOfTechnology>
        <Metadata>N</Metadata>
</format>
<format>
        <FormatName>HTML dokumentum</FormatName>
        <NoteOfTechnology>HTML 5 verzió</NoteOfTechnology>
        <Metadata>N</Metadata>
</format>
<quality>
        <FinestFormat>JPEG képállomány</FinestFormat>
        <MaxImageSize>770x433</MaxImageSize>
        <FinestResolution>96</FinestResolution>
        <ColorOfImage>színes</ColorOfImage>
        <CompressionQuality>közepesen tömörített</CompressionQuality>
</quality>
<status>
        <StatusOfRecord>KÉSZ</StatusOfRecord>
</status>
<operator>
        <RoleOfOperator>katalogizálás</RoleOfOperator>
        <NameOfOperator>Nagy Zsuzsanna</NameOfOperator>
</operator>
</DKA>