Arama Motorları Hakkında Faydalı Linkler

Konu hakkında türkçe düzenli bilgi bulmak pek mümkün değil. Bir araya toplamak istedim.

 

Reuters21578: 21000 den fazla haberi barındıran 1000 er haberden 20 dosyadan müteşekkil veri seti.

 

C# kullanan kütüphaneler

HTML Agility Pack : HTML dökümanı nodelarına ayırır ve içerisinde hareket imkanı sağlar.

Nsoup : HTML parçalayıcı JSoup un .NET e çevrilmiş halidir.

Abot: Crawler Aracı

 

Java kullanan kütüphaneler

Jsoup : Data işlemek için, HTML parçalamak için kullanılabilir.

Lucene: Apache nin oluşturduğu bir kütüphanedir.

Crawler4j: Crawler Aracı

 

Detaylı özelliklerine linklerinden (isimleri) ulaşılabilir.

Bir Cevap Yazın