Arama Motorları Hakkında Faydalı Linkler
Konu hakkında türkçe düzenli bilgi bulmak pek mümkün değil. Bir araya toplamak istedim.
Reuters21578: 21000 den fazla haberi barındıran 1000 er haberden 20 dosyadan müteşekkil veri seti.
C# kullanan kütüphaneler
HTML Agility Pack : HTML dökümanı nodelarına ayırır ve içerisinde hareket imkanı sağlar.
Nsoup : HTML parçalayıcı JSoup un .NET e çevrilmiş halidir.
Abot: Crawler Aracı
Java kullanan kütüphaneler
Jsoup : Data işlemek için, HTML parçalamak için kullanılabilir.
Lucene: Apache nin oluşturduğu bir kütüphanedir.
Crawler4j: Crawler Aracı
Detaylı özelliklerine linklerinden (isimleri) ulaşılabilir.
Bir Cevap Yazın
Yorum yapabilmek için giriş yapmalısınız.