Web Madenciliği

Madencilik teknolojisi, genel arama çalışmasından farklıdır. Madencilik yöntemi, genel arama çalışmalarının yapamadığı verileri yatay ilişkide, veri ve veriler arasındaki ilişkiyi bulabilir. Web sayfalarını bulmak için madencilik teknolojileri uygulandığında, buna Web madenciliği adını verdik. Web madenciliği çerçevesi üç tür içerir: Web içerik madenciliği, Web yapı madenciliği ve Web kullanım madenciliği.

Geleneksel arama teknolojilerinde, kullanıcı bir arama motoruna bir anahtar kelime gönderir ve ardından arama motoru ilgili sayfaları bulmak için anahtar kelimeyi kullanır, ancak çok fazla zaman harcar ve çok fazla alakasız sayfa döndürür.

Bu nedenle, ilgili sayfaları bulmak için köprü analizi ve bağlantı metni analizi önerilir. İlgili sayfaları bulmak için köprü yapısını kullanmak, ilgili sayfaları hızlı ve kolay bir şekilde bulabilir, ancak köprü yapılarının içerik bilgisi yoktur.

Dolayısıyla, köprü çalışmasında iki varsayım vardır. Bir A sayfası başka bir B sayfasına bağlantı verdiğinde, B sayfasının A yazarı tarafından önerildiğini belirtir. İki sayfa aynı bağlantılara sahipse, aynı konuda olabilirler.

Bu nedenle, köprü analizi, ilgili sayfaları bulmanın yanı sıra sayfaları sıralamak, Web sayfaları topluluğu oluşturmak, Web arama geliştirme, Web kümeleme ve görselleştirme için kullanılabilir.

Tirri, önceki Web arama teknolojilerinin anahtar kelime arama konusunda yeterince iyi olmadığını düşünüyor ve arama yapmak için ontoloji ve köprü analizi bilgisini kullandı. Yeni nesil Web aramasının kişisel arama sonuçlarına sahip olması, kullanıcıların istediği bilgileri kolayca bulması ve kendisiyle eşanlamlı hale getirmesi gerektiğini düşünüyor. Web sayfaları arama teknolojisinin benzerliğini aşağıdaki yöntemlerle açıkladık.

(1) Cocitation Yöntemi

Dean ve Henzinge, ilgili sayfaları bulmak için köprü yapısını kullanan Cocitation algoritmasını önerdi. Algoritma iki tanıma dayanmaktadır: (A) Ortak bir ana sayfaya sahiplerse iki sayfa birlikte alıntılanmıştır; (B) Anlatım derecesi olarak adlandırılan ortak üst sayfalarının sayısı.

Bu algoritmada, bir kullanıcı, bir arama motorunun ihtiyaç duyulan bir sayfayı bulması için bir sorgu terimi kullanabilir ve ardından gerekli sayfanın bir URL’sini köprü ile bir çevre grafiği oluşturmak için kullanabilir ve ardından ilgili sayfaları bulmak için grafiği analiz edebilir. gerekli sayfanın Bu nedenle, algoritma ilgili sayfayı bulmak için Web sayfalarının hiper bağlantısını kullandı.

Basittir ve kolayca hesaplar, ancak iki sayfa aynı derecede ortak alıntıya sahip olduğunda, sistem hangi Web sayfalarının gerçekte ilişkili sayfalar olduğuna karar veremez. Ayrıca, bir Web sayfasının çapası kasıtlı olarak kötü amaçlı köprü oluşturursa, konu kayması sorunu olabilir.

İki sayfa arasındaki benzerlik ölçüleri gösterilmektedir. “u” sayfası ve “a” sayfası aynı ana sayfa A’ya sahiptir. Bunlar uydurmadır ve uydurma derecesi 1’dir. Aynı şekilde B Sayfasının derecesi de 2’dir. Dolayısıyla hepsinin derecesi u sayfalarla ilgili sayfalar hesaplanabilir.

(2) Gizli Bağlantı Bilgileri (LLI) Algoritması

Cocitation algoritması Web sayfalarının benzerliğini değerlendirebilse de, sayfalar aynı dereceye sahip olduğunda hangi sayfaların daha iyi olduğunu belirleyemez. Bu nedenle, Hou ve Zhang, Web sayfası topolojisinin alaka düzeyini ifade etmek için bağlantı matrisini kullanır.

Matris, sayfaların derinlik ilişkilerini ortaya çıkarabilir ve ardından ilgili sayfaları kolayca bulabilir. Derin ilişkiyi ortaya çıkarmak için gemilerde, lineer cebirde tekil değer ayrışımı (SVD) kavramı kullanılır.

Aynı şekilde, ana sayfalar ve alt sayfalar (FS ve BS) ile yön grafiği oluşturmak için Cocitation algoritmasını genişletir. BS ve P arasındaki topolojik ilişkiler ifade edilen verilerdir. Bağlantı matrisi A. FS ve C arasındaki topolojik ilişkiler, veri bağlantı matrisiBas takip şeklinde ifade edilir.

Dolayısıyla, A matrisinin i’inci satırı, n boyutlu bir uzayda i sayfasının (BS) koordinat vektörü olarak kabul edilebilir; A matrisinin j’inci sütunu, m boyutlu uzayda j sayfasının (P ) koordinat vektörü olarak kabul edilebilir.

Aynı şekilde B matrisinin a. satırı, q boyutlu bir uzayda i sayfasının (FS) koordinat vektörü olarak kabul edilebilir; B matrisinin j’inci sütunu, p boyutlu bir uzayda j (C ) sayfasının koordinat vektörü olarak kabul edilebilir. Başka bir deyişle, farklı çok boyutlu uzaylarda topolojik ilişkileri bulmak için A ve B matrislerini aktarabilir.

Veri madenciliği Nedir kısaca
Veri madenciliği Dersi nedir
veri madenciliği nedir, nasıl yapılır
Veri madenciliği ekşi
Veri Madenciliği Programları
Veri Madenciliği konu anlatımı
“veri madenciliği” ppt
Veri madenciliği Tarihçesi

(3) PageRank Agoritması

Brin ve Page, sonuçları kullanıcılar için sıralamak üzere bağlantı içi yapıyı kullanan PageRank algoritmasını önerdi. Bir B sayfasının A sayfasına bağlantı vermesi, B sayfasının A sayfası için önemli olduğunu gösterir. Örneğin, bir makaleye diğer birçok makale tarafından atıfta bulunuluyorsa, makale daha önemlidir.

PR(i) Web yapısı tarafından hesaplanır ve Web aramasının sonuçlarını sıralamak için kullanılabilir. PageRank algoritması, bir kullanıcı davranışı modelini izlemek için kullanılır.

Web’de rastgele gezinen ve sıkılıp tekrar başka bir sayfada başlayana kadar bağlantılarla başka bir sayfaya giden bir “rastgele sörfçü” vardır. d değeri, her sayfada “rastgele gezinen”in sıkılıp başka bir rasgele sayfaya gitme olasılığıdır. Bu nedenle, PageRank, sonucu arama motorunda köprülerle kolayca hesaplayabilir ve sıralayabilir.

Web Sayfaları Sınıflandırması

Kullanıcılar, ilgili Web sayfalarını bulmak için genellikle bir arama motoruna bir anahtar kelime girer ve genellikle çok sayıda Web sayfasını döndürür. Kullanıcılar, döndürülen sonuçlardan gerekli sayfaları almayı umarlar, ancak çok fazla alakasız Web sayfası içerirler; bu sorunu daha da kötüleştirir. Hangi Web sayfalarının gerekli olduğuna karar vermek çok zaman kaybettirir.

Veri sınıflandırma yöntemi birçok alana uygulanır, kullanıcının ilgili bilgileri hızlı bir şekilde almasına yardımcı olabilir. Önceden, WWW popüler değildi, Web sayfaları bilgileri hızlı yayılmaz, bu nedenle sistem Web sayfalarını sınıflandırmak için yapay bir yöntem kullanabilir.

Artık Web sayfaları hızla genişliyor, bu nedenle Web sayfalarını sınıflandırmak için yapay yöntem kullanmanın hiçbir etkinliği yok. Bu nedenle, Web sayfalarının otomatik olarak sınıflandırılması için bilgi teknolojisinin kullanılması gerekmektedir. Naïve Bayes, k-NN yaklaşımı, tümevarımlı kural öğrenme, sinir ağı, karar ağacı ve destek vektör makinesi gibi Web sayfaları sınıflandırmasını kullanan birçok yöntem vardır.

Sınıflandırma işleminden önce öznitelik çıkarımı gereklidir. Genel olarak özellik çıkarma yöntemleri için Boole modeli, vektör uzayı modeli ve olasılık modeli vardır. Önce bilgi erişim modelini açıklıyoruz.

Bilgi öznitelikleri çıkarımının üç yaygın modeli vardır: Boole modeli, vektör uzayı modeli ve olasılık modeli. Üç modeli tanıtacağız ve ardından anahtar kelimeleri TF-IDF aracılığıyla ağırlıklandıracağız. Öte yandan, Web sayfası sınıflandırma yöntemi de kısa bir tanımlama olacaktır.

akademidelisi

Biyografinin Tamamını Gör

"veri madenciliği" ppt nasıl yapılır Veri madenciliği Dersi nedir Veri madenciliği ekşi Veri Madenciliği konu anlatımı Veri MADENCİLİĞİ Nedir Veri madenciliği Nedir kısaca Veri Madenciliği Programları Veri madenciliği Tarihçesi

Bir yanıt yazın Yanıtı iptal et

Türkiye (Turkey)

Almanya (Germany)

Bulgaristan (Bulgaria)

Danimarka (Denmark)

Kanada (Canada)

Malta (Malta)

KKTC (TRNC)

Yunanistan (Greece)

Amerika Birleşik Devletleri (USA)

Çin (China)

Japonya (Japan)

Birleşik Krallık (UK)

Fransa (France)

İspanya (Spain)

Norveç (Norway)

Belçika (Belgium)

Hollanda (Netherlands)

İsviçre (Switzerland)

İsveç (Sweden)

İtalya (Italy)

Finlandiya (Finland)

Meksika (Mexico)

Güney Kore (South Korea)

Rusya (Russia)

Hırvatistan (Croatia)

İrlanda (Ireland)

Polonya (Poland)

Hindistan (India)

Avustralya (Australia)

Brezilya (Brazil)

Arjantin (Argentina)

Güney Afrika (South Africa)

Singapur (Singapore)

Birleşik Arap Emirlikleri (UAE)

Suudi Arabistan (Saudi Arabia)

Portekiz (Portugal)

Avusturya (Austria)

Macaristan (Hungary)

Çek Cumhuriyeti (Czech Republic)

Romanya (Romania)

Tayland (Thailand)

Endonezya (Indonesia)

Ukrayna (Ukraine)

Kolombiya (Colombia)

Şili (Chile)

Peru (Peru)

Venezuela (Venezuela)

Kosta Rika (Costa Rica)

Panama (Panama)

Küba (Cuba)

Dominik Cumhuriyeti (Dominican Republic)

Jamaika (Jamaica)

Bahamalar (Bahamas)

Filipinler (Philippines)

Malezya (Malaysia)

Vietnam (Vietnam)

Pakistan (Pakistan)

Bangladeş (Bangladesh)

Nepal (Nepal)

Sri Lanka (Sri Lanka)

Ekvador (Ecuador)

Yeni Zelanda (New Zealand)

Litvanya (Lithuania)

Letonya (Latvia)

Estonya (Estonia)

Slovakya (Slovakia)

Slovenya (Slovenia)

Kenya (Kenya)

Tanzanya (Tanzania)

Mozambik (Mozambique)

Zambiya (Zambia)

Gana (Ghana)

Nijerya (Nigeria)

Senegal (Senegal)

Fas (Morocco)

Cezayir (Algeria)

Tunus (Tunisia)

Ürdün (Jordan)

İsrail (Israel)

Katar (Qatar)

Umman (Oman)

Kuveyt (Kuwait)

Kazakistan (Kazakhstan)

Özbekistan (Uzbekistan)

Türkmenistan (Turkmenistan)

Tacikistan (Tajikistan)

Ermenistan (Armenia)

Gürcistan (Georgia)

Azerbaycan (Azerbaijan)

Bosna-Hersek (Bosnia & Herzegovina)

Web Madenciliği – Ödev Hazırlatma – Proje Yaptırma – Tez Yaptırma Fiyatları – Sunum Örnekleri – Ücretli Ödev Yaptırma – Ödev Yaptırma Ücretleri