Bilgi Bilimi ve Teknolojisi – Ödev Hazırlatma – Proje Yaptırma – Tez Yaptırma Fiyatları – Sunum Örnekleri – Ücretli Ödev Yaptırma – Ödev Yaptırma Ücretleri

bestessayhomework@gmail.com * 0 (312) 276 75 93 *Her bölümden, Ödev Yaptırma, Proje Yazdırma, Tez Yaptırma, Rapor Yaptırma, Makale Yaptırma, spss ödev yaptırma, Araştırma Yaptırma, Tez Önerisi Hazırlatma talepleriniz için iletişim adreslerini kullanın. Makale YAZDIRMA siteleri, Parayla makale YAZDIRMA, Seo makale fiyatları, Sayfa başı yazı yazma ücreti, İngilizce makale yazdırma, Akademik makale YAZDIRMA, Makale Fiyatları 2022, Makale yazma, Blog Yazdırma, Blog Yazdırmak İstiyorum, Ücretli Ödev Yaptırma, Parayla Ödev Yaptırma, Tez Yazdırma, Proje YAPTIRMA siteleri, Mühendislik proje yaptırma, Bitirme projesi YAPTIRMA, Ödev YAPTIRMA programı, En iyi ödev siteleri, Parayla ödev yapma siteleri, Ücretli ödev YAPTIRMA, Ücretli Proje Yaptırma, Tez Yaptırma

Bilgi Bilimi ve Teknolojisi – Ödev Hazırlatma – Proje Yaptırma – Tez Yaptırma Fiyatları – Sunum Örnekleri – Ücretli Ödev Yaptırma – Ödev Yaptırma Ücretleri

14 Nisan 2022 Bilgi bilimi Nedir Bilgi Bilimi net Bilgi nasıl ortaya çıkar 0
Lojistik Sağlayıcıları

Bilgi Bilimi ve Teknolojisi

Yinelenen Çince Belge Görüntü Alma Sistemi

Bir optik karakter tanıma (OCR) sistemi, bir kullanıcının bir makaleyi doğrudan bir elektronik bilgisayar dosyasına beslemesine ve metin karakterlerinin optik olarak taranan bit eşlemlerini makine tarafından okunabilir kodlara çevirmesine olanak tanır; yani, ASCII, Chinese GB ve Big5 kodları ve ardından bir kelime işlemci kullanarak düzenler. OCR bu nedenle kütüphaneler tarafından varlıklarını dijitalleştirmek ve korumak için kullanılıyor. Her gün milyarlarca mektup, posta dağıtımını önemli ölçüde hızlandırabilen OCR makineleri tarafından sıralanıyor.

OCR teknikleri iki yaklaşıma ayrılabilir: şablon eşleştirme ve yapı analizi. Şablon eşleştirme yaklaşımı, iki boyutlu bilgiyi tek boyutluya yansıtarak eşleştirmenin karmaşıklığını azaltmaktır; yapı analizi yaklaşımı, karakterlerin şekillerinin varyasyonunu analiz etmektir. Şablon eşleştirme yaklaşımı yalnızca basılı karakterleri tanımak için uygundur; bununla birlikte, el yazısı karakterleri tanımak için yapı analizi yaklaşımı uygulanabilir.

İstatistiksel, eşleştirme, dönüştürme ve şekil özelliklerine dayanan birkaç OCR tekniği önerilmiştir. Son zamanlarda, entegre OCR sistemleri önerilmiştir ve bunlar, belirli karakter güdümlü donanım uygulamalarından yararlanmaktadır.

OCR genellikle dört ayrı süreci içerir:

1. metin ve görüntü bloklarını ayırın; sonra sütunları, paragrafları, metin satırlarını, sözcükleri ve karakterleri bulur;
2. karakterlerin özelliklerini çıkarın ve özelliklerini her karakteri/yazı tipini diğerlerinden ayırt edebilecek bir dizi kuralla karşılaştırın;
3. yazım denetimi araçlarını kullanarak yanlış kelimeleri düzeltin; ve
4. Her sembolü makine tarafından okunabilen bir koda çevirin.

Yinelenen belge görüntüsü alma (DDIR) sistemi, belge biçimli verileri belge resimlerine dönüştürür, ardından bu resimleri ve bunlara karşılık gelen özellikleri veri yedekleme amacıyla bir veritabanında saklar. Belge görüntüleri, yinelenen belge görüntüleri olarak adlandırılır.

Veritabanından yinelenen bir belge görüntüsü alırken, kullanıcılar bir sorgu belge görüntüsü oluşturmak için orijinal belgenin ilk birkaç metin satırını sisteme girerler. Daha sonra sistem görüntünün özelliklerini bulur ve kullanıcılara, görüntü özellikleri sorgu doküman görüntüsününkine benzer olan kopya doküman görüntüsünü iletir.

DDIR sistemi için bazı yaklaşımlar önerilmiştir. Doermann, Li ve Kia (1997), karakter türlerini her metin satırından dört temel satırın geçmesi koşuluna göre sınıflandırıp kodlamış ve kodları belge görüntüsünün özelliği olarak kullanmıştır. Caprari (2000) bir belgeden küçük bir bölge çıkarmış, bu bölgeyi şablona atamış (imza oluşturma) ve ardından bu şablonu başka bir belgedeki bir arama alanı üzerinden taramıştır.


Bilgi nasıl ortaya çıkar
Bilgi Bilimi
Bilgi bilimi Nedir
Bilgi Bilimi net
Bilgi bilimi Epistemoloji
Dil bilimi
Bilgi nasıl ortaya çıkmaktadır felsefe
Bilgi teknolojisi Nedir


Şablon ikinci belgede de görünüyorsa (imza eşleştirme), iki belge kopya olarak sınıflandırılır. Angelina, Yasser ve Essam (2000), taranan bir formu birkaç hücreden oluşan bir çerçeve kümesine dönüştürdü. Formdaki tüm yatay ve dikey çizgileri kapsayan maksimum ızgara oluşturulur; bu arada, her hücrenin maksimum ızgara tarafından oluşturulduğu çerçeve kümesindeki hücre sayısı hesaplandı.

Ek olarak, ızgara temsillerine dayalı olarak belge çerçeve kümelerinin benzerlik eşleştirmesi için bir algoritma da önerilmiştir. Peng, Long, Chi ve Siu (2001), yinelenen bir belge görüntüsünde bir paragraf metin görüntüsü içeren her bileşen bloğunun boyutunu ve yinelenen belge görüntüsünün özellikleri olarak göreli konumunu kullandı.

Daha önce bahsedilen yaklaşımlar, yalnızca bir İngilizce belge görüntüsünün özelliklerini belirtmek için uygundur. Çince karakterlerin özellikleri İngilizce karakterlerden oldukça farklıdır ve Çince karakterlerin vuruşları ve şekilleri İngilizce karakterlerden çok daha karmaşıktır.

Chan, Chen ve Ho (2003), bir karakter görüntü bloğunu temsil etmek için bir çizgi segmenti özelliği sağlamışlardır ve bu özelliğe dayalı olarak yinelenen bir Çince belge görüntü alma (DCDIR) sistemi sunmuşlardır. Bu kısa makalenin amacı, yinelenen Çin DDIR sistemlerine kısa bir genel bakış sağlamaktır.

Geleneksel bilgi alma yöntemleri, metinsel veritabanları için anahtar sözcükler kullanır. Ancak, bir görüntüyü tam bilgileri kullanarak tanımlamak zordur ve büyük bir görüntü veritabanı için manuel olarak anahtar sözcükleri tanımlamak sıkıcı hatta imkansızdır.

Ayrıca, metin olmayan bazı bileşenler, yeterli doğruluk olmadan dönüştürülmüş bir biçimde temsil edilemez. Çözümlerden biri, bir belgeyi dijital görüntülere dönüştürmektir; bu arada görüntülerin özniteliklerini çıkarmak için bazı yöntemler uygulanmaktadır. Özelliğe bağlı olarak, sorgu gereksinimlerini karşılayan veritabanına sahip bazı belge görüntüleri döndürülür.

Yinelenen bir belge görüntüsü alma (DDIR) sistemi aşağıdaki özelliklere sahip olmalıdır:

• Sağlam: Belge bozulduğunda bile özellikler güvenilir bir şekilde ayıklanmalıdır.
• Benzersiz: Çıkarılan özellikler, her birini ayırt edebilir.
• Kompakt: Depoyu tutmak için gereken depolama kapasitesi
özellikler mümkün olduğunca küçük olmalıdır.
• Hızlı: Sistemin hızlı bir yanıta ihtiyacı vardır.
• Ölçeklenebilir: Daha fazla belge işlendiğinden,
veritabanının boyutu on milyonlarca büyüyebilir.
• Doğru: Sistem, sorgu gereksinimini karşılayan bir yanıtla doğru şekilde yanıt vermelidir.

Ne yazık ki, birçok DDIR sistemi, ölçek, çeviri, döndürme ve gürültü değişkenleri gibi belge görüntülerinin zayıf niteliklerine karşı savunmasızdır. Bir tarayıcının farklı çözünürlük ayarı nedeniyle, aynı görüntü farklı boyutlarda iki görüntü olacak şekilde taranabilir. Bu fenomene ölçek varyantı diyoruz. Bir görüntü büyük miktarda gürültü ile eklendiğinde, orijinalinden farklı bir görüntü olarak kabul edilebilir.

Orijinalin gürültü varyantı görüntüsü olarak adlandırılır. Belirli bir belgede, belgenin tarayıcıda farklı yönlendirme açılarına veya farklı konumlara yerleştirilmesi sayesinde döndürme ve çeviri varyantlarına sahip görüntüler oluşturulabilir. Daha önce bahsedilen varyantlar, özellik çıkarma ve görüntü eşleştirme aşamalarında birçok sıkıntıya neden olacaktır. Önceden kaldırılmaları gerekir.

BİR ÇİN DDIR SİSTEMİ

DDIR sistemi hakkında birçok teknik önerilmiştir. Bir İngilizce belge çoğunlukla 52 büyük harf ve küçük İngilizce harf ve noktalama işaretleri içeren yaklaşık 70 yaygın olarak kullanılan karakterden oluştuğundan, bu karakterlerin yazı tiplerinin özelliklerine göre sınıflandırma ve kodlama işlemi mümkündür.

Ancak, bu teknikler yalnızca yinelenen İngilizce belge görüntüleri için uygundur, ancak yinelenen Çince belge görüntü alımı (DCDIR) için uygun değildir çünkü farklı Çince karakterlerin sayısı yaklaşık 45.000’dir.

Dahası, Çince karakterlerin şekilleri karmaşıktır ve birçok farklı karakter birbirine benzer şekillere sahiptir. Bu nedenle, Çince karakter tanıma ile ilgili birkaç büyük sorun vardır, yani Çince karakterler farklı ve ideografiktir, bir karakterin boyutu büyüktür ve yapısal olarak benzer birçok karakter vardır.

Sadece biraz fazladan bellek alanı kullanarak Çince karakterleri sınıflandırmak için mükemmel bir tanımlama yeteneği sunan bir özellik geliştirmek gereklidir.

Fazladan bellek alanını azaltmak için, yinelenen bir belge görüntüsünü, her biri bir dizi bitişik karakter içeren bloklara bölmek ve ardından özellikleri bloklardan çıkarmak mümkündür. Yinelenen bir belge görüntüsündeki blokların sayısı, özdeş bir yinelenen belge görüntüsündeki karakterlerden çok daha küçük olduğundan, özellik boyutları büyük ölçüde küçülür; bununla birlikte, tanımlama yeteneği azalır.

 

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir