Otomatik özetleme
Otomatik özetleme, yapay zekâ ve doğal dil işleme tekniklerini kullanarak metinlerin ana fikirlerini ve önemli bilgilerini otomatik olarak çıkarma ve kısaltma işlemidir. Bu işlem, insan müdahalesi olmadan metnin özünü yakalayan kısa ve öz bir özet oluşturmayı amaçlar.
- Uzun metinlerin hızlı bir şekilde özetlenmesi: Makaleler, haberler, raporlar veya kitaplar gibi uzun metinlerin içeriğini hızlı bir şekilde anlamak için kullanılabilir.
- Bilgi arama ve tarama: İnternette bilgi ararken veya büyük miktarda metin tararken, otomatik özetleme, alakalı bilgileri hızla belirlemenize yardımcı olabilir.
- Makine çevirisi: Metinleri bir dilden diğerine çevirirken, otomatik özetleme, çevirinin daha doğru ve akıcı olmasını sağlayabilir.
- Eğitim ve öğretim: Öğrencilerin metinlerin ana fikirlerini kavramasına yardımcı olmak ve kritik düşünme becerilerini geliştirmek için kullanılabilir.
Otomatik özetleme, hâlâ gelişmekte olan bir alandır, ancak metinlerle etkileşimde devrim yaratma potansiyeline sahiptir.
Mekanizma
[değiştir | kaynağı değiştir]Otomatik özetleme araçları, metnin anahtar kelimelerini, anahtar cümlelerini ve ana fikirlerini belirlemek için istatistiksel ve dilbilgisi modellerini kullanır. Bunu yapmak için aşağıdaki adımları izlerler:
- Metni Parçalama: Metin, cümleler veya paragraflar gibi daha küçük birimlere bölünür.
- Önemli Kelimeleri ve Cümleleri Belirleme: Her bir birimdeki kelimelerin ve cümlelerin önemi, istatistiksel ve dilbilgisi analizler kullanılarak hesaplanır.
- Ana Fikri Belirleme: Metnin ana fikrini temsil eden kelimeler ve cümleler belirlenir.
- Özet Oluşturma: Belirlenen kelimeler ve cümleler kullanılarak metnin özünü yansıtan kısa bir özet oluşturulur.
Yaklaşımlar
[değiştir | kaynağı değiştir]Otomatik özetlemede iki genel yaklaşım vardır: çıkarma ve soyutlamadır .
Çıkarma tabanlı özetleme
[değiştir | kaynağı değiştir]Burada içerik orijinal verilerden çıkarılır ancak çıkarılan içerik hiçbir şekilde değiştirilmez. Çıkarılan içeriğe örnek olarak, bir metin belgesini "etiketlemek" veya dizine eklemek için kullanılabilecek anahtar ifadeler veya yukarıda belirtildiği gibi toplu olarak bir özet ve temsili görseller veya video bölümleri içeren anahtar cümleler (başlıklar dahil) dahildir. Metin için çıkarma, özetin (varsa), başlıklar ve alt başlıklar, şekiller, bir bölümün ilk ve son paragrafları ve isteğe bağlı olarak bir paragraftaki ilk ve son cümlelerin seçim yapılmadan önce okunduğu tarama işlemine benzer. belgenin tamamını ayrıntılı olarak okumak için. Klinik uygunluk (hasta/problem, müdahale ve sonuç dahil) açısından metnin anahtar dizilerini içeren diğer çıkarma örnekleri.
Soyutlama temelli özetleme
[değiştir | kaynağı değiştir]Soyutlama yöntemleri orijinal metinde bulunmayan yeni metinler üretir. Bu esas olarak metin için uygulanmıştır. Soyutlayıcı yöntemler, orijinal içeriğin içsel bir anlamsal temsilini (genellikle dil modeli olarak adlandırılır) oluşturur ve daha sonra bu temsili, bir insanın ifade edebileceğine daha yakın bir özet oluşturmak için kullanır. Soyutlama, bir metni ayıklamadan daha güçlü bir şekilde yoğunlaştırmak için kaynak belgenin bölümlerini başka sözcüklerle ifade ederek çıkarılan içeriği dönüştürebilir . Bununla birlikte, bu tür bir dönüşüm, hem doğal dil işlemeyi hem de orijinal belgenin özel bir bilgi alanıyla ilgili olduğu durumlarda genellikle orijinal metnin alanının derinlemesine anlaşılmasını gerektirdiğinden, hesaplama açısından çıkarma işleminden çok daha zordur . "Başka sözcüklerle ifade etme"nin resimlere ve videolara uygulanması daha da zordur, bu nedenle çoğu özetleme sistemi çıkarımcıdır.
Destekli özetleme
[değiştir | kaynağı değiştir]Daha yüksek özetleme kalitesini hedefleyen yaklaşımlar, yazılım ve insan çabasının birleşimine dayanır. Makine Destekli İnsan Özetlemesinde, çıkarım teknikleri dahil edilmeye aday pasajları (insanın metin eklediği veya çıkardığı) vurgular. İnsan Destekli Makine Özetlemesinde, Google Çeviri tarafından otomatik çeviri çıktısının düzenlenmesiyle aynı şekilde, insan tarafından gerçekleştirilen son işlemler yazılım çıktısı.
Özetlemeye yönelik uygulamalar ve sistemler
[değiştir | kaynağı değiştir]Özetleme programının neye odaklandığına bağlı olarak genel olarak iki tür çıkarımsal özetleme görevi vardır. Bunlardan ilki, koleksiyonun genel bir özetini veya özetini elde etmeye odaklanan genel özetlemedir (belgeler, resim kümeleri, videolar, haberler vb.). İkincisi, sorguya özgü nesneleri özetleyen, bazen sorgu tabanlı özetleme olarak da adlandırılan sorguyla ilgili özetlemedir . Özetleme sistemleri, kullanıcının ihtiyacına bağlı olarak hem sorguyla ilgili metin özetleri hem de makine tarafından oluşturulan genel özetler oluşturabilir.
Özetleme probleminin bir örneği, belirli bir belgeden otomatik olarak bir özet üretmeye çalışan belge özetlemedir. Bazen birileri tek bir kaynak belgeden özet oluşturmak isteyebilir, bazıları ise birden fazla kaynak belge kullanabilir (örneğin, aynı konudaki bir makale kümesi ). Bu soruna çoklu belge özetleme adı verilir . İlgili bir uygulama haber makalelerini özetlemektir. Belirli bir konudaki haber makalelerini (web'den) otomatik olarak bir araya getiren ve en son haberleri kısa ve öz bir şekilde özet olarak sunan bir sistem hayal edin.
Görüntü toplama özetleme, otomatik özetlemenin başka bir uygulama örneğidir. Daha geniş bir görüntü kümesinden temsili bir görüntü kümesinin seçilmesinden oluşur. Bu bağlamda bir özet, bir görüntü koleksiyonu araştırma sistemindeki sonuçların en temsili görüntülerini göstermek için kullanışlıdır . Video özetleme, sistemin otomatik olarak uzun bir videonun fragmanını oluşturduğu ilgili bir alandır. Bunun aynı zamanda tüketici veya kişisel videolarda sıkıcı veya tekrarlayan eylemleri atlamak isteyebileceğiniz uygulamaları da vardır. Benzer şekilde, gözetleme videolarında, çekilen tüm sıkıcı ve gereksiz kareler göz ardı edilirken, önemli ve şüpheli etkinliklerin çıkarılması istenebilir.
Özetleme algoritmaları çok yüksek düzeyde, tüm kümenin bilgisini kapsayan nesnelerin alt kümelerini (cümle kümesi veya görüntü kümesi gibi) bulmaya çalışır. Buna çekirdek küme de denir . Bu algoritmalar çeşitlilik, kapsam, bilgi ve özetin temsil edilebilirliği gibi kavramları modeller. Sorgu tabanlı özetleme teknikleri, ayrıca özetin sorguyla ilgisine yönelik model oluşturur. Özetleme problemlerini doğal olarak modelleyen bazı teknikler ve algoritmalar TextRank ve PageRank, Alt modüler küme işlevi, Belirleyici nokta işlemi, maksimum marjinal alaka (MMR) vb.'dir.
Faydaları
[değiştir | kaynağı değiştir]- Uzun metinleri hızlı bir şekilde özetleyerek, önemli bilgileri anlamak için gereken süreyi önemli ölçüde azaltır.
- İnternette bilgi ararken veya büyük miktarda metin tararken, otomatik özetleme, alakalı bilgileri hızla belirlemenize yardımcı olabilir.
- Metnin ana fikirlerini ve önemli bilgilerini açıkça sunarak, metnin daha iyi anlaşılmasını sağlar.
- Metinleri bir dilden diğerine çevirirken, otomatik özetleme, çevirinin daha doğru ve akıcı olmasını sağlayabilir.
- Öğrencilerin metinlerin ana fikirlerini kavramasına yardımcı olmak ve eleştirel düşünme becerilerini geliştirmek için kullanılabilir.
Kullanım alanları
[değiştir | kaynağı değiştir]Otomatik özetleme, farklı alanlarda birçok uygulamaya sahiptir:
- Haberler ve Makaleler: Haberlerin ve makalelerin ana fikirlerini hızlı bir şekilde öğrenmek için kullanılabilir.
- Akademik Araştırmalar: Araştırma makalelerinin ve bilimsel çalışmaların özetlerini oluşturmak için kullanılabilir.
- Hukuki Belgeler: Sözleşmelerin ve yasal metinlerin özetlerini oluşturmak için kullanılabilir.
- Teknik Dokümantasyon: Kullanım kılavuzları ve teknik el kitaplarının özetlerini oluşturmak için kullanılabilir.
- E-posta ve Sohbetler: Uzun e-posta ve sohbet geçmişlerini özetlemek için kullanılabilir.
Ticari ürünler
[değiştir | kaynağı değiştir]2022'de Google Dokümanlar otomatik bir özetleme özelliği yayınladı.
Anahtar kelime çıkarma
[değiştir | kaynağı değiştir]Görev şudur. Size bir dergi makalesi gibi bir metin veriliyor ve metinde tartışılan ana konuları kapsayan bir anahtar kelime veya anahtar kelime öbeği listesi oluşturmanız gerekiyor. Araştırma makaleleri söz konusu olduğunda, çoğu yazar manuel olarak atanan anahtar sözcükleri sağlar, ancak çoğu metinde önceden var olan anahtar sözcükler eksiktir. Örneğin, haber makalelerine nadiren anahtar sözcükler eklenir, ancak aşağıda tartışılan bazı uygulamalar için bunu otomatik olarak yapabilmek yararlı olacaktır. Bir haber makalesindeki örnek metni düşünün:
"Başkan Bush'un New Orleans'ı 2006 kasırga sezonunun başlangıcında koruma sözünü yerine getirmek için acele eden Ordu Mühendisler Birliği, kendi uzmanlarının bir fırtına sırasında ekipmanın arızalanabileceği yönündeki uyarılarına rağmen geçen yıl arızalı su baskını kontrol pompaları kurdu. Associated Press tarafından elde edilen belgelere".
Bir anahtar sözcük çıkarıcı, anahtar sözcükler olarak "Ordu Mühendisler Birliği", "Başkan Bush", "New Orleans" ve "kusurlu taşkın kontrol pompaları"nı seçebilir. Bunlar doğrudan metinden alınmıştır. Bunun tersine, soyutlayıcı bir anahtar sözcük sistemi, bir şekilde içeriği içselleştirecek ve metinde görünmeyen, ancak "siyasi ihmal" veya "selden yetersiz korunma" gibi bir insanın üretebileceğine daha çok benzeyen anahtar sözcükler üretecektir. Soyutlama, metnin derinlemesine anlaşılmasını gerektirir ve bu da bilgisayar sistemi için işi zorlaştırır. Anahtar sözcüklerin birçok uygulaması vardır. Kısa bir özet sağlayarak belge taramayı etkinleştirebilir, bilgi alımını geliştirebilir (eğer belgelere atanmış anahtar sözcükler varsa, kullanıcı tam metin aramasından daha güvenilir sonuçlar elde etmek için anahtar sözcükle arama yapabilir ) ve büyük bir dizin girişi oluşturmada kullanılabilir. metin külliyatı.
Farklı literatüre ve anahtar terimlerin, kelimelerin veya ifadelerin tanımına bağlı olarak, anahtar kelime çıkarma oldukça alakalı bir konudur.
Denetimli öğrenme yaklaşımları
[değiştir | kaynağı değiştir]Turney'nin çalışmasından başlayarak birçok araştırmacı, anahtar kelime çıkarımına denetimli bir makine öğrenme problemi olarak yaklaştı . Bir belge verildiğinde, metinde bulunan her bir unigram, bigram ve trigram için bir örnek oluştururuz (ancak aşağıda tartışıldığı gibi diğer metin birimleri de mümkündür). Daha sonra her örneği tanımlayan çeşitli özellikleri hesaplıyoruz (örneğin, ifade büyük harfle mi başlıyor?). Bir dizi eğitim belgesi için bilinen anahtar sözcüklerin mevcut olduğunu varsayıyoruz. Bilinen anahtar sözcükleri kullanarak örneklere olumlu veya olumsuz etiketler atayabiliriz. Daha sonra özelliklerin bir fonksiyonu olarak olumlu ve olumsuz örnekleri ayırt edebilen bir sınıflandırıcıyı öğreniyoruz. Bazı sınıflandırıcılar bir test örneği için ikili sınıflandırma yaparken diğerleri bir anahtar sözcük olma olasılığını atar. Örneğin, yukarıdaki metinde, ilk harfleri büyük olan ifadelerin büyük olasılıkla anahtar ifadeler olacağını söyleyen bir kural öğrenebiliriz. Bir öğrenciyi eğittikten sonra test belgeleri için anahtar sözcükleri aşağıdaki şekilde seçebiliriz. Aynı örnek oluşturma stratejisini test belgelerine uyguluyoruz, ardından her örneği öğrenci aracılığıyla çalıştırıyoruz. Öğrenilen modelimiz tarafından döndürülen ikili sınıflandırma kararlarına veya olasılıklara bakarak anahtar sözcükleri belirleyebiliriz. Olasılıklar verilirse anahtar sözcükleri seçmek için bir eşik kullanılır. Anahtar sözcük çıkarıcılar genellikle kesinlik ve geri çağırma kullanılarak değerlendirilir . Hassasiyet, önerilen anahtar sözcüklerden kaçının gerçekte doğru olduğunu ölçer. Geri çağırma, sisteminizin önerdiği gerçek anahtar sözcüklerden kaç tanesini ölçer. İki ölçüm, ikisinin harmonik ortalaması olan bir F-puanında birleştirilebilir (F = 2 PR /(P R ) ). Önerilen anahtar sözcükler ile bilinen anahtar sözcükler arasındaki eşleşmeler, kök çıkarma veya başka bir metin normalleştirmesi uygulandıktan sonra kontrol edilebilir.
Denetimli bir anahtar sözcük çıkarma sistemi tasarlamak, çeşitli seçeneklere karar vermeyi içerir (bunlardan bazıları denetimsiz olanlar için de geçerlidir). İlk tercih tam olarak örneklerin nasıl oluşturulacağıdır. Turney ve diğerleri, olası tüm unigramları, bigramları ve trigramları, noktalama işaretlerine müdahale etmeden ve engellenen sözcükleri kaldırdıktan sonra kullandılar. Hulth, konuşma parçası etiketlerinin belirli kalıplarıyla eşleşen simge dizileri olacak örnekleri seçerek bir miktar ilerleme elde edebileceğinizi gösterdi. İdeal durumda, örnek oluşturma mekanizması bilinen tüm etiketli anahtar sözcükleri aday olarak üretir, ancak bu çoğu zaman böyle değildir. Örneğin, yalnızca unigram, bigram ve trigram kullanırsak, dört kelime içeren bilinen bir anahtar kelimeyi hiçbir zaman çıkaramayız. Bu nedenle hatırlama zarar görebilir. Ancak çok fazla örnek oluşturmak aynı zamanda düşük hassasiyete de yol açabilir.
Ayrıca örnekleri açıklayan ve bir öğrenme algoritmasının anahtar sözcükleri anahtar sözcükler olmayanlardan ayırt etmesine olanak tanıyacak kadar bilgilendirici özellikler de oluşturmamız gerekir. Tipik olarak özellikler, çeşitli terim sıklıklarını (mevcut metinde veya daha büyük bir derlemede bir ifadenin kaç kez göründüğünü), örneğin uzunluğunu, ilk geçtiği yerin göreceli konumunu, çeşitli boole sözdizimsel özelliklerini (örneğin, tüm büyük harfleri içerir) vb. içerir. Turney gazetesi bu tür yaklaşık 12 özelliği kullandı. Hulth, Turney'nin ufuk açıcı makalesinden türetilen KEA (Anahtar Sözcük Çıkarma Algoritması) çalışmasında en başarılı bulunan, azaltılmış bir dizi özellik kullanıyor.
Sonunda sistemin bir test belgesi için bir anahtar sözcük listesi döndürmesi gerekecek, bu nedenle sayıyı sınırlamanın bir yolunu bulmamız gerekiyor. Kullanıcı tarafından sağlanan sayıda anahtar sözcük sağlamak üzere eşiklendirilebilen sayısal puanlar üretmek için topluluk yöntemleri (yani çeşitli sınıflandırıcılardan gelen oyların kullanılması) kullanılmıştır. Bu Turney tarafından C4.5 karar ağaçlarıyla kullanılan tekniktir. Hulth, öğrenme algoritmasının uygun sayıyı dolaylı olarak belirlemesi için tek bir ikili sınıflandırıcı kullandı.
Örnekler ve özellikler oluşturulduktan sonra anahtar sözcükleri tahmin etmeyi öğrenmenin bir yoluna ihtiyacımız var. Karar ağaçları, Naive Bayes ve kural çıkarımı gibi hemen hemen her türlü denetimli öğrenme algoritması kullanılabilir . Turney'nin GenEx algoritması durumunda, alana özgü bir anahtar sözcük çıkarma algoritmasının parametrelerini öğrenmek için bir genetik algoritma kullanılır. Çıkarıcı, anahtar sözcükleri tanımlamak için bir dizi buluşsal yöntemi takip eder. Genetik algoritma, bilinen anahtar ifadelere sahip eğitim belgelerindeki performansa göre bu buluşsal yöntemlere ilişkin parametreleri optimize eder.
Denetimsiz yaklaşım: TextRank
[değiştir | kaynağı değiştir]Başka bir anahtar sözcük çıkarma algoritması TextRank'tır. Denetimli yöntemler, bir anahtar kelimeyi hangi özelliklerin karakterize ettiğine ilişkin yorumlanabilir kurallar üretebilmek gibi bazı güzel özelliklere sahip olsa da, aynı zamanda büyük miktarda eğitim verisi gerektirir . Bilinen anahtar sözcüklere sahip birçok belgeye ihtiyaç vardır. Ayrıca, belirli bir alan üzerinde eğitim, çıkarma sürecini o alana göre özelleştirme eğilimindedir; dolayısıyla, Turney'nin bazı sonuçlarının gösterdiği gibi, ortaya çıkan sınıflandırıcının mutlaka taşınabilir olması gerekmez. Denetimsiz anahtar sözcük çıkarma, eğitim verilerine olan ihtiyacı ortadan kaldırır. Soruna farklı bir açıdan yaklaşıyor. TextRank algoritması anahtar sözcükleri karakterize eden açık özellikleri öğrenmeye çalışmak yerine, PageRank'in önemli Web sayfalarını seçmesi gibi, metinde "merkezi" görünen anahtar sözcükleri belirlemek için metnin kendi yapısından yararlanır . Hatırlayın ki bu, sosyal ağlardan gelen "prestij" veya "tavsiye" kavramına dayanmaktadır . Bu şekilde, TextRank hiçbir şekilde önceki eğitim verilerine dayanmaz, bunun yerine herhangi bir metin parçası üzerinde çalıştırılabilir ve yalnızca metnin kendine özgü özelliklerine dayalı olarak çıktı üretebilir. Böylece algoritma yeni alanlara ve dillere kolayca taşınabilir.
TextRank, NLP için genel amaçlı grafik tabanlı bir sıralama algoritmasıdır . Temel olarak PageRank'i belirli bir NLP görevi için özel olarak tasarlanmış bir grafik üzerinde çalıştırır. Anahtar kelime çıkarımı için, bazı metin birimlerini köşe olarak kullanarak bir grafik oluşturur. Kenarlar, metin birimi köşeleri arasındaki anlamsal veya sözcüksel benzerliğin bir ölçüsüne dayanır . PageRank'ten farklı olarak kenarlar genellikle yönsüzdür ve bir benzerlik derecesini yansıtacak şekilde ağırlıklandırılabilir. Grafik oluşturulduktan sonra, bir sönümleme faktörü ("rastgele sörfçü modelinde" olduğu gibi) ile birleştirilmiş bir stokastik matris oluşturmak için kullanılır ve köşeler üzerindeki sıralama, özdeğer 1'e karşılık gelen özvektörün (yani, grafikteki rastgele yürüyüşün durağan bir dağılımı ).
Köşeler sıralamak istediğimiz şeye karşılık gelmelidir. Potansiyel olarak, denetimli yöntemlere benzer bir şey yapabilir ve her bir unigram, bigram, trigram vb. için bir köşe oluşturabiliriz. Bununla birlikte, grafiği küçük tutmak için yazarlar, ilk adımda tek tek unigramları sıralamaya ve ardından ikinci bir adım eklemeye karar verirler. Çok kelimeli ifadeler oluşturmak için yüksek dereceli bitişik unigramları birleştiren adım. Bunun, keyfi uzunlukta anahtar sözcükler üretmemize izin veren hoş bir yan etkisi vardır. Örneğin, unigramları sıralarsak ve "gelişmiş", "doğal", "dil" ve "işleme" kelimelerinin hepsinin yüksek sıralar aldığını görürsek, orijinal metne bakarız ve bu kelimelerin ardışık olarak göründüğünü ve bir final oluşturduğunu görürüz. dördünün birlikte kullanıldığı anahtar kelime. Grafiğe yerleştirilen unigramların konuşmanın bölümlerine göre filtrelenebileceğini unutmayın. Yazarlar, sıfatların ve isimlerin dahil edilecek en iyi şeyler olduğunu buldu. Dolayısıyla bu adımda bir miktar dil bilgisi devreye giriyor.
Kenarlar, TextRank'in bu uygulamasında kelimelerin birlikte bulunmasına dayalı olarak oluşturulur . Unigramlar orijinal metinde N boyutunda bir pencere içinde görünüyorsa, iki köşe bir kenarla bağlanır . N tipik olarak 2-10 civarındadır. Dolayısıyla NLP ile ilgili bir metinde "doğal" ve "dil" arasında bağlantı kurulabilir. "Doğal" ve "işleme" de bağlantılı olacaktır çünkü her ikisi de aynı N kelime dizisinde görünecektir. Bu kenarlar, "metin bütünlüğü " kavramına ve birbirine yakın görünen kelimelerin muhtemelen anlamlı bir şekilde ilişkili olduğu ve okuyucuya birbirini "tavsiye ettiği" fikrine dayanmaktadır.
Bu yöntem basitçe bireysel köşeleri sıraladığından, sınırlı sayıda anahtar kelimeyi eşiklemek veya üretmek için bir yola ihtiyacımız var. Seçilen teknik, grafikteki toplam köşe sayısının kullanıcı tarafından belirlenen bir kesri olacak şekilde bir T sayısını ayarlamaktır. Daha sonra en üstteki T köşeleri/unigramları durağan olasılıklarına göre seçilir. Daha sonra bu T unigramlarının bitişik örneklerini birleştirmek için bir işlem sonrası adımı uygulanır. Sonuç olarak, potansiyel olarak T'den daha fazla veya daha az nihai anahtar kelime üretilecektir, ancak sayı kabaca orijinal metnin uzunluğuyla orantılı olmalıdır.
PageRank'i bir birlikte oluşum grafiğine uygulamanın neden yararlı anahtar sözcükler üreteceği başlangıçta açık değildir. Bunu düşünmenin bir yolu şudur. Bir metin boyunca birden çok kez geçen bir kelimenin birçok farklı birlikte ortaya çıkan komşusu olabilir. Örneğin, makine öğrenimiyle ilgili bir metinde, "öğrenme" unigramı dört farklı cümlede "makine", "denetlenen", "denetlenmeyen" ve "yarı denetlenen" ile birlikte ortaya çıkabilir. Dolayısıyla "öğrenme" köşesi, bu diğer değiştirici sözcüklere bağlanan merkezi bir "merkez" olacaktır. Grafikte PageRank/TextRank'i çalıştırmak muhtemelen "öğrenmeyi" yüksek bir sıralamaya sokacaktır. Benzer şekilde, eğer metin "denetlenen sınıflandırma" ifadesini içeriyorsa, o zaman "denetlenen" ile "sınıflandırma" arasında bir ayrım olacaktır. Eğer "sınıflandırma" başka yerlerde de karşımıza çıkıyorsa ve dolayısıyla birçok komşusu varsa, önemi "denetlenenin" önemine katkıda bulunacaktır. Eğer yüksek bir sıralamaya ulaşırsa, "öğrenme" ve muhtemelen "sınıflandırma" ile birlikte en iyi T unigramlarından biri olarak seçilecektir. Son işlem sonrası adımında, "denetimli öğrenme" ve "denetimli sınıflandırma" anahtar sözcükleriyle sonuçlanırız.
Kısacası birlikte oluşum grafiği, sıklıkla ve farklı bağlamlarda ortaya çıkan terimler için yoğun şekilde bağlantılı bölgeler içerecektir. Bu grafikteki rastgele bir yürüyüş, kümelerin merkezlerindeki terimlere büyük olasılıklar atayan durağan bir dağılıma sahip olacaktır. Bu, yoğun bağlantılı Web sayfalarının PageRank'e göre üst sıralarda yer almasına benzer. Bu yaklaşım aynı zamanda aşağıda ele alınan belge özetlemede de kullanılmıştır.
Belge özetleme
[değiştir | kaynağı değiştir]Anahtar sözcük çıkarma gibi, belge özetleme de bir metnin özünü tanımlamayı amaçlar. Tek gerçek fark, artık daha büyük metin birimleriyle (sözcükler ve ifadeler yerine tam cümleler) uğraşıyor olmamızdır.
Denetimli öğrenme yaklaşımları
[değiştir | kaynağı değiştir]Denetimli metin özetleme, denetimli anahtar sözcük çıkarmaya çok benzer. Temel olarak, eğer bir belge koleksiyonunuz ve bunlar için insanlar tarafından oluşturulmuş özetleriniz varsa, onları özete dahil edilmek için iyi adaylar haline getiren cümlelerin özelliklerini öğrenebilirsiniz. Özellikler, belgedeki konumu (örneğin, ilk birkaç cümle muhtemelen önemlidir), cümledeki kelime sayısını vb. içerebilir. Denetimli çıkarımlı özetlemedeki temel zorluk, bilinen özetlerin, cümleler çıkarılarak manuel olarak oluşturulmasının gerekmesidir. Orijinal bir eğitim belgesindeki cümleler "özetle" veya "özetle değil" olarak etiketlenebilir. İnsanların özet oluşturma şekli genellikle bu değildir; bu nedenle yalnızca dergi özetlerini veya mevcut özetleri kullanmak genellikle yeterli değildir. Bu özetlerdeki cümlelerin orijinal metindeki cümlelerle tam olarak eşleşmesi gerekmediğinden, eğitim için örneklere etiket atamak zor olacaktır. Bununla birlikte, ROUGE-1 değerlendirmesi yalnızca unigramları dikkate aldığından, bu doğal özetlerin değerlendirme amacıyla hala kullanılabileceğini unutmayın.
Maksimum entropi tabanlı özetleme
[değiştir | kaynağı değiştir]DUC 2001 ve 2002 değerlendirme çalıştayları sırasında TNO, haber alanında çoklu belge özetleme için bir cümle çıkarma sistemi geliştirdi. Sistem, belirginliği modellemek için Naive Bayes sınıflandırıcısını ve istatistiksel dil modellerini kullanan hibrit bir sisteme dayanıyordu . Sistem iyi sonuçlar vermesine rağmen araştırmacılar, ME'nin özellik bağımlılıklarına karşı dayanıklı olduğu bilindiğinden, toplantı özetleme görevi için maksimum entropi (ME) sınıflandırıcısının etkinliğini araştırmak istediler . Maksimum entropi, yayın haber alanında özetleme amacıyla da başarıyla uygulanmıştır.
Uyarlanabilir özetleme
[değiştir | kaynağı değiştir]Umut verici bir yaklaşım uyarlanabilir belge/metin özetlemedir. Öncelikle metin türünün tanınmasını ve ardından bu tür için optimize edilmiş özetleme algoritmalarının uygulanmasını içerir. Böyle bir yazılım oluşturuldu.
TextRank ve LexRank
[değiştir | kaynağı değiştir]Özetlemeye yönelik denetimsiz yaklaşım aynı zamanda denetimsiz anahtar sözcük çıkarmanın ruhuna oldukça benzer ve maliyetli eğitim verileri sorununun üstesinden gelir. Bazı denetimsiz özetleme yaklaşımları, belgedeki tüm cümlelerin ortalama sözcük vektörü olan bir " merkez " cümlesinin bulunmasına dayanır . Daha sonra cümleler bu merkez cümleye benzerliklerine göre sıralanabilir.
Cümlenin önemini tahmin etmenin daha ilkeli bir yolu, rastgele yürüyüşler ve özvektör merkeziliğini kullanmaktır. LexRank temelde TextRank ile aynı olan bir algoritmadır ve her ikisi de belge özetleme için bu yaklaşımı kullanır. İki yöntem aynı anda farklı gruplar tarafından geliştirildi ve LexRank basitçe özetlemeye odaklandı, ancak anahtar sözcük çıkarma veya başka herhangi bir NLP sıralama görevi için de aynı kolaylıkla kullanılabilir.
Hem LexRank hem de TextRank'ta, belgedeki her cümle için bir köşe oluşturularak bir grafik oluşturulur.
Cümleler arasındaki kenarlar bir tür anlamsal benzerliğe veya içerik örtüşmesine dayanmaktadır. LexRank, TF-IDF vektörlerinin kosinüs benzerliğini kullanırken, TextRank, iki cümlenin ortak olduğu kelime sayısına (cümlelerin uzunluklarına göre normalleştirilmiş ) dayalı çok benzer bir ölçüm kullanır. LexRank makalesi, kosinüs değerlerine bir eşik uyguladıktan sonra ağırlıklandırılmamış kenarların kullanımını araştırdı, ancak aynı zamanda benzerlik puanına eşit ağırlıklara sahip kenarların kullanılmasıyla da deneyler yaptı. TextRank ağırlık olarak sürekli benzerlik puanlarını kullanır.
Her iki algoritmada da cümleler, ortaya çıkan grafiğe PageRank uygulanarak sıralanır. Özetin boyutunu sınırlamak için bir eşik veya uzunluk sınırı kullanılarak en üst sıradaki cümleler birleştirilerek bir özet oluşturulur.
TextRank'ın özetlemeye tam olarak burada açıklandığı gibi uygulandığını, LexRank'ın ise doğrusal bir kombinasyon kullanarak LexRank puanını (durağan olasılık) cümle konumu ve uzunluğu gibi diğer özelliklerle birleştiren daha büyük bir özetleme sisteminin (MEAD ) parçası olarak kullanıldığını belirtmek gerekir. kullanıcı tarafından belirlenen veya otomatik olarak ayarlanmış ağırlıklarla. Bu durumda bazı eğitim belgelerine ihtiyaç duyulabilir, ancak TextRank sonuçları ek özelliklerin kesinlikle gerekli olmadığını göstermektedir.
TextRank'tan farklı olarak LexRank, çoklu belge özetlemeye uygulanmıştır.
Çoklu belge özetleme, aynı konu hakkında yazılmış birden fazla metinden bilgi çıkarmayı amaçlayan otomatik bir prosedürdür. Sonuçta ortaya çıkan özet rapor, profesyonel bilgi tüketicileri gibi bireysel kullanıcıların, geniş bir belge kümesinde yer alan bilgilere hızlı bir şekilde alışmalarına olanak tanır. Bu şekilde, çok belgeli özetleme sistemleri, aşırı bilgi yüklemesiyle başa çıkma yolunda bir sonraki adımı gerçekleştiren haber toplayıcıları tamamlıyor . Bir soruya yanıt olarak çoklu belge özetleme de yapılabilir.
Çoklu belge özetleme, hem kısa hem de kapsamlı bilgi raporları oluşturur. Farklı görüşlerin bir araya getirilip ana hatlarıyla belirlendiği bu kitapta her konu, tek bir belgede birden fazla perspektiften anlatılıyor. Kısa bir özetin amacı, bilgi aramayı basitleştirmek ve en ilgili kaynak belgelere işaret ederek zamanı kısaltmak olsa da, kapsamlı çoklu belge özetinin kendisi gerekli bilgileri içermeli, dolayısıyla orijinal dosyalara erişme ihtiyacı, ayrıntılandırmanın gerekli olduğu durumlarla sınırlandırılmalıdır. gerekli. Otomatik özetler, herhangi bir editoryal dokunuş veya öznel insan müdahalesi olmadan, birden fazla kaynaktan algoritmik olarak alınan bilgileri sunar, böylece tamamen tarafsız hale gelir.
Çeşitlilik
[değiştir | kaynağı değiştir]Çok belgeli çıkarımsal özetleme bir fazlalık sorunuyla karşı karşıyadır. İdeal olarak, hem "merkezi" (yani ana fikirleri içeren) hem de "farklı" (yani birbirlerinden farklı) cümleleri çıkarmak istiyoruz. Örneğin, bir olayla ilgili bir dizi haber makalesinde, her makalenin birçok benzer cümle içermesi muhtemeldir. Bu sorunu çözmek için LexRank, cümleleri sıralama sırasına göre ekleyen ancak özette zaten bulunan cümlelere çok benzeyen cümleleri atan buluşsal bir son işlem adımı uygular. Bu yönteme Çapraz Cümle Bilgi Gönderimi (CSIS) adı verilir. Bu yöntemler, cümlelerin okuyucuya başka benzer cümleleri "önerdiği" fikrine dayalı olarak çalışır. Bu nedenle, eğer bir cümle diğer birçok cümleye çok benziyorsa, bu muhtemelen büyük önem taşıyan bir cümle olacaktır. Önemi aynı zamanda onu "tavsiye eden" cümlelerin öneminden de kaynaklanmaktadır. Bu nedenle, üst sıralarda yer almak ve bir özette yer almak için, bir cümlenin birçok cümleye benzer olması ve aynı zamanda diğer birçok cümleye de benzemesi gerekir. Bu sezgisel bir anlam ifade eder ve algoritmaların rastgele yeni bir metne uygulanmasına olanak tanır. Yöntemler alandan bağımsızdır ve kolayca taşınabilir. Haber alanındaki önemli cümleleri gösteren özelliklerin biyomedikal alandakilerden oldukça farklı olabileceği düşünülebilir. Ancak denetimsiz "öneri"ye dayalı yaklaşım her alan için geçerlidir.
İlgili bir yöntem, Markov'u özümsemeye dayalı birleşik bir matematiksel çerçevede hem "merkeziliği" hem de "çeşitliliği" ele alan Page/Lex/TextRank gibi genel amaçlı grafik tabanlı bir sıralama algoritması kullanan Maksimal Marjinal Uygunluktur (MMR) zincirleme rastgele yürüyüşler (belirli durumların yürüyüşü sonlandırdığı rastgele yürüyüş). Algoritmanın adı GRASSHOPPER'dır. Sıralama sürecinde çeşitliliği açıkça teşvik etmenin yanı sıra, GRASSHOPPER bir ön sıralamayı da içermektedir (özetleme durumunda cümle konumuna göre).
Çoklu belge özetlemeye yönelik en son teknoloji sonuçları, alt modüler fonksiyonların karışımları kullanılarak elde edilir. Bu yöntemler, Belge Özetleme Corpora, DUC 04 - 07 için en gelişmiş sonuçları elde etmiştir. DUC-04 için belirleyici nokta işlemlerinin (alt modüler fonksiyonların özel bir durumu olan) kullanılmasıyla benzer sonuçlara ulaşılmıştır.
Fazlalığı önleyen, çok dilli, çok belgeli özetlemeye yönelik yeni bir yöntem, her belgedeki her cümlenin anlamını temsil eden ideogramlar oluşturur, ardından ideogram şeklini ve konumunu karşılaştırarak benzerliği değerlendirir. Kelime sıklığı, eğitim veya ön işleme kullanmaz. Kullanıcı tarafından sağlanan iki parametre kullanır: eşdeğerlik (iki cümle ne zaman eşdeğer kabul edilir?) ve alaka düzeyi (istenen özet ne kadar uzunluktadır?).
Özetleme için genel araçlar olarak alt modüler
[değiştir | kaynağı değiştir]Alt modüler küme fonksiyonu fikri son zamanlarda çeşitli özetleme problemleri için güçlü bir modelleme aracı olarak ortaya çıkmıştır. Alt modüler işlevler doğal olarak kapsam, bilgi, temsil ve çeşitlilik kavramlarını modeller . Ayrıca, alt modüler optimizasyonun özel örnekleri olarak birçok önemli kombinatoryal optimizasyon problemi ortaya çıkar. Örneğin, küme örtüsü problemi, küme örtüsü fonksiyonu alt modüler olduğundan, alt modüler optimizasyonun özel bir durumudur. Set cover işlevi, belirli bir kavram kümesini kapsayan nesnelerin bir alt kümesini bulmaya çalışır . Örneğin, belge özetlemede, özetin belgedeki tüm önemli ve ilgili kavramları kapsaması istenir. Bu set kapağının bir örneğidir. Benzer şekilde tesis yerleştirme problemi de alt modüler fonksiyonların özel bir durumudur. Tesis Konumu işlevi aynı zamanda doğal olarak kapsamı ve çeşitliliği de modeller. Alt modüler optimizasyon probleminin bir başka örneği, çeşitliliği modellemek için belirleyici nokta işleminin kullanılmasıdır . Benzer şekilde, Maksimum-Marjinal-Uyum prosedürü de alt modüler optimizasyonun bir örneği olarak görülebilir. Kapsamı, çeşitliliği ve bilgiyi teşvik eden tüm bu önemli modellerin tümü alt modülerdir. Üstelik alt modüler işlevler verimli bir şekilde birleştirilebilir ve sonuçta ortaya çıkan işlev hâlâ alt modülerdir. Dolayısıyla, çeşitliliği modelleyen bir alt modüler fonksiyon, kapsamı modelleyen ve soruna yönelik bir alt modüler fonksiyonun doğru modelini öğrenmek için insan denetimini kullanan bir diğeri birleştirilebilir.
Alt modüler fonksiyonlar özetleme için uygun problemler olsa da, optimizasyon için de oldukça etkili algoritmalara izin verirler. Örneğin, basit bir açgözlü algoritma sabit faktör garantisini kabul eder. Üstelik açgözlü algoritmanın uygulanması son derece basittir ve büyük veri kümelerine ölçeklenebilir, bu da özetleme problemleri için çok önemlidir.
Alt modüler işlevler, neredeyse tüm özetleme sorunları için en son teknolojiyi yakalamıştır. Örneğin, Lin ve Bilmes, 2012 tarafından yapılan çalışma, alt modüler fonksiyonların belge özetleme için DUC-04, DUC-05, DUC-06 ve DUC-07 sistemlerinde bugüne kadarki en iyi sonuçları elde ettiğini göstermektedir. Benzer şekilde, Lin ve Bilmes, 2011, tarafından yapılan çalışma, otomatik özetleme için mevcut birçok sistemin alt modüler fonksiyonların örnekleri olduğunu göstermektedir. Bu, özetleme sorunları için doğru modeller olarak alt modüler işlevlerin oluşturulmasında çığır açan bir sonuçtu.
Alt Modüler İşlevler ayrıca diğer özetleme görevleri için de kullanılmıştır. Tschiatschek ve diğerleri, 2014, modüler fonksiyonların karışımlarının görüntü toplama özetlemesinde en gelişmiş sonuçları elde ettiğini göstermektedir. Benzer şekilde, Bairi ve diğerleri, 2015 çoklu belge konu hiyerarşilerini özetlemek için alt modüler işlevlerin faydasını göstermektedir. Alt Modüler İşlevler, makine öğrenimi veri kümelerini özetlemek için de başarıyla kullanılmıştır.
Uygulamalar
[değiştir | kaynağı değiştir]Otomatik özetlemenin spesifik uygulamaları şunları içerir:
· 2011'de oluşturulan Reddit botu "autotldr" , reddit gönderilerinin yorum bölümündeki haber makalelerini özetlemektedir. Özetlerine yüz binlerce kez olumlu oy veren reddit topluluğu tarafından çok faydalı olduğu görüldü. Bu isim TL;DR'ye gönderme yapmaktadır - İnternet argosunda "çok uzun; okumadım".
· Kaybedilen ayrıntı büyük değilse ve özet stil açısından girdiden yeterince farklıysa, ters stilometri özetlerden yararlanabilir.
Değerlendirme
[değiştir | kaynağı değiştir]Otomatik özetlerin bilgilendiriciliğini değerlendirmenin en yaygın yolu, bunları insan yapımı model özetlerle karşılaştırmaktır.
ve metinlerarası veya metin içi olabilir .
İçsel ve dışsal
[değiştir | kaynağı değiştir]İçsel değerlendirme özetleri doğrudan değerlendirirken, dışsal değerlendirme özetleme sisteminin başka bir görevin tamamlanmasını nasıl etkilediğini değerlendirir. İçsel değerlendirmeler esas olarak özetlerin tutarlılığını ve bilgilendiriciliğini değerlendirmiştir. Dışsal değerlendirmeler ise özetlemenin ilgi değerlendirmesi, okuduğunu anlama vb. görevler üzerindeki etkisini test etmiştir.
Metinlerarası ve metin içi
[değiştir | kaynağı değiştir]Metin içi değerlendirme belirli bir özetleme sisteminin çıktısını değerlendirirken, metinlerarası değerlendirme çeşitli özetleme sistemlerinin çıktılarının karşılaştırmalı analizine odaklanır.
İnsan muhakemesi genellikle "iyi" bir özet olarak kabul edilen şey açısından büyük ölçüde farklılık gösterir, bu nedenle otomatik bir değerlendirme süreci oluşturmak özellikle zordur. Manuel değerlendirme kullanılabilir ancak bu, insanların yalnızca özetleri değil aynı zamanda kaynak belgeleri de okumasını gerektirdiğinden hem zaman hem de emek yoğundur. Diğer konular tutarlılık ve kapsam ile ilgili olanlardır .
Özetleri değerlendirmenin en yaygın yolu ROUGE'dir (Gisting Evaluation için Geri Çağırma Odaklı Understudy). NIST'in Belge Anlama Konferanslarında özetleme ve çeviri sistemleri için çok yaygındır . [2] ROUGE, bir özetin, referanslar olarak bilinen, insanlar tarafından oluşturulan özetlerin içeriğini ne kadar iyi kapsadığını gösteren hatırlamaya dayalı bir ölçümdür. Otomatik olarak oluşturulan özetler ile önceden yazılmış insan özetleri arasındaki n gramlık örtüşmeleri hesaplar . Özetlere tüm önemli konuların dahil edilmesini teşvik etmek hatırlamaya dayalıdır. Geri çağırma unigram, bigram, trigram veya 4 gram eşleşmeye göre hesaplanabilir. Örneğin, ROUGE-1, referans özetindeki tüm unigramlar arasında hem referans özetinde hem de otomatik özette görünen unigramların kesridir. Birden fazla referans özeti varsa bunların puanlarının ortalaması alınır. Yüksek seviyedeki örtüşme, iki özet arasında yüksek derecede paylaşılan kavramların göstergesi olmalıdır.
ROUGE, sonucun tutarlı olup olmadığını, yani cümlelerin anlamlı bir şekilde birlikte akıp akmadığını belirleyemez. Yüksek dereceli n-gram ROUGE önlemleri bir dereceye kadar yardımcı olur.
Çözülemeyen bir diğer sorun ise Anaphor çözünürlüğüdür . Benzer şekilde, görüntü özetleme için Tschiatschek ve diğerleri, görüntü özetlemeye yönelik algoritmaların performansını değerlendiren bir Visual-ROUGE puanı geliştirdi.
Alana özgü ve alandan bağımsız özetleme
[değiştir | kaynağı değiştir]Alandan bağımsız özetleme teknikleri, bilgi açısından zengin metin bölümlerini tanımlamak için bir dizi genel özellik uygular. Son araştırmalar, tıbbi metinleri özetlemek için tıbbi bilgi ve ontolojiler gibi metnin alanına özgü bilgileri kullanarak alana özgü özetlemeye odaklanmaktadır.
Niteliksel
[değiştir | kaynağı değiştir]Şu ana kadar değerlendirme sistemlerinin en büyük dezavantajı, otomatik özetleri modellerle karşılaştırmak için bir referans özetine (bazı yöntemler için birden fazla) ihtiyaç duymamızdır. Bu zor ve pahalı bir iştir. Metinlerden oluşan bir derleme ve bunlara karşılık gelen özetler oluşturmak için çok çaba sarf edilmesi gerekmektedir. Ayrıca, bazı yöntemler özetlerin manuel olarak açıklanmasını gerektirir (örn. Piramit Yönteminde SCU). Üstelik hepsi farklı benzerlik metriklerine göre niceliksel bir değerlendirme yapıyor.
Geçmişi
[değiştir | kaynağı değiştir]Konuyla ilgili ilk yayın 1957 yılına dayanmaktadır (Hans Peter Luhn), istatistiksel bir teknikle başlamıştır.[1] Araştırmalar 2015'te önemli ölçüde arttı. 2016'da terim sıklığı - ters belge sıklığı kullanıldı. Desene dayalı özetleme, 2016'ya kadar çoklu belge özetleme için bulunan en güçlü seçenekti. Bir sonraki yıl, gizli semantik analiz (LSA) tarafından geride bırakıldı. negatif olmayan matris çarpanlarına ayırma (NMF) ile birleştirilmiştir. Her ne kadar diğer yaklaşımların yerini almasalar ve sıklıkla onlarla birleştirilseler de, 2019'a gelindiğinde makine öğrenimi yöntemleri, olgunluğa yaklaştığı düşünülen tek belgelerin çıkarımsal özetlenmesinde baskın hâle geldi. 2020 yılına gelindiğinde alan hâlâ çok aktifti ve araştırmalar soyut toplama ve gerçek zamanlı özetlemeye doğru kayıyordu.
Geleceği
[değiştir | kaynağı değiştir]Otomatik özetleme, hâlâ gelişmekte olan bir alandır, ancak metinlerle etkileşim şeklimizde devrim yaratma potansiyeline sahiptir. Gelecekte, otomatik özetleme araçları daha da gelişmiş ve kullanışlı hale gelecektir. Bu araçlar, metinleri daha iyi anlayabilecek, daha doğru ve öz özetler oluşturabilecek ve kullanıcılara kişiselleştirilmiş özetler sunabilecektir.
Otomatik özetleme, bilgiye erişim şeklimizi ve işleme şeklimizi dönüştürme potansiyeline sahiptir. Bu güçlü araç, daha fazla bilgiyi daha az sürede anlamamıza ve hayatımızı kolaylaştırmamıza yardımcı olabilir.
Son yaklaşımlar
[değiştir | kaynağı değiştir]Son zamanlarda, daha geleneksel RNN'nin (LSTM ) yerini alan transformatör modellerinin yükselişi, metin dizilerinin farklı türdeki metin dizileriyle eşleştirilmesinde, otomatik özetlemeye çok uygun bir esneklik sağlamıştır. Buna T5 ve Pegasus gibi modeller de dahildir.
Kaynakça
[değiştir | kaynağı değiştir]- ^ Luhn, Hans Peter (1957). "A Statistical Approach to Mechanized Encoding and Searching of Literary Information". IBM Journal of Research and Development. 1 (4): 309–317. doi:10.1147/rd.14.0309.