MarIA: Ulusal Kütüphane ve BSC, dilimizde AI yanıtlarını iyileştirmek için İspanyolca dilinde özel bir sistem oluşturuyor

Barselona Süper Bilgi İşlem Merkezi (BSC) ve İspanya Ulusal Kütüphanesi, bugün yapay zeka ile dilimizin çalışmasını birleştiren yeni bir proje sundu. Bu, açık bir şekilde kullanılabilen bir AI modeli olan MarIA’dır. İspanyolca dilinin diğer sistemler tarafından kullanımını geliştirmek yapay zeka.

Proje, MareNostrum süper bilgisayarında eğitildi ve Milli Kütüphaneden kullanılan veri dosyaları. Dil Teknoloji Planı fonlarının kullanıldığı ve BSC-CNS metin madenciliği grubundan araştırmacı Marta Villegas tarafından yönetilen bir çalışma.

BSC direktörü Mateo Valero,

59 TB Milli Kütüphane arşivi işleniyor

MarIA’nın olası uygulamaları, «dil düzelticiler veya tahmin edicilerden, otomatik özetleme uygulamaları, sohbet robotları, akıllı aramalar, çeviri motorları ve otomatik altyazı, diğerleri arasında”, projeden sorumlu olanları açıklayın. Bu, temel olarak MarIA tarafından halihazırda işlenen tüm bilgilere “erişmelerine” izin vererek, İspanyolca dilini kullanımlarını geliştirmek için diğer sistemleri eğitmek için kullanılabilecek açık bir modeldir.

Bu böyledir, çünkü MarIA açıktan teklif edilirken, dayandığı metinlerin ve dosyaların çoğu. Bu proje, basitçe, Ulusal Kütüphane’nin, İspanyolca yanıt sunmaya çalışan profesyoneller veya projeler için sistemlerine erişimi daha esnek hale getirmesinin bir yoludur.

https://platform.twitter.com/widgets.js

MarIA, dili, sözlüğü ve anlamı ifade etme mekanizmalarını anlamak için eğitilmiş bir dizi sinir ağıdır. Tanımladıkları gibi, model “kısa ve uzun karşılıklı bağımlılıklarla çalışmayı başarıyor ve anlayabiliyor, sadece soyut kavramlar değil, aynı zamanda bağlamları«.

Bu modeli geliştirmek için Milli Kütüphane’nin 59 terabaytlık web arşivi kullanıldı. Diğer dillerdeki sayfa numaralarını, grafikleri, bitmeyen cümleleri, hatalı kodlamaları, yinelenen cümleleri ve deyimleri ortadan kaldırmak için işlendi ve 6.910.000 paralel saatlik işlemcilerden sonra temizlenmek üzere MareNostrum süper bilgisayarına gönderildi. Sonuç Toplam 570 gigabayt temiz metin kaplayan ve yinelenmeyen 201.080.084 temiz belge.

Álava'da AI eğitimi için Avrupa referans merkezi oluşturmak istiyorlar: 13.000 m2, 150 bilim insanı ve 18 milyon Euro

Sorumlulara göre, bu model şu anda mevcut olan İspanyolca dil modellerinden birkaç kat daha büyük ve daha iyi. Dosya elde edildikten sonra, Transformer tabanlı teknoloji kullanıldı, zaten İngilizce ile test edildi, böylece AI her kelimenin bağlamını tahmin etmeyi öğrendi. MarIA, piyasaya sürülen iki modelinde 125 ve 355 milyona kadar parametreye sahiptir.

Bu modeli oluşturduktan sonra araştırma ekibinin çalışmaları kaynak dosyaları ek metinler ve dosyalar ile genişletinCSIC’nin bilimsel yayınları gibi. Ayrıca Latin Amerika’dan Katalanca, Galiçyaca, Baskça, Portekizce ve İspanyolca dillerinde benzer bir modelin oluşturulması planlanmaktadır. Her birinde hangi ilginç isimleri aldıklarını görmemiz gerekecek.

Resim | Gabriel Solmann

(function() {window._JS_MODULES = pencere._JS_MODULES || {};var headElement = document.getElementsByTagName(‘head’)[0];if (_JS_MODULES.instagram) {var instagramScript = document.createElement(‘script’);instagramScript.src=”https://platform.instagram.com/en_US/embeds.js”;instagramScript.async = true;instagramScript. erteleme = true;headElement.appendChild(instagramScript);}})();

– Haberler MarIA: Ulusal Kütüphane ve BSC, dilimizde AI yanıtlarını iyileştirmek için İspanyolca dilinde özel bir sistem oluşturuyor aslen yayınlandı Xataka Enrique Perez’in fotoğrafı.

Makalenin orijinal kaynağını kontrol edin

Bunu severim:

Severim Yükleniyor…