Clear Sky Science · tr

ReactionSeek: Organik sentezde LLM destekli literatür veri madenciliği ve bilgi keşfi

· Dizine geri dön

Neden eski kimya makalelerini veriye dönüştürmek önemli

Tıptaki, malzemelerdeki ve yeşil teknolojideki modern atılımlar giderek bilgisayarların desenleri tespit etmesine ve yeni moleküller önermesine dayanıyor. Ancak kimyasal bilgi çoğunlukla insanlara yönelik yazılmış, makineler için değil, yüzyıllık araştırma makalelerinin içinde gömülü durumda. Bu makale, ReactionSeek adlı sistemi tanıtıyor: yapay zekâyı bu makaleleri okumaya, önemli deneysel ayrıntıları çıkarmaya ve bunları düzenli verilere dönüştürmeye öğreten bir yaklaşım. İster ilaç keşfi ister daha temiz üretim olsun, yapay zekânın bilimi nasıl değiştirdiğiyle ilgilenen herkes için bu çalışma, kimyanın geniş “gizli arşivini” nihayet nasıl açığa çıkarabileceğimizi gösteriyor.

Figure 1
Figure 1.

Gizli kimyasal bilginin sorunu

Organik sentez, basitlerden karmaşığa moleküller inşa etme sanatı, kimyanın merkezindedir. Araştırmacılar hangi bileşenleri kullandıklarını, hangi miktarlarda, hangi sıcaklıkta ve hangi başarı oranlarıyla kullandıklarını anlatan on binlerce ayrıntılı reçete yayımladı. Ancak bu bilgiler paragraf, diyagram, tablo ve ek dosyalar arasında dağınık halde bulunuyor. Mevcut veritabanları bu alanın sadece bir kısmını kapsıyor, çoğu zaman tescilli ve bazen sıra dışı reaksiyonları kaçırıyor. Otomatik laboratuvar deneyleri düzenli veri setleri üretebiliyor, fakat bunlar pahalı ve kimyanın yalnızca dar bir yelpazesini keşfediyor. Sonuç olarak, çoğu yapay zekâ aracı basitleştirilmiş, temizlenmiş verilerle eğitiliyor ve gerçek laboratuvar çalışmasının düzensiz zenginliğini tam olarak yansıtamıyor.

Yapay zekâyı kimya makalelerini okumaya öğretmenin yeni yolu

ReactionSeek bu zorluğun üstesinden gelmek için metin ve görüntüleri anlamaya yönelik eğitilmiş büyük dil modellerini özel kimya yazılımlarıyla birleştiriyor. Çerçeve, uzun soluklu Organic Syntheses derlemesinden makaleleri tarayan otomatik bir okuyucu gibi çalışıyor. Önce reaksiyon diyagramlarını ve yapı çizimlerini inceleyerek her taslak molekülü reaksiyondaki rolüyle—örneğin başlangıç materyali ya da ürün—eşleştiriyor. Ardından yazılı prosedürleri okuyup hangi bileşiklerin kullanıldığını, hangi miktarlarda, reaksiyonların ne kadar sürdüğünü ve hangi verimlerin elde edildiğini çıkarıyor. Son olarak, isimleri, birimleri ve formatları standartlaştırarak binlerce farklı makalenin tek, tutarlı ve aranabilir bir veri setinde birleştirilmesine olanak tanıyor.

Sistemin görüntüleri, metni ve sayıları nasıl çıkardığı

Görüntüler için ReactionSeek, çizilmiş yapıların hangi etiketlere karşılık geldiğini ve bunların reaktant ya da ürün olarak davranıp davranmadığını belirlemek üzere görsel yetenekli bir dil modeli kullanıyor. Ayrı bir kimyasal çizim tanıyıcı ise bu şekilleri bilgisayarların işleyebileceği dijital moleküler formatlara çeviriyor. Metin için özenle hazırlanmış istemler, dil modelini deneysel yazımın karmaşık üslubunda yönlendirerek her bileşiği tespit etmesine, başlıkla eşleştirmesine ve sıcaklık, süre, çözücü gibi koşulları yakalamasına yardımcı oluyor. Sistem, nükleer manyetik rezonans ve kütle spektrometrisi gibi kimyacıların doğru molekülü doğrulamak için güvendiği karmaşık ölçüm verilerini çıkarmada bir adım daha öteye gidiyor. Genel yapay zekâ araçlarının sıkça tökezlediği—uzun kimyasal isimleri kesin yapılarla eşleştirme gibi—durumlarda ReactionSeek, dil modelini tek karar verici olarak kullanmak yerine kamuya açık kimya veritabanları ve adtan-yapıya dönüştürücü programlarla çapraz kontrol yapıyor ve modeli daha çok akıllı bir eşleştirici olarak kullanıyor.

Figure 2
Figure 2.

Bir dergiden yüzyıllık kimyasal eğilimlere

Yaklaşımı test etmek için yazarlar ReactionSeek’i 1921’den 2021’e yayımlanmış reaksiyonları kapsayan 100 cilt Organic Syntheses üzerine uyguladı. Sistem, insan küratörün birkaç saat alacağı yerde her makale için dakikalar içinde üç binin üzerinde makaleyi işledi. Ana alanlarda yüzde 95’in üzerinde kesinlik ve geri çağırma ile reaksiyon bileşenlerini, koşulları ve sonuçları yakaladı. Bu yeni yapılandırılmış veri seti, güvenilir gram ölçeğinde ve topluluk tarafından doğrulanmış neredeyse dört bin ayrı reaksiyon ve binlerce benzersiz bileşen içeriyor. Buna ek olarak, araştırmacılar SynChat adlı etkileşimli bir asistan geliştirdiler; kimyacıların doğal dilde sorular sormasına—isteğe bağlı olarak çizilmiş moleküller dahil—ve çıkarılan literatüre dayalı, orijinal prosedürlere bağlantılar içeren yanıtlar almasına olanak tanıyor.

Yapay zekânın bir yüzyıllık deneylerde desen keşfetmesine izin vermek

Reaksiyon verileri düzenlendikten sonra ekip, zaman içindeki büyük resim eğilimlerini aramak için başka bir gelişmiş dil modelini kullandı. Ne bekleyeceği açıkça söylenmeden yapay zekâ, alandaki iyi bilinen değişimleri yeniden keşfetti: yaklaşık 1980’den sonra asimetrik kataliz kullanımının yükselişi, basit ana grup reaktiflerinden sofistike geçiş metali katalizörlerine doğru kayış ve yüksek derecede toksik metallerin kademeli düşüşü. Ayrıca reaksiyon partnerleri ve katalitik metallerdeki değişen tercihlere de dikkat çekti; bu, kimyacılara ait araçların on yıllar içinde nasıl evrildiğini yansıtıyor. Bu sonuçlar, zengin ve güvenilir bir veri seti beslendiğinde yapay zekânın uzman anlayışıyla uyumlu tarihsel ve stratejik içgörüler sağlayabileceğini gösteriyor.

Gelecekteki kimyasal keşif için bunun anlamı

Düz ifadeyle ReactionSeek, tozlu kimya arşivleri ile gelecekteki keşifleri hızlandırmayı vaat eden yapay zekâ araçları arasında bir köprü. Reaksiyon ayrıntılarını okumak, çıkarmak ve temizlemek gibi sıkıcı işleri otomatikleştirerek daha iyi öngörü modellerini, daha akıllı laboratuvar planlamasını ve bilim insanları için daha sezgisel arama araçlarını destekleyebilecek yüksek kaliteli, makineye hazır veriler sunuyor. Sistem nadir kimyasal isimler, karmaşık tablolar ve kusurlu yapı tanıma gibi zorluklarla hâlâ karşılaşsa da, özenli istem tasarımı ve yapay zekâ ile kurallara dayalı araçların akıllı bir karışımının yapılandırılmamış bilimsel literatürü yaşayan bir bilgi tabanına dönüştürebileceğini şimdiden gösteriyor. Hem kimyacılar hem de uzman olmayanlar için bu, on yıllık deneysel çalışmaların akıllı makinelerin yardımıyla keşfedilebileceği, sorgulanabileceği ve genişletilebileceği bir geleceğe işaret ediyor.

Atıf: Li, J., Li, M., Yang, Q. et al. ReactionSeek: LLM-powered literature data mining and knowledge discovery in organic synthesis. Nat Commun 17, 3356 (2026). https://doi.org/10.1038/s41467-026-70180-1

Anahtar kelimeler: kimyasal veri madenciliği, büyük dil modelleri, organik sentez, bilimsel metin çıkarımı, kimyada yapay zeka