Clear Sky Science · tr

Biyoloji ve kimyada büyük dil modelleri üzerine bir inceleme

· Dizine geri dön

Bilgisayarlara Moleküllerin Dilini Öğretmek

Modern biyoloji ve kimya artık herhangi bir insanın okuyabileceğinden çok daha fazla veri üretiyor. Bu makale, sohbet botlarının arkasındaki yapay zekanın aynı türü olan büyük dil modellerinin DNA, proteinler ve küçük moleküllerin “dillerini” okumak ve yazmak için nasıl yeniden kullanıldığını açıklar. Genel okuyucu için çekiciliği açıktır: bu araçlar daha hızlı ilaç keşfi, hastalıkların daha iyi anlaşılması ve hatta laboratuvarda deneyleri planlamaya ve yürütmeye yardımcı olan bilgisayarlar vaat ediyor.

Kelimeler ve Cümlelerden Genlere ve Moleküllere

Dil modelleri başlangıçta bir cümledeki bir sonraki kelimeyi tahmin etmek için geliştirildi. Bilim insanları, protein dizileri veya moleküllerin doğrusal kodlamaları gibi birçok biyolojik ve kimyasal kaydın da dizgiler gibi göründüğünü fark ettiler. Bir yapay zeka doğal dildeki kalıpları öğrenebiliyorsa, aynı zamanda bir gen dizisini hücre içindeki rolüyle veya bir kimyasal formülü özellikleriyle ilişkilendiren kalıpları da öğrenebilir. İnceleme, araştırmacıların karmaşık üç boyutlu molekülleri ve hücreleri bir yapay zekanın işleyebileceği tek boyutlu dizelere, grafiklere veya nokta bulutlarına nasıl dikkatle dönüştürdüğünü gösteriyor. Bu tasarım adımı kritik önemdedir; çünkü bilginin nasıl temsil edildiği modelin neler öğrenebileceğini ve ne tür keşifler yapabileceğini sınırlar.

Figure 1
Figure 1.

Proteinleri, DNA’yı ve Tek Hücrenin Yaşamını Okumak

Öne çıkan bir alan, yaşayan sistemlerle çalışan “biyolojik dil modelleri”dir. Proteinler için milyonlarca dizide eğitilmiş modeller artık bir aminoasit zincirinin üç boyutlu bir yapıya nasıl katlanacağını tahmin edebiliyor; bu, zahmetli laboratuvar teknikleriyle rekabet eder düzeyde. Bazı modeller daha da ilerleyerek doğada hiç var olmamış, ancak ilaç veya endüstriyel enzim olarak iş görebilecek yeni protein tasarımları öneriyor. DNA ve RNA için araştırmacılar, sadece dört harften oluşan uzun dizeleri işleyebilecek şekilde dil modellemeyi uyarlıyor; bu sayede yapay zeka genomdaki düzenleyici bölgeleri tespit edebiliyor veya mutasyonların etkilerini tahmin edebiliyor. Hücre düzeyinde yeni yaklaşımlar her hücrenin gen etkinliği profilini, “kelimeleri” genler olan bir belge gibi ele alıyor; bu modeller hücre türlerini kümeleyebiliyor, hücrelerin tedavilere nasıl yanıt vereceğini öngörebiliyor ve laboratuvar verilerini önceki biyolojik bilgiyle ilişkilendirebiliyor.

Kimyaya Kendi Dijital Dilbilgisini Vermek

Kimyasal dil modelleri ilaç adayları gibi küçük moleküllerin dünyasıyla uğraşıyor. Burada kimyacılar yapıları tanımlamak için cümlelere benzer kompakt metin kodları kullanıyor; bunlar dil modellerine cümlemiş gibi verilebiliyor. Kodlayıcı (encoder) tarzı modeller anlama üzerine odaklanır: her molekül için çözümlenmiş zengin bir iç parmak izi öğrenir ve bu, çözünürlük veya toksisite gibi özellikleri tahmin etmeye yardımcı olur. Çözücü (decoder) tarzı modeller ise yaratmaya odaklanır: istenen özelliklere doğru yönlendirilirken yeni molekülleri adım adım üretir. Bir diziyi başka bir diziye çeviren eşleştirilmiş modeller reaksiyonların sonucunu tahmin etmek veya hedef bir bileşiğin sentez yollarını önermek için kullanılır. Daha gelişmiş sistemler metni, iki boyutlu çizimleri, üç boyutlu şekilleri ve grafikleri karıştırarak yapay zekanın aynı kimyayı tanımlamanın birçok yolu arasında akıl yürütebilmesini sağlar.

Bu Modeller Nasıl Öğrenir ve Gelişir

Kapak altında, biyo‑kimyasal dil modelleri zekice eğitim hilelerine dayanır. Genellikle insan etiketleri olmadan temel yapıyı kavramaya zorlayan eksik giriş parçalarını tahmin etmeyi öğreten kendi kendine denetimli öğrenme ile başlarlar. Çok görevli eğitim tek bir modelin birçok ilgili problemi aynı anda uygulamasına izin vererek genel yeteneklerini güçlendirir. Diğer tasarımlar modelin yanıt verirken dış veri tabanlarına bakmasına izin vererek çıktıları gerçek kimya ve biyolojiyle dayandırır ve uydurma iddiaları azaltır. Ardından daha küçük ölçekli denetimli eğitim turları modeli ilaç güvenliğini tahmin etme veya bir reaksiyonu planlama gibi belirli görevlerde ince ayar yapar. İnceleme ayrıca yeni bir modelin gerçekten daha iyi olup olmadığını—sadece daha büyük olup olmadığını değil—değerlendirmeyi mümkün kılan büyük açık veri kümelerini ve kıyaslamaları da inceliyor.

Figure 2
Figure 2.

Yapay Zeka Laboratuvar Asistanlarına ve Sorumlu Kullanıma Doğru

Bağımsız modellerin ötesinde yazarlar etkileşimli “ajans” sistemlerine doğru bir kaymaya dikkat çekiyor. Bu düzeneklerde bir dil modeli—örneğin reaksiyonları kontrol eden, literatürde arama yapan veya laboratuvar robotlarını kontrol eden özel araçları çağırabilir—ve bu araçların çıktıları zincirleme bağlanabilir. Erken gösterimler bu tür ajanların sentez yolları önermesini, deneyler tasarlamasını ve hatta otomatik laboratuvarları yönlendirmesini gösteriyor. İnceleme şu sonuca varıyor: güçlü güvenlik önlemleri, şeffaf değerlendirme ve etik ile düzenlemeye özen gösterildiği takdirde bu biyo‑kimyasal dil modelleri bilimin temel altyapısı haline gelebilir. Uzman olmayanlar için ana mesaj şudur: yapay zeka yaşam ve madde kodlarını okumayı ve yazmayı öğreniyor; bu da fikrden ilaca, malzemeye veya biyolojik içgörüye giden yolu kısaltma potansiyeline sahip olabilir.

Atıf: Ashyrmamatov, I., Gwak, S.J., Jin, SY. et al. A survey on large language models in biology and chemistry. Exp Mol Med 58, 970–980 (2026). https://doi.org/10.1038/s12276-025-01583-1

Anahtar kelimeler: büyük dil modelleri, ilaç keşfi, protein yapısı, kimyasal dil modelleri, genomik