Clear Sky Science · pl
APMSR: inteligentny system QA dla biologii syntetycznej wspierany adaptacyjnym podpowiadaniem i odzyskiwaniem wiedzy z wielu źródeł
Inteligentniejsze odpowiedzi dla nowego rodzaju biologii
Biologia syntetyczna obiecuje czystsze paliwa, bardziej ekologiczne fabryki i nowe terapie medyczne, ale nauka rozwija się tak szybko, że nawet eksperci mają problem, by nadążyć. W tym badaniu przedstawiono APMSR, inteligentny system odpowiadania na pytania zaprojektowany, by pomagać badaczom szybko znajdować wiarygodne odpowiedzi dotyczące kluczowego mikroorganizmu do produkcji biopaliw, Zymomonas mobilis. Łącząc duże modele językowe z starannie dobranymi źródłami online i offline, system ma na celu dostarczanie precyzyjnych, aktualnych odpowiedzi zamiast pewnych, lecz błędnych domysłów.

Wyzwanie zadawania dobrych pytań
Naukowcy już korzystają z wyszukiwarek i baz danych, ale te narzędzia często zwracają długie listy publikacji zamiast bezpośrednich odpowiedzi. Duże modele językowe (LLM) potrafią mówić płynnie o wielu tematach, jednak w szybko zmieniających się dziedzinach, takich jak biologia syntetyczna, mogą przeoczyć najnowsze odkrycia lub po prostu zmyślać. Autorzy koncentrują się na praktycznym problemie odpowiadania na pytania na poziomie eksperckim dotyczące Z. mobilis, bakterii cenionej za efektywne przekształcanie cukrów w etanol. W takim kontekście błędne odpowiedzi nie są tylko irytujące — mogą skierować eksperymenty i inwestycje na zły tor.
Kierowanie AI odpowiednimi instrukcjami
Kluczową ideą APMSR jest to, że sposób zadawania modelowi pytań jest równie ważny co treść pytań. Zamiast używać jednej, stałej instrukcji, system najpierw prosi LLM o rozpoznanie rodzaju napotkanego pytania — na przykład czy jest to zadanie wielokrotnego wyboru czy stwierdzenie prawda/fałsz. Gdy typ zostanie rozpoznany, APMSR automatycznie wybiera pasujący „szablon podpowiedzi”, który mówi modelowi, jak rozumować i jak sformatować odpowiedź. Pytania wielokrotnego wyboru są na przykład zachęcane do dokładnego porównania opcji, natomiast pytania prawda/fałsz są skierowane do sprawdzenia poprawności stwierdzenia i wyjaśnienia dlaczego. Takie adaptacyjne podpowiadanie pomaga utrzymać model na właściwym tropie i zmniejsza rozbieżne, nie na temat odpowiedzi.
Wybieranie najlepszych miejsc do poszukiwania faktów
Dobre instrukcje to nie wszystko; system musi też szukać we właściwych miejscach. APMSR łączy się z trzema rodzajami źródeł informacji: lokalną biblioteką wybranych publikacji naukowych, zasobami internetowymi w czasie rzeczywistym oraz hybrydą łączącą oba te źródła. Dla każdego zapytania użytkownika system traktuje te trzy opcje jako konkurujące „ścieżki” i stosuje matematyczną strategię zwaną LinUCB, opracowaną pierwotnie do równoważenia ryzyka i nagrody w problemach decyzyjnych. LinUCB ocenia, jak dobrze każda ścieżka sprawdzała się na podstawie poprzednich pytań i ich wyników, a następnie wybiera ścieżkę najprawdopodobniej prowadzącą do poprawnej odpowiedzi, jednocześnie od czasu do czasu testując alternatywy. Z biegiem czasu ta pętla sprzężenia zwrotnego uczy system, które kombinacje źródeł są zwykle najbardziej wiarygodne dla różnych typów pytań.

Próba systemu
Aby sprawdzić, czy te pomysły rzeczywiście działają, zespół stworzył specjalny zestaw testowy 220 pytań eksperckich o Z. mobilis, podzielonych równo między formaty wielokrotnego wyboru i prawda/fałsz, wszystkie oparte na recenzowanych badaniach. Porównali trzy konfiguracje: sam model LLM bez zewnętrznych dokumentów, standardowy system z odzyskiwaniem informacji używający tylko lokalnej bazy danych oraz pełne rozwiązanie APMSR. Dokładność wzrosła z 54% dla podstawowego modelu do 80% przy standardowym odzyskiwaniu, a następnie do 93% po dodaniu adaptacyjnych podpowiedzi i selektora ścieżek opartego na LinUCB. Zoptymalizowany system przewyższył także istniejący model skoncentrowany na biologii syntetycznej o nazwie SynBioGPT o około 19 punktów procentowych, co sugeruje, że sprytne zorganizowanie podpowiedzi i odzyskiwania może być ważniejsze niż po prostu trenowanie większego modelu.
Co to oznacza dla przyszłej pracy laboratoryjnej
Dla osób spoza specjalizacji główny wniosek jest taki, że autorzy zbudowali swego rodzaju „współpilota badawczego”, który nie tylko mówi płynnym językiem, ale też wie, kiedy sprawdzić wiele źródeł i jak zorganizować własne rozumowanie. Poprzez dopracowanie zarówno sposobu formułowania pytań, jak i sposobu gromadzenia informacji, APMSR znacząco ogranicza wprowadzające w błąd odpowiedzi w złożonej, szybko ewoluującej dziedzinie. Choć obecny system skupia się na jednym mikroorganizmie i pytaniach w formie quizu, to samo podejście można rozszerzyć na szersze obszary biologii i dalej, pomagając naukowcom, inżynierom, a być może w przyszłości także klinicystom zadawać lepsze pytania i otrzymywać bardziej wiarygodne odpowiedzi od narzędzi AI.
Cytowanie: Wang, J., Cao, Z., Tian, Z. et al. APMSR: an intelligent QA system for synthetic biology empowered by adaptive prompting and multi-source knowledge retrieval. Sci Rep 16, 7331 (2026). https://doi.org/10.1038/s41598-026-38006-8
Słowa kluczowe: biologia syntetyczna, odpowiadanie na pytania, duże modele językowe, retrieval augmented generation, Zymomonas mobilis