Clear Sky Science · he
מאגר נתונים של ערכי מסיסות עבור תרכובות אורגניות בתמיסות ממס בינאריות בטמפרטורות שונות
מדוע זה חשוב לכימיה יום-יומית
מוצרים רבים שאנו מסתמכים עליהם, מתרופות ועד פלסטיק וצבעים, תלויים במידה שבה חומר מתמוסס בנוזל. בסביבות תעשייתיות אמיתיות מדענים נדירים משתמשים בממס טהור אחד בלבד; לעיתים קרובות הם מערבבים שני נוזלים כדי לכוונן כמה מוצק יימס. מדידה של זה עבור כל תרכובת וזוג ממסים חדש היא איטית ומעייפת. המאמר מציג את MixtureSolDB, אוסף גדול ובדוק בקפידה של נתונים ניסויים המתעד כיצד יותר מ־800 תרכובות אורגניות מתמוססות במאות תערובות ממסים דו־רכיביות בטווחי טמפרטורה נרחבים. משאב כזה נועד להאיץ מחקר בפיתוח תרופות, בתכנון חומרים ובייצור ירוק.

מפה גדולה של איך חומרים מתמוססים
המחברים אספו 175,166 מדידות נפרדות של מסיסות עבור 810 תרכובות אורגניות ב־750 תערובות ממסים בינאריות שונות, הכוללות 3,001 צירופים נבדלים של ממס ומומס בטווח בין 252 ל־383 קלוין. כל נקודת נתונים מתעדת כמה מהתרכובת יכול להימס בזוג ממסים מסוים ביחס ערבוב וטמפרטורה נתונים. מערכות רבות כוללות מים מעורבבים עם נוזל אורגני כגון אלכוהול, אצטון או אציטוניטריל, המשקפות עד כמה תערובות כאלה נפוצות במעבדות ובתעשייה. על־ידי שאיבת מידע מ־1,115 מאמרים שעברו ביקורת עמיתים, המחברים מרחיבים משמעותית את מאגרי הנתונים הציבוריים הקודמים, ומספקים לחוקרים תמונה רחבה ומגוונת יותר של התנהגות המסיסות.
כיצד נאספו ונוקו הנתונים
להרכבת מאגר זה הצוות חיפש תחילה כתבי עת מדעיים עבור מאמרים שכותרותיהם או התקצירים שלהם כללו ביטויים כמו "solubility + binary" או "solubility + mixture." מתוך 5,775 רשומות הם הסירו כפילויות ומאמרים ללא נתונים ניתנים לשימוש, ואז חילצו ידנית ערכים מספריים מ־1,115 מאמרים מתאימים. הם התמקדו בתרכובות אורגניות, מלחי אורגניים וסולבטים מוגדרים, תחת לחץ רגיל וללא תוספים נוספים, והבטיחו שצורות מוצק הן היציבות ביותר במקרה של פולמורפים. מבני מולקולות של מומסים וממסים תורגמו לפורמט טקסטואלי סטנדרטי בשם SMILES, ושמוּנו נהלי שם של ממסים כדי להימנע מבלבול בין מילים נרדפות.
לגרום למספרים להיות ברי השוואה בין מערכות
נתוני מסיסות גולמיים יכולים להיות מדווחים בדרכים רבות, כגון בשבר מולי או גרמים לפרופורציה של ממס, וחלקו של כל ממס בתערובת יכול להינתן לפי מסה או לפי מול. כדי להפוך את הנתונים תואמים ומוכנים למידול, המחברים המירו את כל המדידות למספר צורות סטנדרטיות, כולל ערך מבוסס מסה המובע כגרמים של מומס ל־100 גרם ממס ואת הלוגריתם העשרוני שלו, בחירה נפוצה במחקרי מסיסות מונחי נתונים. הם השתמשו במשקלי מולקולות שחושבו על ידי תוכנת כימיה בקוד פתוח כדי לבצע המרות אלה, גם עבור מקרים מיוחדים כגון ממסים מבוססי פוליאתילן גלי. הטבלה הסופית מתעדת גם מטא־נתונים מפורטים: הטמפרטורה, הרכב זוג הממסים, מזהים ממאגרי ציבור, והאם תרכובת מאושרת כתרופה על ידי מנהל המזון והתרופות של ארה"ב.

בדיקת אמינות וחקר מאגר הנתונים
למרות שמאמרי המקור כבר עברו ביקורת עמיתים, העתקה של כל כך הרבה מספרים ביד יכולה להכניס שגיאות. כדי לצמצם סיכון זה, שני כימאים מאומנים חילצו את הנתונים באופן עצמאי ואדם שלישי השווה ומיזג את התוצאות שלהם. הצוות הריץ לאחר מכן סדרת בדיקות אוטומטיות, בחן ערכים בלתי אפשריים כגון מסיסויות גדולות משבר מולי של אחד או חלקי ממס שלא מסתכמים נכון, ובדק טמפרטורות מול נקודות רתיחה ידועות. הם גם אימתו הפניות ספרותיות באמצעות מזהי עצם דיגיטליים (DOI) ופתרו אי־התאמות כאשר אותו שם הצביע על מבנים שונים או להפך. מאגר הנתונים שהתווצר, יחד עם טבלה קטנה יותר של נקודות רתיחה של ממסים, זמין לציבור כקבצי CSV פשוטים וניתן לדפדף בו דרך כלי מקוון אינטראקטיבי שמאפשר חיפוש לפי שם תרכובת או מבנה ולהתמקד בתרופות מאושרות.
מה משמעות הדבר לכלים עתידיים
לעורכי כימיה ומדעני נתונים, MixtureSolDB מציע מקור בוחן לבניית מודלים ולבדוקם החזויים כמה תרכובת תימס בתערובות ממסים מבלי לבצע ניסויים חדשים בכל פעם. כמות גדולה של נקודות נתונים והמגוון הרחב של תרכובות וזוגות ממסים מסייעים לשיטות למידת מכונה ללמוד דפוסים כלליים יותר במקום להיתפס להתאמה-יתר למערכת צרה. בעוד שהמחברים ממליצים על מדד לוגריתמי כאמצעי היעד המתאים ביותר להשוואת מערכות שונות, הם גם מספקים ערכי מסה פרקטיים לתכנון מעבדה בעולם האמיתי. בסופו של דבר, מאגר זה אמור לעזור לחוקרים לתכנן תגובות, תהליכי גבשול וניסוחים טובים יותר באמצעות דרכים מהירות ומבוססות מידע יותר לבחירת תערובות ממסים.
ציטוט: Malikov, D., Krasnov, L., Kiseleva, M. et al. Dataset of solubility values for organic compounds in binary mixtures of solvents at various temperatures. Sci Data 13, 727 (2026). https://doi.org/10.1038/s41597-026-07047-z
מילות מפתח: מסיסות, תמיסות ממס בינאריות, מאגר נתונים ללמידת מכונה, תרכובות אורגניות, כימאינפורמטיקה