Are large language models right for scientific research?

Senior chemistry professor writing on the board

이머징 사이언스

디지털 R&D

Written by:

Philippe Ayala

Data Science Technical Manager

August 11, 2023

AI 도구와 전문 분야에서 클수록 항상 다 좋은 것은 아닌 이유

ChatGPT는 2022년 출시와 함께 AI 관련 논의를 재정의했습니다. 이 거대 언어 모델(LLM)은 거의 모든 것이 가능한 존재로, 작업 혁신, 도시의 활력 부활과 같은 긍정적인 측면부터 인간의 직업을 대체한다는 부정적인 영향까지 기적이자 위협으로 묘사되었습니다.

ChatGPT와 GPT-3/GPT-4의 차이점은 무엇일까요?

ChatGPT와 이름에 숫자가 포함된 GPT-(즉 GPT-3 또는 GPT-4)인 LLM은 그 자체로 중요한 차이가 있습니다. 용어가 헷갈릴 때도 있고 같은 의미로 사용되기도 하지만 ChatGPT는 보다 복잡한 LLM(GPT-3 또는 GPT-4)에서 실행되는 "사용하기 쉬운" 인터페이스를 갖춘 챗봇 앱입니다.

GPT-3와 GPT-4는 GTP(Generative Pre-Trained Transformer) 모델 시리즈의 서로 다른 버전입니다. 트랜스포머는 언어 모델로 알려진 신경망의 한 유형입니다. 이들 모델은 학습을 통해 문장의 단어와 같은 느슨한 구조의 데이터에서 패턴과 컨텍스트를 인식합니다. 트랜스포머는 특히 이 기능이 우수합니다. 생성형 모델은 컨텍스트를 토대로 프롬프트에서 임의로 긴 출력을 생성할 수 있습니다. GPT 모델은 이 두 가지 유형의 모델을 결합합니다.

반면에 ChatGPT는 GPT-3 또는 GPT-4와 같은 LLM에서 실행되는 앱입니다. 이전 대화를 계속할 수 있는 메모리 모듈이 있으며 필터, 분류기 등이 내장되어 유해하거나 부적절한 답변을 최소화합니다.

LLM을 구축하려면 무엇이 필요할까요?

LLM은 대단합니다. GPT-3는 1750억 개 매개변수, 또는 모델이 학습을 통해 독립적으로 변경할 수 있는 값을 갖습니다. GPT-4는 2023년 출시된 GPT 시리즈의 최신 버전이며 1조 개의 매개변수로 크기가 훨씬 더 큽니다. 사용해본 사람이라면 누구나 이 모델의 지식 범위가 믿을 수 없을 정도로 방대하며 일관성 있는 정보를 생성할 수 있는 놀라울 정도로 우수한 성능을 갖고 있다고 생각할 것입니다.

그러나 이러한 기능에는 당연히 비용이 수반됩니다. 이처럼 거대한 GPT 모델을 트레이닝하고 ChatGPT와 같은 앱을 배포하는 데는 엄청난 엔지니어링 작업이 필요합니다. GPT-3는 구축 비용이 460만 달러, 클라우드에서 운영하는 데 연간 최소 87,000 달러가 필요한 것으로 추정됩니다. GPT-4 또한 개발 비용만 1억 달러 이상이 소요될 것입니다.

이러한 비용 이외에도 하드웨어와 운영 리소스, 데이터 센터 냉각 시설 또한 막대한 비용을 요합니다. 데이터 센터가 수십 억 갤런의 물을 사용하고 냉각 시설이 에너지 사용과 함께 탄소를 배출하기 때문에 조직은 이 강력한 도구를 사용하는 데 있어 그 비용과 이점을 평가해야 합니다. LLM은 이러한 선행 비용과 지속적인 비용으로 인해 대부분의 민간 기업, 학계 및 공공 부문 조직에 엄청난 비용 부담을 야기하며 모델의 규모와 성능이 증가하면서 그 부담은 더 커질 것입니다.

LLM의 한계

트랜스포머 모델은 특정 구조 요소로 인해 다른 입력 간 관계를 캡처하며 최신 LLM은 방대한 양의 샘플 텍스트로 인해 텍스트 조각이 갖는 방대한 의미를 추출하고 텍스트 요소 간 관계를 추적하는 기능이 뛰어납니다. GPT-3와 같은 생성형 모델은 한 단계 더 높은 성능으로 질문과 답변의 관계를 추적하는 방법을 학습했습니다. 그 결과는 설득력이 있는 경우가 많습니다. ChatGPT에 0과 100 사이의 숫자를 맞춰보도록 문제를 내거나 콜레스테롤이 스테로이드인지 여부를 물어보면 올바른 답변을 얻을 가능성이 높습니다.

그러나 과학 연구와 같은 전문 분야의 경우 거대 언어 모델은 광범위한 의미를 넘어 섬세한 차이가 있는 특정 정보를 이해하기 어렵습니다. 그 이유는 무엇일까요? 첫째, LLM은 “잘못된 데이터를 입력하면 잘못된 결과를 얻게 된다"는 문제에 노출되어 있습니다. 둘째, 트레이닝 데이터의 품질이 우수하더라도 관련 트레이닝 정보가 충분하게 표시되지 않을 수 있습니다.

LLM은 광범위하고 자주 설명되는 주제는 잘 포착하지만 범위가 좁은 전문적인 주제는 대부분 충분하게 표시되지 않아 올바르게 처리될 가능성이 낮아집니다. 예를 들어, 거대 언어 모델이 올바른 추출 수준으로 특정 항목이 스테로이드 분자인지 여부를 판별할 수 있습니다. 거대 언어 모델은 같은 군의 두 스테로이드 분자도 인식할 수 있지만 특정 분자의 독성 여부는 일관적으로 인식할 수 없습니다. 거대 언어 모델의 구분 능력은 트레이닝에 사용된 데이터와 올바른 정보를 인식하여 "기억"했는지 여부에 따라 결정됩니다. 잘못되거나 상충되는 정보의 바다에 숨겨져 있었다면 모델이 올바른 답변을 제시할 수 없습니다.

더 많은 데이터, 더 명확한 데이터, 더 큰 모델로 문제를 해결할 수 있다고 생각할 수도 있습니다. 맞는 말일 수도 있지만 생성형 LLM에 0과 100 사이의 난수를 묻는다면 어떻게 될까요? 그 숫자가 실제로 무작위하다고 확신할 수 있을까요? 이 질문에 답하려면 어휘 의미론과 기억된 사실, LLM을 넘어 AI 에이전트가 필요합니다. 에이전트는 검증된 절차를 사용하여 실행 가능한 코드를 구성하고. 다른 프로세스로 전달하여 결과를 처리한 후 사용자에게 다시 답변을 제시합니다.

과학 데이터의 특정 과제

CAS의 동료들이 알고 있듯이 과학 데이터는 텍스트보다 훨씬 복잡하며 대부분의 문제는 하나 또는 두 개의 질문으로 표현할 수 없습니다.

과학 연구에 AI 기반 도구를 사용하는 경우 스스로에게 "어떤 문제를 해결하려고 하는지" 물어보아야 합니다. 많은 문제가 언어 또는 느슨한 구조의 시퀀스와 관련이 있으므로 언어 모델이 완벽하게 들어맞습니다. 표 형식 데이터, 범주형 데이터, 지식 그래프, 시계열은 어떨까요? 과학 연구에는 이러한 형태의 데이터가 필요하지만 LLM이 항상 활용하기 쉬운 것은 아닙니다. 이는 LLM만으로는 분자 연구와 같은 분야에 필요한 수준의 특이성을 제공할 수 없음을 의미합니다. 대신, 오케스트라가 조화로운 소리를 내기 위해 다양한 악기가 필요한 것처럼 과학에도 일관성 있는 결과를 얻기 위해서는 AI 툴박스에 여러 도구가 필요합니다.

깊이와 범위를 위한 시스템 접근

LLM만으로 과학 연구에 적합하지 않다면 어떤 것이 적합할까요? 바로 전문적인 결과를 얻기 위해 여러 유형의 모델을 사용하는 시스템 접근법입니다. 언어 모델과 신경망에 전통적인 머신 러닝 도구, 지식 그래프, 화학정보학, 생물정보학 및 TF-IDF와 같은 통계 방법을 더함으로써 연구원들은 AI 기반 프로그램에 심도 깊고 섬세한 정보를 포함 시킬 수 있습니다.

이러한 도구는 신약 분자 개발 또는 새로운 화합물 발명과 같은 작업에 필요한 결과를 제공할 수 있습니다. 지식 그래프가 특히 유용한데, 분자, 반응, 공개된 문헌, 통제된 개념 등 알려진 독립체를 안정적으로 연결하는 실측 자료로써 유용하기 떄문입니다. 이상적인 사용 사례는 정확성을 검증하는 지식 그래프와 함께 "특정 유형의 물질"이라고 말할 수 있는 심층 신경망을 활용하는 것입니다. 이것이 바로 과학 연구에 필요한 신뢰할 수 있는 사실 정보를 얻을 수 있는 방법입니다.

이러한 유형의 시스템 접근은 기본적인 데이터 신뢰성 개선을 위한 사실 확인 또는 검증 기능이며 전문 분야에서 효과가 입증되고 있습니다. 예를 들어, Nvidia는 최근 이미지의 캡션을 제공하거나 관련 질문에 답하도록 설계된 비전 언어 모델인 Prismer를 발표했습니다. 이 모델은 여러 가지 작은 하위 모델을 트레이닝하는 "전문가 조합" 접근법을 사용합니다. 이 모델의 지식 깊이는 대규모 트레이닝 없이 양질의 결과를 제공했으며 이는 10 ~ 20배의 데이터에서 트레이닝된 모델의 성능과 일치합니다.

Google 또한 범용 "교사" 언어 모델에서 더 작은 "학생" 모델로 지식을 추출하는 유사한 접근법을 사용하고 있습니다. 학생 모델은 깊이 있는 지식으로 인해 대형 모델보다 더 나은 정보를 제공합니다. 7억 7000만개의 매개변수로 트레이닝된 하나의 학생 모델이 전문 추론 작업에서 5400억 개의 매개변수 교사를 능가했습니다. 소형 모델은 트레이닝 시간이 더 걸리지만 지속적인 효율성 개선은 비용이 적게 들고 실행 속도가 더 빠르다는 점에서 가치가 있습니다.

과학 연구 개선

성공적인 시스템 접근의 또 다른 예는 제가 동료와 함께 CAS에서 개발한 PaSE(Patent Similarity Engine)로, CAS STNext 및 CAS SciFinder의 고유한 기능을 지원합니다. 이 모델은 브라질 국립 산업 재산 연구원(INPI), 즉 브라질 특허청과의 협업으로 개발되었습니다. 이 모델은 거대한 양의 정보를 몇 분 내에 처리하도록 설계되어 연구원들이 계속되는 특허 적채 문제를 해결할 수 있습니다.

이 솔루션은 GPT 제품군과 같은 중요한 머신 러닝 기법을 사용하는 언어 모델을 포함하지만 지식 그래프, 화학정보학, 전통적인 정보 검색 통계 방법 등 추가 학습 유형도 더해집니다. PaSE는 CAS Content Collection^TM 내 전체 텍스트 특허, 논문과 같은 전 세계 과학 모델을 트레이닝함으로써 수동 검색보다 50% 더 빠른 속도로 "선행 기술"을 발견하는 데 필요한 깊이와 범위를 확보했습니다.

특허청에서 존재하지 않는 것을 입증하는 것은 극히 어려운 일입니다. "증거의 부재가 부재의 증거는 아니다"라는 격언을 생각해 보십시오. 데이터 과학자는 전문 특허 검색자, 브라질 INPI 팀, 40% 더 적은 수동 검색으로 선행 기술을 파악한 AI 도구의 고유한 조합과 함께 모델을 트레이닝하고 최적화했습니다. PaSE는 이러한 성능과 특허 적채 감소를 인정 받아 2021년 Patent Information Users Group의 Stu Kaback Business Impact Award를 수상했습니다.

과학에서 거대 언어 모델의 미래

결과적으로, LLM은 과학 연구 분야에서 앞으로 계속 중요한 역할을 하겠지만 일반적인 생각과 달리 이 한 가지 도구가 모든 문제 또는 질문의 만병통치약은 아닙니다.

이 모델은 집안에서 어질러진 방이나 옷장, 다락방을 정리한다고 생각하면 됩니다. 사람에 따라 공간의 물건을 구성하는 방법은 다릅니다. 모든 것을 색상별로 정리하는 사람도 있고 모든 귀중품을 한 곳에 모아 보관할 수도 있고 기능별로 구성할 수도 있습니다. 틀린 방법은 없지만 원하는 또는 필요한 조직의 유형이 아닐 수도 있습니다. 이는 정보를 특정 방식으로 구성할 수 있는 LLM의 문제일 뿐 과학자 또는 연구원들에게 필요한 방식은 아닙니다.

사용자에게 단백질 염기서열, 특허 정보 또는 화학 구조와 같은 구체적인 결과가 필요한 전문 분야의 경우 AI 기반 모델이 특정 방식으로 정보를 조직하고 처리할 수 있도록 트레이닝해야 합니다. 이 모델은 데이터, 결과, 변수를 사용자가 최적의 트레이닝과 예측을 위해 원하는 방식으로 구성해야 합니다.

해당 데이터가 미치는 영향과 표현, 과학 예측을 향상시킬 수 있는 모델에 대해 자세히 알아보려면 CAS Custom Services의 사례 연구를 확인해 보십시오. AI 및 화학 분야의 새로운 동향을 자세히 알고 싶으신가요? 화학 분야에서 AI를 활용할 수 있는 기회에 대한 최신 백서를 읽어보거나 AI로 전 세계 특허청의 생산성을 향상시킬 수 있는 방법에 대한 CAS 리소스를 살펴보십시오.