인공지능, 논문 작성하에 도움 될까?

안하영

yjnetworks1@gmail.com | 2022-11-04 18:06:02

인공지능에 기반한 LLM(대형 언어 모델)이 논문을 작성하는 보조자로까지 발전했다. [사진출처=삼성전자]

인공지능에 기반한 대규모 언어 모델이 논문을 작성하는 보조자 역할까지 가능한 수준으로 발전했다고 네이처가 보도했다. 대규모 언어 모델은 언어를 생성하기 위해 방대한 텍스트 본문에 대해 훈련된 신경망이다.

현재 인공지능에 기반한 대규모 언어 모델은 연구원들이 과학 논문을 분석, 작성하고 코드를 생성하며 아이디어를 브레인스토밍하는 데 도움이 될 정도로 발전했다.

오픈AI(OpenAI)는 2020년에 가장 잘 알려진 대규모 언어 모델인 GPT-3을 만들었다. 네트워크를 훈련해 이전 내용을 기반으로 다음 텍스트를 예측할 수 있는 프로그램이다. 오픈AI 프로그래밍 인터페이스를 통해 프롬프트를 기반으로 텍스트를 생성하는데 사용할 수 있다.

레이캬비크에 있는 아이슬란드 대학의 컴퓨터 과학자 하프스타인 에이나르손은 “거의 매일 GPT-3를 사용한다. GPT-3를 사용해 논문의 초록에 대한 피드백을 생성한다”고 말했다. 뉴욕 브루클린에 있는 기술 스타트업인 에스사이트의 컴퓨터 과학자 도메닉 로사티도 대규모 언어 모델을 사용해 생각을 정리하고 있다.

오픈AI 연구원들은 책, 뉴스, 위키피디아 항목과 소프트웨어 코드를 포함한 방대한 텍스트를 대상으로 GPT-3을 훈련시켰다. 이후 연구팀은 GPT-3가 다른 텍스트와 마찬가지로 코드 조각을 완성할 수 있음을 알아냈다. 연구원들은 코덱스(Codex)라는 알고리즘의 미세 조정 버전을 만들어 코드 공유 플랫폼 깃허브의 150GB가 넘는 텍스트에서 훈련시켰다.

AI2의 세만틱 스콜러(Semantic Scholar) 검색 엔진은 TLDR이라는 언어 모델을 사용해 논문에 대한 트윗 길이를 설명하고 있다. TLDR은 소셜 미디어 플랫폼 페이스북의 연구원들이 사람이 작성한 요약을 미세 조정한 BART라는 초기 모델에서 파생됐다.

TLDR은 과학 논문을 보강하는 애플리케이션인 AI2의 세만틱 리더(Semantic Reader)에서도 활용한다. 사용자가 세만틱 리더에서 텍스트 내 인용을 클릭하면 TLDR 요약을 포함하는 정보가 있는 상자가 나타난다.

엘리키트는 캘리포니아 샌프란시스코에 있는 기계 학습 비영리 조직인 오트에서 출시한 프로그램이다. 엘리키트에게 “마음 챙김이 의사결정에 미치는 영향은 무엇인가?”라고 물어보면 10개의 종이로 된 표가 출력된다. 사용자는 연구 참가자, 방법론, 결과에 대한 정보는 물론 추상 요약과 메타데이터와 같은 콘텐츠로 열을 채우도록 소프트웨어에 요청할 수 있다.

인간-컴퓨터 상호 작용을 연구하는 칼리지 파크의 메릴랜드 대학의 조엘 찬은 프로젝트를 시작할 때마다 엘리키트를 사용하고 있다. 스톡홀름 카롤린스카 연구소의 신경과학자 구스타브 닐슨은 엘리키트를 사용해 통합 분석에 추가할 수 있는 데이터가 포함된 논문을 찾고 있다.

[ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

WEEKLY HOT