Claude Science — AI가 연구 '조수'에서 '작업대'가 된 날

리뷰 논문 한 편에 2년 걸리던 연구실이, 100페이지급 리뷰 수십 편을 만들고 있다

챗봇에게 논문을 요약시키는 것과, AI가 데이터베이스를 뒤지고 계산을 돌리고 결과를 검증까지 하는 것은 완전히 다른 차원의 이야기다. 6월 30일 Anthropic이 공개한 Claude Science는 후자다. 이름부터 “과학자를 위한 AI workbench” — 조수(assistant)가 아니라 작업대(workbench)다. 이 단어 선택에 이 제품의 야심이 다 들어 있다.

무슨 일이 있었나

Claude Science workbench 구조도 — 연구자의 질문이 총괄 에이전트를 거쳐 데이터베이스·계산·시각화 전문 에이전트로 분배되고, 리뷰어 에이전트가 인용과 계산을 검증해 재현 가능한 산출물을 만든다. 하단에 Allen Institute 리뷰 작성, UCSF 분석 시간 1/10, $30,000 지원 프로그램(7월 15일 마감) 수치

6월 30일 Anthropic이 Claude Science를 베타로 공개했다(macOS·Linux). 구조를 뜯어보면 이렇다.

60개 이상의 과학 skill과 connector가 미리 깔려 있다. skill은 특정 작업의 절차와 도구를 묶어둔 패키지, connector는 외부 데이터베이스나 서비스로 연결하는 통로라고 보면 된다. Claude Code에서 skill을 만들어 쓰는 것과 같은 개념이 연구 도구로 옮겨온 것이다. 영역은 유전체학, 단일세포 분석, 단백질체학, 구조생물학, 화학정보학 — 전부 생명과학·화학 쪽이다. UniProt(단백질), PDB(단백질 구조), ChEMBL(화합물), GEO(유전자 발현) 같은 표준 공공 데이터베이스가 연결되고, NVIDIA BioNeMo의 생명과학 모델들(Evo 2, Boltz-2, OpenFold3)도 붙어 있다.

멀티에이전트 구조다. 총괄 에이전트가 질문을 받아 전문 에이전트들에게 일을 나누고, 그 결과를 별도의 reviewer agent가 검사한다 — 인용이 실제 문헌과 맞는지, 계산에 오류가 없는지. 그리고 모든 산출물에는 그 결과가 어떤 과정을 거쳐 만들어졌는지 추적할 수 있는 이력이 붙는다. 연구자에게 이건 장식이 아니다. “AI가 만든 결과를 논문에 쓸 수 있는가”라는 질문의 답이 바로 이 감사 가능성(auditability)에 달려 있기 때문이다.

계산은 연구실 인프라에서 돈다. 노트북, 리눅스 워크스테이션, HPC(대학·연구소의 고성능 컴퓨팅 클러스터) 어디서든 실행되고, 필요하면 GPU 1개에서 수백 개까지 확장된다. 중요한 건 데이터의 위치다 — 민감한 실험 데이터가 외부 서버로 나가지 않고 원래 있던 시스템에 머문다. 연구 데이터 보안 규정이 깐깐한 기관에서도 도입 논의가 가능한 구조를 처음부터 만든 것이다.

접근과 지원. Pro·Max·Team·Enterprise 구독자가 대상이고, 활동 중인 학술 연구실에는 Team 플랜 할인석이 있다. 그리고 함께 열린 것이 AI for Science 지원 프로그램 — 최대 50개 프로젝트에 크레딧 최대 $30,000와 Modal(클라우드 GPU 서비스) 컴퓨트 $2,000를 준다. 신청 마감 7월 15일, 프로젝트 기간은 9월 1일부터 12월 1일까지다.

발표에 실린 초기 사례가 규모를 보여준다. Allen Institute 연구팀은 2년까지 걸릴 수 있던 대형 리뷰 작성을 100페이지급 수십 편 규모로 진행 중이고, UCSF 뇌종양센터는 생식세포 변이 분석 시간을 약 10분의 1로 줄였다고 밝혔다.

왜 중요한가

‘조수’와 ‘작업대’의 차이가 핵심이다. 지금까지 연구자의 AI 활용은 사람의 작업 흐름 사이사이에 AI를 끼워 넣는 방식이었다. 논문 요약을 시키고, 코드를 짜달라 하고, 결과를 복사해서 내 분석에 붙였다. Claude Science는 방향이 반대다. 데이터베이스, 계산, 시각화, 검증을 한 환경에 모아두고 사람이 그 위에서 일한다. 도구가 사람의 흐름에 끼는 게 아니라, 사람이 도구의 환경으로 들어가는 것 — 이 전환이 일어나면 연구 워크플로우는 부분 개선이 아니라 재설계가 된다.

검증과 재현성을 기본값으로 박았다. reviewer agent와 산출물 이력은 “AI 결과를 믿어도 되는가”라는 과학계의 가장 뾰족한 질문에 대한 제품 차원의 답이다. 재현성 위기(published 연구 결과가 재현되지 않는 문제)로 몸살을 앓아온 분야에서, 이 설계는 벤치마크 점수보다 중요할 수 있다. AI 도구를 고를 때 “얼마나 똑똑한가”만큼 “결과를 어떻게 검증하고 추적하는가”를 봐야 한다는 기준을 보여주는 사례이기도 하다.

생명과학이 첫 격전지가 된 이유가 있다. 60여 개 connector가 전부 바이오·화학 영역인 것은 우연이 아니다. 이 분야에는 UniProt, PDB처럼 수십 년간 쌓이고 표준화된 공공 데이터베이스가 있다. AI workbench는 정리된 데이터가 있는 곳에 먼저 온다. 데이터 표준화가 약한 분야는 그만큼 뒤에 온다는 뜻이다.

My Take

재료·배터리 연구를 해온 입장에서 부러운 것은 60개의 connector 그 자체가 아니다. connector가 깔린 분야와 아닌 분야의 격차가 벌어지기 시작했다는 사실이다. 재료과학에는 아직 UniProt 같은 표준이 약하다. 거꾸로 말하면 — 자기 데이터를 구조화해 둔 연구자부터 이런 도구의 수혜를 입는다.

그래서 실행 포인트를 셋으로 나눠 본다.

생명과학·화학 쪽 연구자라면, 7월 15일 마감인 AI for Science부터. $30,000 크레딧은 연구실 규모에서 무시할 금액이 아니고, 신청 자체에 드는 비용은 시간뿐이다. 떨어져도 잃는 게 없다.

해당 분야가 아니라면, 기다리지 말고 데이터를 정리하자. 구체적으로는 이런 것들이다 — 실험 조건과 결과를 파일마다 제각각인 엑셀이 아니라 일관된 필드(재료, 공정 조건, 측정값, 날짜)로 기록하기, 문헌 노트에 태그와 출처를 구조화해서 붙이기, “사람만 읽을 수 있는 기록”을 “기계도 읽을 수 있는 기록”으로 바꾸기. 나도 올해부터 논문·실험 데이터를 파라미터 단위로 쪼개 구조화된 DB로 쌓기 시작했는데, 이런 발표를 볼 때마다 그 판단에 확신이 붙는다. workbench는 결국 정리된 데이터부터 연결한다.

그리고 어느 분야든, reviewer agent라는 개념은 지금 훔쳐올 수 있다. 거창한 도구 없이도, AI에게 초안을 시킨 뒤 별도의 대화에서 “이 결과의 인용과 수치를 검증하라”고 시키는 2단계 습관만으로 결과물의 신뢰도가 달라진다. 생성과 검증을 분리하는 것 — Claude Science가 제품으로 구현한 이 원칙은 개인 워크플로우에서도 그대로 통한다.

Claude Science — AI가 연구 '조수'에서 '작업대'가 된 날Claude Science — When AI Became the Workbench, Not the Assistant

리뷰 논문 한 편에 2년 걸리던 연구실이, 100페이지급 리뷰 수십 편을 만들고 있다

무슨 일이 있었나

왜 중요한가

My Take