개방의 부상
세스 그리프-앨버트
따르다
QMIND 기술 검토
--
듣다
공유하다
기술은 흥미로운 현상이다. 그것은 꽤 오랫동안 숨겨져 있거나 접근할 수 없는 형태로 존재할 수 있지만 어느 날 완전한 형태로 나타나 대중에 의해 탐욕스럽게 소비되는 것처럼 보입니다. 21세기의 새로운 골드러시가 우리에게 다가오고 있습니다. 시장화되는 인공지능(AI) 시대가 가속화되고 있으며, 이에 따라 AI의 잠재력과 이익을 위한 전쟁이 벌어지고 있습니다.
엄청나게 널리 보급된 'AI'는 특정 하위 집합인 LLM(대형 언어 모델)으로 분류되는 것이 더 적절하지만, 대중 문화에는 전체 분야에 적용되는 유행어를 할당하는 방법이 있습니다. 많은 사람들이 평소 트위터 피드나 기술 블로그가 아닌 미디어나 가족으로부터 처음으로 "이 새로운 AI 기술"에 대해 들었을 것입니다. 이것이 시장으로 확산되는 속도입니다. AI 분야는 수년 동안 놀라운 발전을 이루었지만 OpenAI가 웹페이지를 통해 ChatGPT를 대중에게 공개한 2022년 12월 초중순에 소비자가 폭발적으로 증가한 것으로 보입니다. 다음 차트는 그 자체로 설명합니다.
사람들이 AI 기술과 상호 작용하고 이를 사용하고 싶어 한다는 것은 분명합니다. 자신이 이 영상을 보는 개발자, 거대 기술 기업의 임원, 스타트업 창업자라고 상상해 보세요. 역사를 빌려 현재의 AI 시대를 중세 시대에 비유할 수 있습니다. 통치자들은 권력과 부를 장악하고 성을 지키고 평민들은 제외되었습니다. 때때로 떠돌아다니는 야만인들이 통치자들을 찬탈하려고 시도했습니다. 대기업(구글, 메타, 마이크로소프트 등)이 왕좌에 앉고, 개발자와 학계는 아웃사이더 역할을 한다. 이 이야기는 어떻게 전개되나요? 2023년 초로 돌아가 보자.
ChatGPT는 출시된 지 한 달이 넘었고 대규모 언어 모델에 대한 과대광고가 본격화되었습니다. 그런데 LLM이 정확히 무엇인가요? 이는 '기초 모델', 즉 방대한 양의 텍스트 데이터에 대해 오랜 훈련 기간을 거친 특수 알고리즘으로 시작됩니다. 이 프로세스의 결과는 합리적인 답변으로 언어 쿼리에 응답할 수 있는 모델입니다. 이러한 모델에는 우리의 목적에 따라 훈련에서 학습된 모든 패턴으로 간주될 수 있는 수많은 가중치와 매개변수가 있습니다. 이러한 가중치와 매개변수는 가변적이며 미세 조정할 수 있습니다. 여기서 LLM은 일반적인 텍스트 재구성보다 더 구체적인 작업에 노출됩니다. 지금까지 우리가 본 가장 인기 있는 미세 조정 작업은 자연스러운 대화였지만 두 번째는 언어 모델이 텍스트 지침을 따르는 것입니다.
ChatGPT의 기본 모델은 GPT-3입니다. 이는 RLHF(Reinforcement Learning with Human Feedback)를 사용하여 대화식으로 상호 작용할 수 있도록 개선되어 GPT-3.5가 되었습니다. 본질적으로 실제 사람들은 LLM이 제공한 여러 답변을 살펴보고 실제 대화와 가장 유사한 답변을 선택했습니다. 인간이 개입하는 이러한 미세 조정은 (이미 1년 넘게 사용된) 예측 텍스트 모델을 오늘날 우리가 알고 있는 세계적인 경이로움으로 바꾸어 놓았습니다. 미세 조정은 혼란스러운 데이터를 질서 있는 모습으로 바꿀 수 있는 강력한 도구입니다.
하지만 OpenAI만이 게임에 참가한 유일한 플레이어는 아니었습니다. 메타는 조용히 작업하며 자체 기반 모델 출시를 준비하고 있었습니다. 2023년 2월 24일, LLaMA(Large Language Model Meta AI)가 세상에 출시되었습니다. 일이 뜻대로 흘러가는 데는 그리 오랜 시간이 걸리지 않았습니다.
일주일도 채 안되어 빨리 감기됩니다. 2023년 3월 2일 오후, AI 분산화의 새로운 시작을 알렸습니다. LLaMA의 가중치가 포함된 파일이 소셜 미디어 사이트 4chan에서 익명의 사용자에 의해 대중에게 유출되었습니다. 이는 AI 세계를 휩쓴 폭발적인 관심을 불러일으켰습니다. 가중치가 인터넷을 통해 GitHub 및 HuggingFace 영역(본질적으로 각각 인터넷의 소프트웨어 및 AI 첫 페이지)으로 이동하는 데 많은 시간이 걸리지 않았습니다.