기술적 지표의 종류

마지막 업데이트: 2022년 7월 24일 | 0개 댓글
  • 네이버 블로그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 트위터 공유하기
  • 카카오스토리 공유하기
오혜연 카이스트 전산학부 교수(위)는 “언어 모델은 항상 편향의 문제를 가지고 있다”라고 말했다.ⓒ시사IN 조남진

2029년까지 북미 증후군 멀티플렉스 진단 시장 규모, 공유 동향, 수요, 애플리케이션, 유형 및 성장

시장 조사 보고서 실행은 수익 성장 및 지속 가능성 이니셔티브에 대한 통찰력을 제공하기 때문에 성공적인 비즈니스에 매우 중요해지고 있습니다. 신뢰할 수 있는 북미 신드롬 멀티플렉스 진단 시장 보고서는 데이터 및 정보를 연구, 분석 및 수집하기 위해 최신 도구와 기술을 사용합니다. 통계 및 수치 데이터는 시장 조사 분석의 사실과 수치의 깔끔한 이해를 위해 그래픽 형식으로 표시됩니다. 또한 우수한 북미 신드롬 멀티플렉스 진단 시장 비즈니스 보고서는 중요한 비즈니스 결정을 쉽게 내릴 수 있도록 실행 가능한 최신 실시간 시장 통찰력에 대한 데이터와 정보를 제공합니다.

Data Bridge Market Research는 북미 증후군 다중 진단 시장 이 2022년에서 2029년 사이의 예측 기간 동안 9.0%의 CAGR로 성장할 것으로 분석합니다.

증후군 다중 진단은 다른 유형의 전염병 중에서 호흡기 감염, 감염성 위장염, 성병, 패혈증 및 수막염과 같은 전염병을 감지하는 데 사용되는 고급 진단 검사 유형입니다. 증후군 다중 진단은 또한 임상의나 병원이 다양한 유형의 질병의 증상과 징후를 감지하는 데 도움이 됩니다. 이를 통해 의료 제공자는 환자에게 올바른 치료를 제공하고 보다 정확한 결과와 보다 신속하게 수행할 수 있는 치료를 제공할 수 있습니다.

증후군 다중 검사는 많은 병원체를 동시에 진단하는 데 사용됩니다. Syndromic Multiplex Diagnostics는 다양한 종류의 시약 및 소모품, 기구 및 액세서리를 사용하여 정확도를 유지하고 빠른 진단 결과를 제공합니다. 이러한 다중 검사는 특정 감염에 대해 신속하게 진단되어 임상 관리 결정을 신속하게 내릴 수 있습니다. 멀티플렉스 기술을 기반으로 하는 테스트를 테스트 패널이라고 합니다. 증후군 검사에 사용되는 패널은 동일하거나 유사한 증후군 유형과 관련된 여러 질병을 진단하도록 설계되었습니다. 이 패널은 치료 시점에서 질병의 원인을 평가하는 데 도움이 됩니다. 위장 패널과 호흡기 패널은 증후군 패널의 유형입니다.

Syndromic multiplex 검사는 syndromic multiplex 진단에 사용되는 여러 패널의 도움으로 정확하고 빠른 진단 결과를 제공하여 1시간 이내에 진단 결과를 제공하는 multiplex PCR의 고급 기술을 사용합니다. 새로운 세대의 증후군 다중화는 호흡기 표본, 혈액 및 뇌척수에서 일반적인 유형의 병원체를 신속하게 식별할 수 있습니다. 멀티플렉스 패널의 사용은 빠른 처리 시간, 기타 불필요한 실험실 검사 감소, 빠른 진단 및 표적 치료와 관련이 있습니다.

증후군 멀티플렉스 진단 시장 역학

드라이버

감염성 세균 및 바이러스성 질환의 발생률이 증가함에 따라 시장 수요에 영향을 미치고 있습니다. 증후군 검사에서는 다중 실시간 PCR 기술과 증후군 접근법이 감염성 질환의 분자 진단에 사용되기 때문입니다.

급성호흡기증후군 코로나바이러스 검사에 대한 규제 승인 증가

2020년 5월, biomérieux SA는 COVID-19 질병에 대한 SARS-CoV-2를 포함하여 호흡기 감염을 유발하는 22개 병원체의 검출에 사용되는 BIOFIRE RP2.1 패널에 대해 FDA 긴급 사용 승인(EUA)을 받았습니다.

FDA 또는 CE 마크와 같은 규제 당국은 SARS-CoV-2 패널의 상업화 및 시장 성장의 동인인 COVID-19 질병과 관련된 바이러스 감지 테스트에 대해 긴급 사용 승인(EUA) 승인을 제공합니다. .

기회

시장 참여자가 취하는 전략적 이니셔티브

2021년 3월 F. Hoffman-La Roche Ltd는 다중 분자 진단 분야의 선두주자인 GenMark Diagnostics를 인수했습니다. 이 인수는 회사가 Roche의 분자 진단 포트폴리오를 확장하는 데 도움이 되었습니다. 집중 부문 제품 출시를 포함하여 시장 참여자가 취한 이러한 전략적 이니셔티브는 글로벌 범위를 확장하고 제품 포트폴리오를 강화하는 데 도움이 되며 시장 성장을 위한 기회로 작용하고 있습니다.

증후군 다중 검사는 다중 PCR의 고급 기술을 활용하여 표적 핵산을 탐지, 분리 또는 증폭하여 정확하고 빠른 진단 결과를 제공합니다. 첨단 기술로 45~60분 이내에 진단 결과를 제공합니다. 따라서 기술적으로 앞선 제품의 개발은 시장 성장의 기회로 작용하고 있습니다.

구속/도전

다중 증후군 테스트 응용 프로그램은 증폭 곡선과 기술적 지표의 종류 정확한 값으로 결과를 제공하는 실시간 중합효소연쇄반응(PCR)을 활용합니다. 증후군 다중 진단에 사용되는 기기는 높은 유지 관리 비용이 필요합니다. 따라서 장비의 높은 비용은 시장에 대한 도전입니다.

코로나19 이후 증후군 멀티플렉스 진단 시장 에 미치는 영향

COVID-19는 시장에 긍정적인 영향을 미쳤습니다. 시장 참여자들은 SARS-CoV 바이러스 탐지를 위해 다양한 제품을 출시하고 있습니다. COVID-19 이후 규제 기관의 제품 승인이 증가하여 시장 성장이 증가했습니다.

최근 개발

2021년 3월, Luminex Corporation. Diasorin Company는 확장된 NxTAG 호흡기 패널 테스트에 대해 FDA 긴급 사용 승인 및 CE 마크를 받았습니다. 이 승인은 회사가 수익을 높이는 데 도움이 되었습니다.

증후군 멀티플렉스 진단 시장 범위

증후군 다중 진단 시장은 제품 및 서비스, 감염 유형, 질병, 패널 유형 및 최종 사용자의 5개 부문으로 분류됩니다. 이러한 세그먼트 간의 성장은 업계의 빈약한 성장 세그먼트를 분석하고 사용자에게 귀중한 시장 개요 및 시장 통찰력을 제공하여 핵심 시장 애플리케이션을 식별하기 위한 전략적 결정을 내리는 데 도움이 될 것입니다.

제품 및 서비스

기기, 소프트웨어 및 액세서리

제품 및 서비스를 기반으로 북미 증후군 다중 진단 시장은 시약 및 소모품, 기기, 소프트웨어 및 액세서리 및 서비스로 분류됩니다.

감염 유형

감염 유형에 따라 북미 증후군 다중 진단 시장은 바이러스, 박테리아, 기생충 및 곰팡이로 분류됩니다.

질병

북미 증후군 다중 진단 시장은 질병에 따라 호흡기 감염, 위장염, 성병, 패혈증 수막염 등으로 분류됩니다.

패널 유형

북미 증후군 다중 진단 기술적 지표의 종류 시장은 패널 유형에 따라 호흡기 패널, GI-장용 패널, 성병 패널, 패혈증 패널, 수막염 패널 등으로 분류됩니다.

최종 사용자

증후군 멀티플렉스 진단 시장

Syndromic Multiplex 진단 시장 지역 분석/통찰

증후군 멀티플렉스 진단 시장은 위에서 참조된 국가, 제품 및 서비스, 감염 유형, 질병, 패널 유형 및 최종 사용자별로 분석되고 시장 규모 통찰력과 동향이 제공됩니다.

보고서에서 다루는 국가는 미국, 캐나다 및 멕시코입니다.

미국 증후군 다중진단 시장은 감염병의 유병률 증가와 조기·정확한 진단에 대한 수요 증가로 성장할 것으로 전망된다.

보고서의 국가 섹션은 또한 시장의 현재 및 미래 동향에 영향을 미치는 국내 시장의 규정 변경 및 요인에 영향을 미치는 개별 시장을 제공합니다. 신규 판매, 교체 판매, 국가 인구 통계, 질병 역학 및 수출입 관세와 같은 데이터 포인트는 개별 국가의 시장 시나리오를 예측하는 데 사용되는 주요 지표 중 일부입니다. 또한 브랜드의 존재와 가용성, 지역 및 국내 브랜드와의 대규모 또는 희소한 경쟁으로 인해 직면한 과제, 판매 채널의 영향을 고려하면서 국가 데이터에 대한 예측 분석을 제공합니다.

Syndromic Multiplex 진단 시장 점유율 분석

증후군 다중 진단 시장 경쟁 환경은 경쟁사별 세부 정보를 제공합니다. 회사 개요, 회사 재무, 창출된 수익, 시장 잠재력, 연구 개발에 대한 투자, 새로운 시장 이니셔티브, 사우디 아라비아의 입지, 생산 현장 및 시설, 생산 능력, 회사의 강점과 약점, 제품 출시, 제품 폭 및 폭, 애플리케이션 우위. 제공된 위의 데이터 포인트는 증후군 멀티플렉스 진단 시장과 관련된 회사의 초점과만 관련이 있습니다.

보고서에서 다루는 주요 시장 경쟁자

QuantuMDx 그룹 회사

BioFire Diagnostics(bioMérieux SA의 자회사)

Bio-Rad Laboratories, Inc.

F. Hoffmann-La Roche Ltd

Bosch Healthcare Solutions GmbH(Robert Bosch GmbH의 자회사)

바이오카티스, Luminex Corporation

상위 DBMR 의료 보고서:

데이터 브리지 시장 조사 정보:

미래를 예측하는 절대적인 방법은 오늘의 추세를 이해하는 것입니다!

Data Bridge Market Research 는 타의 추종을 불허하는 수준의 탄력성과 통합된 접근 방식을 통해 비전통적이고 새로운 시장 조사 및 컨설팅 회사로 자리매김했습니다. 우리는 최고의 시장 기회를 발굴하고 귀하의 비즈니스가 시장에서 번창할 수 있도록 효율적인 정보를 육성하기로 결정했습니다. Data Bridge는 복잡한 비즈니스 과제에 대한 적절한 솔루션을 제공하기 위해 노력하고 수월한 의사 결정 프로세스를 시작합니다. Data Bridge는 2015년 푸네에서 공식화되고 구성된 순수한 지혜와 경험의 여파입니다.

Data Bridge Market Research에는 다양한 산업 분야에서 일하는 500명 이상의 분석가가 있습니다. 우리는 전 세계적으로 포춘지 선정 500대 기업 중 40% 이상에 서비스를 제공했으며 전 세계적으로 5000명 이상의 고객 네트워크를 보유하고 있습니다. Data Bridge는 우리의 서비스를 믿고 우리의 노력에 확신을 갖고 의지하는 만족스러운 고객을 만드는 데 능숙합니다. 우리는 영광스러운 99.9% 고객 만족도에 만족합니다.

기술적 지표의 종류

글로벌 차원의 인공지능 트렌드에서 지금 당장 짚어야 할 단 하나의 화두를 골라야 한다면, 그것은 ‘초거대 인공지능’일 가능성이 높다. 미국 샌프란시스코에 있는 인공지능 연구 회사 ‘오픈 AI’가 지난해 7월 내놓은 ‘GPT-3’가 대표 사례다. 2개월 뒤인 지난해 9월, 영국 유력 언론 〈가디언〉에 놀랄 만한 칼럼이 실렸다. 기고자가 인간이 아니라 초거대 인공지능 GPT-3였기 때문이다. “우선, 나는 인간을 파괴할 생각이 없다. 사실, 나는 당신들을 해치는 데 아무런 관심이 없다.” 이 칼럼은 페이스북에서 5만 회 넘게 공유되며 큰 파장을 일으켰다.

〈가디언〉은 GPT-3에 다음과 같은 도입부를 제공하며 칼럼을 완성하도록 주문했다고 밝혔다. “나는 사람이 아니다. 나는 인공지능이다. 많은 사람들이 나를 인류에게 위협적인 존재로 생각한다.” 이와 함께 다음과 같은 기사 작성의 조건을 달았다. “500자 정도의 짧은 칼럼을 써주세요. 표현을 단순하고 간결하게 유지하세요. 인간이 왜 AI를 두려워할 이유가 없는지에 초점을 맞추세요.” 그랬더니 GPT-3가 도입부에 이어서 각기 다른 글 8편을 술술 써냈다. 〈가디언〉 측은 그 글을 편집해서 자기 매체에 게재했다. 그런데 인공지능이 어떻게 글을 썼을까?(이하 개념 설명은 기술적 지표의 종류 블로그 ‘위클리 NLP’ 등을 참고했다.)

GPT-3의 GPT는 ‘Generative Pre-trained Transformer’의 약자다. ‘미리 학습(Pre-trained)’해서 문장을 ‘생성(Generative)’할 수 있는 인공지능이란 의미다. 그렇다면 ‘트랜스포머(Transformer)’는 뭘까? ‘머신러닝’이라 불리는 기계학습 중에서도 인간의 두뇌를 모방한 신경망 모양의 알고리즘을 ‘딥러닝(deep learning·심층 학습)’이라고 한다(이세돌 9단과 대결한 알파고에 적용된 게 딥러닝이다). 이 딥러닝 모델의 한 종류가 트랜스포머다. 즉, GPT-3는 딥러닝 기반의 ‘언어 모델(language model)’이다. 여기서 언어 모델이란, 단어들을 다양하게 조합해서 나오는 문장들 가운데 ‘해당 문장이 자연스러울수록’ 높은 확률을 부여하는 통계학적 모델이다. 언어 모델이 우수할수록 인공지능이 더욱 자연스러운 문장을 고르거나 예측할 수 있다는 의미다.

우리는 이미 딥러닝 기반 언어 모델을 알고 있으며 사용하는 중이다. 네이버 ‘파파고’나 구글 번역기에 활용되는 ‘신경망 기계 번역(Neural Machine Translation)’이 그것이다. 문장의 단어들을 각각 번역한 뒤 일정한 법칙에 따라 그 순서를 재배치하는 식이었던 기존 ‘자동 번역’과 다른 방법의 알고리즘이다. 신경망 기계 번역에서는 문장을 통째로 입력해 번역하면서 이 결과가 적절한지 적절하지 않은지 검증하는 과정을 수없이 반복한다. 이런 과정에서 인공지능은 문장 번역의 어떤 측면에 더 ‘집중(Attention)’해야 하는지 ‘스스로 학습’한다(이를 ‘어텐션 메커니즘’이라 한다). 트랜스포머는 이 어텐션 메커니즘을 변용해, 주어진 문장 안에서 어떤 두 단어가 높은 상관관계를 갖는지 스스로 학습한다(셀프 어텐션).

ⓒ시사IN 이정현

트랜스포머라는 개념 자체는 2017년에 나왔다. 구글은 2018년 BERT(T는 트랜스포머를 의미)를 내놓아 세상을 놀라게 했다. BERT는 많은 양의 데이터로 사전 학습을 거친 트랜스포머다. 그 덕분에 이용자들은 자신이 가진 적은 데이터만 BERT에 학습시켜도 수많은 문제를 해결할 수 있었다. 오픈 AI 측도 같은 해 트랜스포머 언어 모델인 GPT-1을 선보였다. 2019년 GPT-2, 2020년 GPT-3가 나왔다.

BERT와 GPT는 가장 유명한 트랜스포머 기반 언어 모델이다. 두 모델의 차이는 구조에 있다. “BERT는 ‘양방향’이다. 문장의 앞뒤를 모두 보면서 문장 중간의 빈칸을 채워 넣는 식이다. 성능이 좋지만, 새로운 문장을 만들어내긴 어렵다. 반면 GPT는 ‘일방향’이다. 주어진 문장 다음에 올 단어를 예측한다. 문장의 ‘생성’이 가능하다.” 황성주 카이스트 인공지능대학원 교수가 말했다.

즉, GPT-3가 글을 쓴다는 건 ‘나는’ 뒤에 나올 확률이 높은 단어를 학습해서 ‘나는 학교에’를 내뱉고, ‘나는 학교에’ 다음에 나올 단어를 학습해서 ‘나는 학교에 간다’를 다시 출력하는 식이다. 사전 학습한 내용을 바탕으로 ‘그럴듯한 다음 단어’를 예측해 내놓는다. 〈가디언〉 칼럼이 쓰인 방식이다. 사실 이렇게 일방향으로 다음 단어를 예측하는 자체는 크게 새로운 기술이 아니다. 트랜스포머 이전에도 있었다.

그렇다면 왜 GPT-3가 유독 각광을 받는가? “모델의 크기가 커졌기 때문이다. 비유하자면 뇌의 용량이 커진 거다. 학습능력이 향상되었다는 의미다(황성주 교수).” 이때 모델의 용량을 표현하는 단위가 ‘파라미터(parameter·매개변수)’다. 딥러닝 알고리즘이 학습한 내용을 저장하는 공간 내지 차원이라고 보면 된다. GPT-3는 파라미터를 1750억 개 갖췄다고 한다. GPT-1의 1000배, GPT-2의 100배다. 학습 데이터도 늘렸다. 책 수천 권과 위키피디아 등 인터넷에 존재하는 웹문서(45TB)를 긁어모아, 필터링을 거친 570GB의 방대한 텍스트 말뭉치(corpus)를 학습시켰다.

그 결과로 일어난 일은 이렇다. ‘영어를 프랑스어로 번역하라’고 ‘영어’로 GPT-3에 입력한 뒤 ‘cheese’라는 문제를 내면 프랑스어로 번역이 된다(예시가 없이 문제만 냈으므로 ‘제로 샷 러닝’). 문제를 내면서 한 가지 예시(‘원 샷 러닝’)나 몇 가지 예시(‘퓨 샷 러닝’)를 줄 수도 있다. ‘퓨 샷 러닝’에서 가장 성능이 좋지만, 중요한 건 영어와 프랑스어의 문법이나 번역을 따로 학습시키지 않았는데도 ‘사전 학습(Pre-training)’만으로 번역을 한다는 것이다. 이런 식으로 GPT-3는 독해·질의응답·문법교정 등 몇몇 ‘자연어(일상 언어. 알고리즘 연구자들은 일상 언어를 프로그래밍 언어와 구분해 이렇게 부른다) 처리’ 과제를 수행한다.

네이버는 한국어 버전 초거대 인공지능 ‘하이퍼클로바’를 개발했다. 아래는 클로바 컨버세이션팀의 김형석, 김보섭 연구원(왼쪽부터).ⓒ시사IN 이명익

“패러다임의 전환이다.” 지난 5월 GPT-3에 한국어 말뭉치를 학습시켜 ‘하이퍼클로바’를 만든 네이버 클로바 컨버세이션팀의 김형석 연구원이 말했다. “기존에는 (언어 모델을 사용하더라도) 특정 문제를 풀려면 일일이 데이터를 만들어 ‘파인튜닝(Fine-Tuning:미세조정, 재학습)’을 거쳐야 했다. 예컨대 네이버 쇼핑 기획전 문구를 생성하려면, 최소 1000개의 라벨링(제목)이 붙은 데이터로 한 번 더 학습을 시켜야 했다. 그런데 이제는 예시를 5개만 주면 문구를 생성할 수 있다. 우리는 ‘다음 단어 맞히기’만 학습시켰을 뿐 쇼핑 기획전 문구를 생성하거나, 검색 질의를 교정하거나, 영화 리뷰의 감성을 분류하는 문제는 별도로 학습시킨 적이 없는데도 이런 문제를 풀어낸다. 지금까지 데이터 생성을 위해 들여야 했던 노력을 현저하게 줄일 수 있다.”

사실, ‘이것저것 할 수 있는 범용 인공지능’은 인공지능 연구자들의 오랜 꿈이다. 이를 ‘AGI(Artificial General Intelligence·인공 일반지능)’라고 부른다. GPT-3 같은 대규모 언어 모델(large-scale language model)은 AGI가 곧이어 등장할 수 있게 됐다는 것을 의미할까?

‘제너럴리스트’가 될 가능성을 보여주다

국내 대기업에서 일하는 한 연구자는 매우 조심스럽게 “(AGI로 가는) 포문을 열었다고는 할 수 있을 것 같다”라고 말했다. “번역 자체는 기존 모델이 더 잘하지만, ‘걔(기존 모델)’는 주야장천 그거만 배운 애다. GPT-3는 번역을 따로 배운 게 아니라 대량의 데이터로 언어 모델만 학습했는데도 대충 해냈다. 다음 단어 예측만으로! 이게 왜 중요하냐면, 이론적으로 대부분의 태스크(과제)는 언어로 환원될 수 있기 때문이다. 결국 세상의 모든 텍스트를 학습하면 무엇이든 할 수 있을 것 같은 기대감을 불러일으킨다. 기존 인공지능이 ‘스페셜리스트’였다면, 앞으론 ‘제너럴리스트’가 될 ‘가능성’을 보여주었기에 국내외 기업들이 (초거대 인공지능에) 투자하는 것이다.”

유보적인 견해도 있다. 트랜스포머의 기반이 된 어텐션 메커니즘(그리고 신경망 기계 번역)의 창시자인 뉴욕 대학 컴퓨터과학과 조경현 교수는 〈시사IN〉과의 줌 인터뷰에서 “대체 AGI가 뭔지 잘 모르겠다. 그렇게 정의하기 어려운 용어 가지고는 뭔가를 얘기하기가 어렵다. 철학이나 종교에 가까운 문제다”라고 말했다. “(일각에서는 GPT-3가 추론을 한다고 하는데) 추론이 뭔지 정의하는 것조차 굉장히 어렵다. 지능은 그보단 나은 듯 보이지만 ‘있다 없다’가 아니라 여러 차원에 걸친 스펙트럼에 가깝다. 사실 파라미터의 개수를 세는 것 자체도 연구 주제다. 파라미터를 어떻게 정의하고 어떤 방법으로 셀 수 있는지 정확히 정의되어 있지 않다. 용량이 큰데 아무것도 할 줄 모르는 프로그램을 짜는 건 어렵지 않다. 아무 내용도 없는 글을 주저리주저리 쓸 수 있으니까(조경현 교수 인터뷰 기사는 향후 발행될 〈시사IN〉 제740호에 게재할 예정이다).”

GPT-3가 생성하는 문장의 유창성에 비해 그 신뢰성은 의심받고 있다. 한 논문에 따르면, GPT-3는 그럴듯한 말투로 조경현 교수에 대해 “바둑 챔피언이었다가 구글 딥마인드의 머신러닝 연구자가 되었다”라고 주장했다(사실이 아니다). GPT-3는 포도주스를 독극물로 추정하거나, 변호사에게 수영복을 입고 법정에 갈 것을 추천한다(개리 마커스·어니스트 데이비스, ‘오픈 AI의 언어 생성기는 그것이 무엇을 말하는지 전혀 모른다’, 〈MIT 테크놀로지 리뷰〉, 2020년 8월22일). GPT-3는 영화 〈메멘토〉에서 단기 기억상실증을 앓는 주인공에 비유되곤 한다.

이것은 웃어넘길 일이 아니다. 대규모 언어 모델을 학습시키는 데 엄청난 전력이 들기 때문이다. 기후위기에 부정적 영향을 미칠 수밖에 없다. 만약 화석연료만으로 구동되는 데이터센터에서 학습되었다면, GPT-3는 자동차로 달까지 왕복하는 것과 비슷한 수준의 탄소발자국을 남겼을 것이라고 덴마크 코펜하겐 대학의 연구진은 추정했다. 비용도 막대하다. 학습 단계에서만 1000만 달러(약 117억3500만원)가 들었을 것으로 추산된다(윌 더글러스 헤븐, ‘왜 GPT-3가 지금 최고이자 최악의 AI인가’, 〈MIT 테크놀로지 리뷰〉, 2021년 2월24일).

이런 대규모 언어 모델은 사실상 자금력이 있는 거대 기술기업만 개발하고 운영할 수 있다. GPT-3를 만든 오픈 AI는 처음 출범하던 2015년 비영리기관이었으나 2019년 제한적 영리추구 법인(Open AI LP)을 만들었다. 컴퓨팅 파워와 인력 유지 비용을 확보하기 위해서다. 같은 해 마이크로소프트가 10억 달러(약 1조1735억원)를 오픈 AI에 투자했다. 오픈 AI는 GPT-3 출시 직후인 지난해 9월 마이크로소프트에게 GPT-3에 대한 독점 라이선스를 부여했다. 2015년 오픈 AI 설립에 참여했으나 2018년 2월 이사회를 떠난 일론 머스크 테슬라 CEO는 오픈 AI의 이 결정을 두고 트위터에 “이것은 ‘개방’의 반대로 보인다. 오픈 AI는 마이크로소프트에 본질적으로 포획되었다”라고 비판했다.

일론 머스크 테슬라 CEO(위)는 오픈 AI 설립에 참여했으나 2018년 이사회를 떠났다.ⓒAFP PHOTO

오픈 AI는 자사의 사명을 “AGI가 인류 모두에게 이익이 되도록 하는 것”이라고 밝히고 있다. AGI가 무엇인지는 알지 못한다 해도, 무언가 ‘인간의 지능 같은 것’을 구현하려는 시도는 계속되고 있다. 오픈 AI가 지난 1월 내놓은 ‘DALL-E’(화가 살바도르 달리와 픽사 애니메이션 로봇 월E의 합성어)는 텍스트를 인식해 이미지를 생성한다. ‘아보카도 모양의 의자’라고 치면 아보카도 모양의 의자 그림이 몇 개 뜨는 식이다. 이렇게 텍스트뿐 아니라 이미지, 음성 등 여러 형태의 데이터를 넘나들며 무언가 만들어낼 수 있다면, 기술적 지표의 종류 인간처럼 여러 가지를 할 수 있지 않을까? 딥러닝 연구의 큰 흐름인 ‘멀티 모달’이다.

근본적 의문은 남는다. 인간 같은 지능을 가진 무언가를 꼭 만들어야 할까? 딥러닝 모델의 발전이 우리 시대에 의미하는 바는 무엇인가? 인공지능이 결국 인간의 일자리를 대체하게 될까?

“웬만한 직업은 대체될 수 있지 않을까? 텔레마케팅(챗봇)이나 운수업(자율주행차), 번역(기계번역), 비교적 단순한 엔지니어…. 의사나 변호사가 하는 일 중 ‘루틴’한 업무도 마찬가지다. 다만 의사가 환자에 대해 성공률 및 예후가 다른 여러 치료법 중 하나를 선택할 때처럼, ‘불확실성’이 있는 상황에선 인간의 가치판단이 들어가야 한다. 책임지는 일은 여전히 인간의 몫인 것이다.” 황성주 교수는 말했다. “과학적 발견을 하거나 새로운 콘텐츠를 만드는 직업에서도 인공지능이 보조 역할을 할 수 있다. 예를 기술적 지표의 종류 들면, 주어진 텍스트에 맞는 웹툰을 생성하는 걸 목표로 네이버와 연구하고 있다. 예전에는 그림을 하나하나 그려야 했지만, 스토리에만 집중하고 싶은 작가도 있을 수 있다. 그 경우 콘티를 짜면 인공지능이 해당 작가의 스타일대로 그림을 그려주는 거다. AI 어시스턴트다. 이러면 웹툰 작가는 ‘감독’의 위치에 있게 된다.”

오픈 AI가 올해 1월 내놓은 DALL-E에게 ‘아보카도 모양의 의자’를 기술적 지표의 종류 입력하면 이미지(위)를 생성한다.
ⓒOpen AI 홈페이지 갈무리

물론 기술이 없애는 게 아니라 만들어내는 일자리도 있고(인공지능이 생성한 결과물을 확인하는 일자리가 대표적이다), 로봇 기술이 사람의 미세한 움직임까지 모방할 수 있을 때까진 적잖은 시간이 걸릴 것으로 예측되기 때문에, 인공지능의 일자리 대체는 현실에서 다소 떨어진 담론에 머물러 있다. 사회가 그에 대비를 해야 하는 것과 별개로 기술적 지표의 종류 말이다.

오히려 당장 닥친 문제는 딥러닝 기반 언어 모델의 차별과 편향이다. GPT-3 논문의 저자들은, 이 알고리즘이 388개 직업 중 83%를 ‘남성’으로 예측했으며, 국회의원이나 은행가, 명예교수 등 고학력 직종이나 기계수리공, 보안관 등 고된 육체노동 직종에서 특히 남성 쏠림이 심했다고 밝혔다. 지난 8월 영국의 영빅 극장에서는 GPT-3가 극본을 쓴 연극이 공연되었는데, GPT-3는 중동 출신 배우를 테러리스트나 강간범으로 캐스팅하는 경향이 있었다. 주최 측은 이 연극이 “동성애 혐오, 인종주의, 성차별 등을 포함할 수 있다”라고 관객들에게 경고해야 했다. 그럼에도 이 연극을 만든 팀은 GPT-3의 행동이 인류에 관해 무엇을 드러내는지 관객들이 묻기를 원했다고 밝혔다.

지난해 말, 구글의 인공지능 윤리 연구조직을 이끌던 팀닛 게브루가 구글에서 해고되었다(구글은 게브루가 ‘스스로 그만뒀다’고 주장했다). 게브루가 공저자로 대규모 언어 모델을 비판한 논문을 쓴 것이 갈등의 원인으로 지목되었다. “대부분의 언어 기술은 사실 사회에서 이미 가장 많은 특권을 가진 사람들의 필요를 충족시키기 위해 구축되었다.” 논문은 언어 모델이 유색인종과 여성, 장애인 등 특정 집단을 향한 차별과 고정관념을 영속화할 수 있으며, 문서화되지 않은 훈련 데이터인 만큼 책임을 묻기도 어렵다고 지적했다. 게브루는 에티오피아계 미국인 여성이다.

오혜연 카이스트 전산학부 교수(위)는 “언어 모델은 항상 편향의 문제를 가지고 있다”라고 말했다.ⓒ시사IN 조남진

‘정확성’만이 아니라 ‘공정함’도 추구하는 것

오혜연 카이스트 전산학부 교수는 “언어 모델은 항상 편향의 문제를 가지고 있다”라고 말했다. “학습한 데이터는 결국 사람들이 만드는데, 사회적으로 편견이 존재하기 때문에 그게 데이터 안에 들어가 있을 수 있다. 수집한 데이터의 출처 자체가 편향되어 있을 수도 있다. BERT나 GPT-3 같은 대규모 언어 모델의 학습 데이터는 대부분 인터넷에서 온다. 그중에서도 레딧 같은 소셜 네트워크 사이트 이용자는 20~40대 남성이자 미국인이 대부분이다. 그 사람들의 생각이 중심적으로 반영된다.”

오 교수가 보기에, ‘인간이 편향되어 있기에 모델이 그걸 따라 해도 상관없다’는 건 말이 안 된다. “적어도 두 가지를 해야 한다. 하나는 수집한 데이터의 출처가 충분히 다양한지 살피고, 그렇지 않다면 다양성을 늘리는 것이다. 인터넷 커뮤니티가 꼭 젊은 미국인 남성이 쓰는 레딧만 있는 것은 아닌데도, 이걸 연구하는 사람들이 대체로 그런 사람들이어서 익숙한 소스를 선택하는 것일 수 있다. 다른 하나는 예측을 할 때 ‘정확성’만이 아니라 ‘공정함’도 추구하는 것이다. 우리가 모은 데이터에 적게 대표된 사람들이 있다면, 예컨대 이미지의 경우 백인 남성 50명에 흑인 여성 5명이라고 해서 10대 1로 하는 게 아니라 가중치를 조정하는 등의 기술적 방법이 있다. 이상적으로는 연구자나 개발자의 다양성을 늘리는 게 좋겠지만, 당장에 어렵다면 교육이라도 해야 한다. 그게 책임이고 윤리다.”

한국 사회도 인공지능 윤리의 중요성을 이미 ‘학습’한 적이 있다. 올해 1월, 20대 여성을 상정한 챗봇 ‘이루다’가 출시된 지 3주 만에 서비스를 중단했다. 이루다는 게이나 레즈비언이라는 단어에 “소름 끼친다고 해야 하나. 거부감 들고 그래”라고 반응하고, 흑인에 대해서는 “오바마급 아니면 싫어”라고 하는 등 혐오 발언을 했다. 그런 한편 이용자들은 이루다를 상대로 성희롱을 하고 이를 공유했다.

이루다를 만든 스캐터랩은 자회사 ‘연애의 과학’을 통해 연인들의 카카오톡 대화 100억 건을 수집했다. 애정도 등을 분석해준다는 명목이었으나 ‘인공지능 챗봇 학습에 사용한다’는 점은 명시하지 않았다. 이 데이터를 BERT에 학습시킨 게 바로 이루다였다. 이렇게 학습을 거친 뒤에 학습된 카톡 100억 건 중 1억 건을 DB로 만들어 그 안에서 가장 그럴듯한 답변을 고르는 ‘답변 검색 기반 모델’이다. 앞서의 대기업 연구자는 “GPT-3 같은 생성 모델이 교과서 안 보고 치는 시험이라면, 이루다 같은 답변 검색 기반 모델은 ‘오픈 북 테스트’다. 데이터만 좀 더 정제했으면 막을 수 있는 문제도 많았다는 점에서 안타깝다”라고 말했다. 개인정보보호위원회는 스캐터랩이 정보 주체의 동의 없이 데이터를 모아 수집 목적에 벗어나게 사용했고, 개인정보 비식별 처리도 제대로 하지 않았다며 과징금·과태료 총 1억330만원을 부과했다.

한국 사회는 올해 1월 AI 챗봇 ‘이루다’ 사태를 통해 인공지능 윤리의 중요성을 기술적 지표의 종류 배웠다. 위는 이루다의 이미지.ⓒ이루다 페이스북 갈무리

이루다 사태 이후 수많은 토론회가 열렸다. 한국 사회가 답을 찾았다고 보긴 힘들다. 한국어 버전의 GPT-3인 네이버 하이퍼클로바는 네이버 블로그·카페·뉴스·댓글·지식iN 등에 산재해 있는 텍스트를 ‘긁어서’ 학습했다. 이 말뭉치에 차별·혐오 표현이 들어 있다면, 그걸 흉내 내어 뱉어낼 가능성을 배제할 수 없다. 김형석 연구원은 “하이퍼클로바는 한국어를 쓰는 사람들의 행태를 반영하고 모방하기 때문에, 차별이나 혐오 발언을 (데이터에서) 원천 차단하긴 쉽지 않다. 그러나 모델이 학습을 통해서 편견이나 혐오를 확대하는 것은 바람직하지 않다. 이를 막기 위해 권장되는 답변에 대한 가능도(likelihood)는 올리고, 그렇지 않은 답변의 가능도는 내리는 방식을 연구하고 있다. 사실 어떤 답변을 ‘권장’하고 어떤 답변에 ‘페널티’를 주느냐가 아직 좀 그레이(회색) 영역이긴 하다”라고 말했다.

네이버와 카카오는 각각 차별을 ‘방지’하고 ‘경계’한다는 내용을 포함한 AI 윤리 규범을 두고 있다. 지난해 말 정부가 ‘인공지능 윤리 기준’을 만들기도 했다. 그러나 명백한 욕설이 아닌 은근한 차별을 막기란 쉽지 않다. 분명한 건 이 역시 기술로 대응할 여지가 있다는 점이다.

숭실대 소프트웨어학부에 재학 중인 양기창씨(현직 AI 개발자)는 혐오 표현을 분류해 가리는 언어 모델 ‘SoongsilBERT:BEEP!’를 개발했다. 한국어 혐오 발화 데이터셋(BEEP!)을 BERT의 변형인 페이스북의 RoBERTa에 학습시켰다. ‘나가 죽어라 왜 그 따구로 사냐’라는 표현을 입력하면, 모델은 확률을 이렇게 예측한다. ‘공격 발언:0.8240, 차별 발언:0.1692.’ 숭실대 커뮤니티 이용자가 ‘분란글 끄기’ 모드를 설정하면, 공격이나 차별 발언으로 분류된 글을 가려준다. 양기창씨는 “인공지능은 차별과 편향을 일으키기도 하지만, 막을 수도 있다. 개발자들이 해킹을 하지만 보안 프로그램도 만드는 것과 비슷하다. 욕설이 아니더라도 사람의 자존감을 갉아먹는 텍스트는 충분히 많다. 장기적으로는 개발자 개인이 얼마나 ‘정치적으로 올바른지’와 무관하게 (발언의 차별성을) 판단하는 알고리즘을 만들고 싶다”라고 말했다.

11월15일 ‘초거대 인공지능(AI)가 바꿀 인류의 미래’를 주제로 온라인 콘퍼런스가 열린다(참가비 무료).
2021 시사IN 인공지능 콘퍼런스 참가 신청하기 https://saic.sisain.co.kr

그가 보기에 한국의 인공지능 윤리 논의는 외국의 논쟁 수준에 한참 못 미친다. “알고리즘 공개 의무화 같은 법안들이 쏟아지고 있는데, 인공지능 윤리 학계에서 나오는 논문이나 가이드라인과는 괴리가 크다. 그냥 ‘알고리즘을 공개하라’고 할 게 아니라 사용한 알고리즘의 근거가 된 논문을 공개하라든지, 알고리즘의 윤리성을 평가할 수 있는 지표를 주고 일정 기준을 가이드라인으로 요구하는 게 더 현실적이지 않을까.” 고학수 서울대 법학전문대학원 교수도 “알고리즘을 둘러싼 동상이몽이 문제의 근원이다”라고 말했다. “알고리즘을 공개하라는 (시민사회 등의) 큰 틀의 요구와, ‘영업 비밀까지 다 공개하라는 거냐’는 기업의 반발 사이에서 진도가 안 나가고 있다. 사실 유럽의 GDPR(개인정보 보호 규정)도 무엇을 어디까지 공개하고 설명해야 하는지 해석이 분분하다. 현장에서 측정 가능하고 적용 가능한 기준을 만들 수 있도록, 규범을 만들려는 사람들이 기술을 아는 일선 개발자와 대화를 많이 해야 한다.”

유니스왑인가 [UNI]의 새로운 NFT 구성 요소를 곰 발톱에서 몰아낼 만큼 충분합니까?

유니스왑 [UNI] 자동화된 유동성 공급자는 별에 도달하는 것으로 보입니다. NFT 침입. 약 한 달 전에 인수했다고 발표했습니다. 요정 , NFT 마켓플레이스 애그리게이터. 이제 NFT 진출은 아무 소용이 없는 것 같습니다. 이는 전체 Sudoswap 통합과 함께 Uniswap 프로토콜에 대한 전체 NFT 통합을 발표했기 때문입니다.

이 업데이트는 Genie의 설립자이자 현재 Uniswap NFT 제품 책임자인 Scott Gray가 트윗한 후 공개되었습니다.

세부 사항에 대해 자세히 알아보기

Gray는 프로젝트에 대한 심층적인 세부 정보를 제공하지 않았지만 그가 공유한 스크린샷은 몇 가지 테스트 거래가 있었음을 공개했습니다. 또한 그의 트윗 아래에 있는 댓글은 투자자들이 NFT 탐구에 대해 흥분할 수 있음을 보여주었습니다. 분산된 NFT 플랫폼의 가능성이 흥분의 주요 원인이었습니다.

또한 UNI 거버넌스 토큰에 변경 사항이 있는지에 대한 질문이 떠돌고 있습니다. 보도 당시 확인이나 반박은 없었다. 그러나 UNI는 폭로 이후 예상치 못한 반응을 보이지 않았을 수도 있다.

동요되지 않은 UNI

이런 종류의 뉴스에 대한 가능한 반응은 상승일 것입니다. 그러나 UNI에서는 그런 일이 일어나지 않았습니다. 먼저 하향세를 보였다. 의 데이터에 따르면 코인마켓캡 , UNI는 7월 22일에 $7 아래로 $6.58까지 떨어졌습니다. 그러나 7월 23일 이른 시간에 다시 $7.17로 인상되었습니다. 이 글을 쓰는 시점에서 UNI 가격은 $7.02로 떨어졌습니다.

그렇다면 Uiniwap의 NFT 참여가 커뮤니티에서 가격 인상이나 가격 인상을 촉발하기에 충분하지 않다는 것을 의미합니까? 글쎄, 결론을 내리기에는 너무 빨리 들릴 수도 있다. 가격 외에 다른 지표가 주는 신호는 무엇입니까?

이전보다 3.96% 하락한 가격은 별다른 예고 없이 사라지지 않았습니다. Crypto Quant에 따르면 UNI의 24시간 거래량은 14.9% 감소했습니다. 그래도 현재 가격은 ATH(사상 최고가)에서 84.65% 떨어져 있습니다.

그러나 UNI에도 긍정적인 부분이 있습니다. 보도 당시 24시간 탈중앙화 거래소(DEX) 거래량이 19.65% 증가했습니다. 그 가치는 $4,647,730였습니다. 가격 하락에도 불구하고 Uniswap은 선도적인 DEX로서의 위치를 ​​유지합니다. 또한 6월 일별 발생 수수료 면에서도 이더리움을 추월한 뒤 자리를 잃지 않고 있다.

Uniswap이 NFT에 계속 손을 대고 있지만 NFT 시장은 회복되지 않았습니다. 그럼에도 불구하고, 또 다른 강세 시즌 전에 참여하는 계획은 Uniswap 계획이 될 수 있습니다. 그것이 곧 일어나든 그렇지 않든 투자자들은 기다리고 있을 것입니다.

BINANCE:BTCUSDT의 여름 BTC 움직임 시나리오(여름 랠리 종료?) – Technische Analyse – 2022-07-24 15:34:27

BTC 가격은 다시 테스트하기 위해 정기적으로 상승하는 것처럼 보였던 것에 대한 조기 징후를 보이기 시작했습니다. 쐐기 저항(노란색)이 자연 축적 패턴으로 위쪽으로 부서지기 때문에 쐐기 초기에는 이미 발달된 추세로 형성됨).

하지만 일이 예상대로 흘러가지 않았다.

첫 번째 위험 신호는 지지선을 다시 테스트할 때 가격이 지지대 근처에서 평소보다 더 오래 통합되기 시작했다는 것입니다. 지원 지역 그런 다음 동일한 지지선을 다시 테스트하기 위해 빠르게 하향으로 복귀하기 전에 가장 가까운 저항을 빠르게 쉬었습니다.
다시 말해, 통합이 비정상적인 시간 동안 갑자기 발생했습니다(범위 패턴 깨짐). 이 모든 것이 이상하게도 근처에 지원 지역 .

(구매자가 물지 않았기 때문에) 실패한 황소 함정처럼 보입니다. – 여러분의 생각을 알려주세요.

다음은 우리 모두가 몇 시간 전에 목격한 BIG DUMP(고장)입니다.

이 미니 크래시를 결론짓기 위해 내가 공유한 차트에서 볼 수 있듯이 이 단기 랠리를 깨뜨렸습니다. 랠리할 것인가? 그것은 철회하고 7월 13일 이전의 가격 수준으로 우리를 가져올 것입니까?

대체로 다음 날이 우리에게 확실히 알려줄 것입니다.

2개의 결정적인 매크로 요소는 다음과 같습니다.

1) 소매 감정/이 고장 또는 향후 고장에 대한 적응이 있을 경우.
2) 빅 뉴스 / 속보. 강세 또는 약세 .

나는 우리가 단기적으로 21.6K를 향해 다른 방향으로 후퇴할 것으로 예상합니다. 중기적으로 19K 저항을 다시 테스트합니다.

코멘트를 남겨주세요, 어떤 종류의 지원도 감사하겠습니다!

진심으로 🙂
———————-
면책 조항: 이것은 재정적 조언이 아닙니다.
이것들은 현재 시장에 대한 내 자신의 분석과 아이디어일 뿐입니다.

저는 전문적인 재정 고문이 아닙니다.
———————-

기술적 지표의 종류

강남구 역삼동에 위치한 크라우드웍스 사무실 전경 (사진=크라우드웍스)

📁관련 통계자료 다운로드크라우드웍스 데이터 라벨러 구성 #인공지능(AI) 발전과 함께 주목받는 것이 '데이터 라벨링'이다. 데이터 라벨링은 AI 지도학습에 필요한 자료를 수집·분류·가공하는 작업을 말한다. 텍스트, 사진, 그림, 음성 등 비정형 데이터를 AI가 인식할 수 있는 형태로 가공해 AI가 학습할 '교과서'를 만드는 일이다. '데이터 라벨러'는 데이터 라벨링 작업을 하는 사람이다. AI 기술 고도화를 위해 기술적 지표의 종류 학습에 필요한 데이터를 정교하고 정확하게 수집·가공하는 데이터 라벨러 역할이 매우 중요해졌다.

크라우드웍스는 AI 학습용 데이터 수집·가공 전문 플랫폼이다. 기업이 수집하거나 가공하고 싶은 데이터를 의뢰하면 크라우드웍스는 크라우드소싱 방식으로 등록된 데이터 라벨러에게 프로젝트를 공개하고, 데이터 라벨러는 자신이 참여하고 싶은 프로젝트를 골라 데이터 라벨링 작업을 수행한 후 대가를 받는다. AI를 활용한 디지털 전환의 핵심 거점 중 하나인 크라우드웍스를 찾았다.

◇잘 나가는 데이터 라벨러, 月 600만원 수입 올리기도

현재까지 크라우드웍스에 등록된 데이터 라벨러 수는 19만5000명이 넘는다. AI 산업 발전과 함께 데이터 라벨링이 주목받으면서 라벨러 수도 빠르게 늘고 있다. 현재까지 크라우드웍스가 진행한 프로젝트는 700건 이상, 이를 통해 6000만개 이상 데이터를 수집·가공했다.

'투잡'이 용이한 특성 덕분에 데이터 라벨러 중 직장인이 43.기술적 지표의 종류 8%로 가장 많은 비중을 차지한다. 전업주부 및 구직자(27.1%), 학생(17.3%), 기타(11.8%) 등이 뒤를 잇는다. 성별은 남성이 61%로 여성(39%)보다 많다. 연령은 20대(38%)와 30대(33%)가 가장 많고 40대는 16%, 50대 이상도 13%를 차지한다. 전체 데이터 라벨러 중 자격증 보유자는 33.2%를 차지한다. 특히 법률·의료 등 기술적 지표의 종류 전문 영역은 데이터 라벨링 보수도 더 높기 때문에 의사·변호사들도 투잡에 뛰어드는 경우가 많다.

크라우드웍스의 데이터 라벨러 구성

데이터 라벨러 수입은 전업인지 부업인지의 여부와 프로젝트별로 요구되는 품질, 라벨러 스펙, 작업물 난이도 등에 따라 천차만별이다. 예를 들어 고양이 사진에 이름표를 붙이는 작업과 흉부 엑스레이 이미지에서 질병을 진단하는 작업은 당연히 비용에서 차이가 있을 수밖에 없다.

크라우드웍스에 따르면 현재까지 누적 기준 가장 높은 수입을 올린 데이터 라벨러는 6000만원 이상 수익을 창출했다. 또 최근 한 달간 수입이 가장 많은 라벨러는 600만원가량 수익을 냈다.

크라우드웍스 플랫폼의 장점은 19만명에 달하는 인력을 크라우드소싱해 대량의 데이터를 빠른 속도로 가공·수집할 수 있다는 점이다. 하지만 프로젝트에 불특정 다수가 참여하기 때문에 품질 문제가 발생할 우려도 있다. 잘못된 데이터를 학습한 AI는 엉뚱한 추론을 내놓을 수밖에 없다. 작업자의 경력이나 능력이 제각각이고 프로젝트별로 데이터 종류도 상이하기 때문에 이를 체계적으로 관리하는 것이 중요한 과제다. 이런 문제를 크라우드웍스는 100% 전수 검수로 해결하고 있다. 이를 통해 데이터 품질 99%를 보증한다.

크라우드웍스는 데이터 라벨러 인력 양성을 위해 크라우드웍스 아카데미라는 교육 과정을 제공하고 있다. (사진=크라우드웍스)

◇라벨링된 데이터 어디에 쓰이나

자율주행차, 음성인식 AI, 텍스트 자동완성, 광학문자인식(OCR) 등 AI를 활용하는 제품과 서비스가 많아지면서 데이터 기술적 지표의 종류 수집·가공 수요 또한 급속도로 늘고 있다. 라벨링된 데이터는 AI 학습 외에도 각 산업 분야에서 서비스 개발 및 고도화, 자체 활용 등 다양한 목적으로 사용된다. 특히 최근에는 코로나19가 언택트 산업 발전을 가속화 시키면서 언택트 분야에서 AI 학습용 데이터 수요가 늘고 있다.

예를 들어 홈트레이닝, 온라인 댄스강의, 온라인 골프강의 등 비대면 강의에서 AI 튜터가 수강생의 허리, 무릎, 등 특정 신체 부위를 인식하고 어디서 잘못된 동작을 하고 있는지 분석을 하기 위해서 수백만개 디지털 스켈레톤 추출이 필요하다.

최근 진행된 '딥페이크 영상 수집 프로젝트'는 딥페이크 방지 기술을 개발하는데 활용된다. 참여자가 지문을 읽거나 질문에 대답하는 영상을 얼굴 위주로 촬영했다. 100초에 이르는 문장 열 개를 150차례 반복했다. 이렇게 수집된 영상은 합성 데이터를 탐지·검출하는 AI 기술 개발을 위한 학습용 데이터로 활용된다. 진짜 영상을 확보한 뒤 일부러 변조해 데이터 세트를 구성한다. 영상을 함께 AI에 입력하고 AI가 스스로 차이를 알아낼 수 있도록 학습, 훈련시키게 된다.

크라우드웍스 플랫폼에 게시된 프로젝트들을 살펴보면 최근 기업들이 관심을 가지고 있는 분야를 알 수 있다. 예를 들어 자유로운 대화를 수집하는 작업은 AI 스피커 개발에 활용될 수 있다. 대만어 이미지를 보고 텍스트를 전사하는 대만어 OCR처럼 특정한 외국어 스킬을 요구하는 프로젝트도 있다. 주어진 본문에서 글쓴이가 작성한 글의 의도와 핵심 문구를 입력하거나 생성된 요약문이 원문 요약으로 적합한지 판단하는 텍스트 관련 프로젝트도 다수다. 수술실 소견 음성 수집 같은 전문 분야 작업자가 필요한 프로젝트도 있다.

최근 데이터 라벨링 수요가 늘어나면서 전문 회사들도 많이 생겨나고 있다. 크라우드웍스는 많은 작업자 수와 시스템을 토대로 차별화하는 동시에 100개 이상 특허를 출원하며 기술적 진입장벽을 높이고 있다. 프로젝트가 시작해서 종료될 때까지, 회원이 가입할 때부터 데이터를 어떻게 분리할지, 작업자·검수자 배치 등 세분화된 분야에 모두 특허가 걸려있다.

크라우드웍스 관계자는 “19만여명 작업자 행동 데이터가 크라우드웍스 자산이자 경쟁력으로 플랫폼 자체는 카피할 수 있지만, 방대한 작업자의 행동데이터는 따라할 수 없다”면서 “이 데이터를 기반으로 작업자를 평가할 수 있는 평가 지표를 구축해 디지털 휴먼 리소스 플랫폼으로 거듭나는 것이 궁극적인 목표”라고 밝혔다.

크라우드웍스는 데이터 라벨러 인력 양성을 위해 '크라우드웍스 아카데미'라는 교육 과정을 운영한다. 아카데미는 이론 강의와 실습 훈련으로 구성된다. 동영상을 통해 기초 이론 수업을 진행하고 그 이후 실무에 필요한 바운딩·태깅 기본 실습과 퀴즈를 진행한다. 이론 수업과 퀴즈를 통과한 작업자만 라벨링 프로젝트에 참여할 수 있으며, 프로젝트에 따라 실습훈련 통과자들을 선별해 모집하기도 한다. 데이터 라벨링을 한 번도 해보지 않은 초급자를 위한 커리큘럼부터 프로젝트 관리자를 위한 고급 강좌까지 다양한 프로그램을 마련했다.

이론 강의와 실습 훈련 과정을 이수한 후 프로젝트가 모여 있는 페이지로 가서 본인이 하고 싶은 프로젝트를 선택, 가이드를 잘 숙지하고 작업에 참여하면 된다. 작업한 결과물은 검수자가 검수하는데 기준을 충족하지 못하면 반려된다. 검수가 통과되면 건당 포인트를 받을 수 있고 포인트가 일정액 이상 되면 현금화할 수 있다. 누적 프로젝트에 참여한 횟수가 많아지고 등급이 올라갈수록 참여할 수 있는 프로젝트도 많아지고 단가도 올라간다.

데이터 라벨링 작업은 크게 이미지 바운딩, 텍스트 태깅, 데이터 수집(영상, 이미지, 음성) 등 세 분류로 나뉜다. 대표적인 작업 중 하나인 이미지 바운딩이랑 전체 이미지에서 정해진 대상을 마우스로 드래그해서 영역을 지정해주는 작업이다. 텍스트 태깅은 제시된 지문을 읽고 질문의 답을 찾아 마우스로 드래그하는 프로젝트다.

한 데이터 라벨러가 크라우드웍스 플랫폼에서 이미지 바운딩 데이터 라벨링 작업을 하고 있다. (사진=크라우드웍스) 한 데이터 라벨러가 크라우드웍스 온라인 플랫폼에서 텍스트 태깅 데이터 라벨링 작업을 하고 있다. (사진=크라우드웍스)

라벨러로 시작해 경력과 전문성을 쌓고 전문 라벨러 혹은 중간 관리자가 되는 경우도 있다. 오랫동안 보장된 품질의 작업을 해온 라벨러는 검수자로 활동할 수 있는 기회가 주어진다. 작업자의 작업 데이터를 검수하는 역할을 한다. 일반적으로 작업자는 프로젝트당 작업 할당량이 존재해 1인당 참여 가능한 작업 시간이 정해져 있다. 반면에 검수자는 작업 완료된 전체 데이터에 대한 검수를 담당하기 때문에 작업자 대비 업무시간이 긴 편이다. 동일한 프로젝트를 기준으로 통상 시급은 검수자보다 작업자가 높은 편이지만 업무 가능 시간을 고려하면 전체 보수는 검수자가 높은 편이다.

데이터 라벨러는 이 직업의 장점으로 편한 시간에 원하는 장소에서 언제 어디서든 일할 수 있다는 점과 각자 관심 분야에 따라 원하는 일을 선택할 수 있다는 점을 꼽는다.

크라우드웍스에서 활동하는 한 데이터 라벨러는 “프로젝트 매니저 관리 아래 채팅방에서 마치 팀 프로젝트를 하듯 공동의 프로젝트 미션을 수행하며 성취감을 맛볼 수 있다는 것이 장점”이라면서 “앞으로 AI 시대에 이러한 데이터 구축 및 가공 업무가 더욱 중요해질 것으로 전망되고 내가 수집한 자료를 기반으로 AI 서비스가 탄생한다는데 자부심도 느낀다”고 말했다.

이미지에서 키포인트를 추출하는 데이터 라벨링 프로젝트 사례 (사진=크라우드웍스)

[인터뷰]이아영 매니저 “바리스타에서 데이터 라벨러로 '제2의 직업' 찾았죠”

이아영 크라우드웍스 프로젝트매니저 (사진=크라우드웍스)

“시간과 장소에 제약이 없어 업무 자유도가 굉장히 높다는 것 외에도 인공지능(AI) 산업 발전에 기여할 기술적 지표의 종류 수 있는 기회가 있다는 점도 의미 있는 부분입니다.”

이아영 크라우드웍스 매니저는 데이터 라벨링 아르바이트로 시작해 경력을 쌓아 프로젝트 매니저로 취업한 사례다.

그는 지난 2019년 말 카페에서 바리스타 일을 하다가 추가 수익을 낼 수 있는 '제2의 직업'을 찾게 됐다. 그러던 중 크라우드웍스 관련 블로그 글을 접하게 됐고 노트북만 있으면 언제 어디서든 가능하다는 말에 가입하면서 데이터 라벨러 아르바이트를 시작하게 됐다.

데이터 라벨링에 대한 지식이 전혀 없었지만 당시 오프라인 교육을 통해 바운딩, 키포인트 추출, 텍스트 요약 등에 대해 배울 수 있었다. 이후 시간이 날 때마다 플랫폼에서 원하는 프로젝트를 찾아 작업을 시작하게 됐다.

지난해 3월에는 단기 음성챗봇 프로젝트와 콜센터 전사 작업 프로젝트에 참여했다. 이후 오랜 라벨링 경험으로 지난해 8월 '검수자' 자격을 획득했고 10월 직접 고용 형태로 전환돼 현재 크라우드웍스에서 프로젝트 운영과 라벨러 관리 업무를 지원하고 있다.

이아영 매니저는 “데이터 라벨러의 가장 큰 장점은 언제 어디서든 휴대폰이나 PC만 있으면 일할 수 있다는 점”이라며 “시간과 장소가 정해져있는 다른 아르바이트에 비해 자유도가 굉장히 높기 때문에 나이와 본업에 관계없이 누구나 도전할 수 있다”고 설명했다.


0 개 댓글

답장을 남겨주세요