IT최신정보

[IT최신정보] Devin, 첫번째 인공지능 개발자(Devin, the first AI software engineer)

산삼인생 2024. 3. 26. 01:28
728x90

Adobe Stock

목차

     

     

     

    0. 개요

    드디어 나왔나요?

    Devin, 첫번째 인공지능 개발자(Devin, the first AI software engineer)

     

    AI 코딩 도구로 우리가 가장 많이 알고 있는 현재 서비스는 다음과 같습니다.

    OpenAI ChatGPT

    Microsoft GitHub Copilot (AI Pair Programmer)

    Meta Code-llama (오픈소스 코드 생성 AI 모델)

     

    지금까지의 서비스의 한계가 있었습니다.

    간단한 예제, 특정 기능 구현에서는 탁월한 코드를 생성하고 있었지만

    AI 코딩 도구로서의 한계를 벗어나지는 못했습니다.

    AI 코딩 도구라고 하면 도구를 사용할 수 있는 개발자가 있어야 했습니다.

     

    하지만 Devin은 그 한계를 뛰어넘는 

    세계 최초 완전 자율 AI 소프트웨어 엔지니어 입니다.

    한 사람의 개발자로서 업무를 독립적으로 수행할 수 있는 수준을 목표로 하고 있습니다.

     

    1. Devin의 능력은?

    장기적인 추론과 계획의 발전으로 Devin은 수천 가지 결정이 필요한 복잡한 엔지니어링 작업을 계획하고 실행할 수 있습니다.

    Devin은 모든 단계에서 관련 컨텍스트를 기억하고, 시간이 지남에 따라 학습하고, 실수를 수정할 수 있습니다.

    또한 Devin에는 샌드박스 컴퓨팅 환경 내의 셸, 코드 편집기, 브라우저 등 인간이 작업을 수행하는 데 필요한 모든 일반적인 개발자 도구가 포함되어 있습니다.

    마지막으로 우리는 Devin에게 사용자와 적극적으로 협력할 수 있는 기능을 제공했습니다. 

    Devin은 진행 상황을 실시간으로 보고하고 피드백을 수용하며 필요에 따라 디자인 선택을 통해 귀하와 협력합니다. 

     

    Devin이 할 수 있는 작업 샘플

    Devin은 익숙하지 않은 기술을 사용하는 방법을 배울 수 있습니다.
    블로그 게시물을 읽은 후 Devin은 Modal에서 ControlNet을 실행하여 Sara를 위한 숨겨진 메시지가 포함된 이미지를 생성합니다.

     

    Devin은 앱을 엔드 투 엔드로 구축하고 배포할 수 있습니다.
    Devin은 인생 게임을 시뮬레이션하는 대화형 웹사이트를 만듭니다! 사용자가 요청한 기능을 점진적으로 추가한 다음 앱을 Netlify에 배포합니다.

     

    Devin은 코드베이스에서 버그를 자율적으로 찾아 수정할 수 있습니다.
    Devin은 Andrew가 자신의 오픈 소스 경쟁 프로그래밍 책을 유지 관리하고 디버깅하도록 돕습니다.

     

    Devin은 자체 AI 모델을 훈련하고 미세 조정할 수 있습니다.
    Devin은
     GitHub의 연구 저장소에 대한 링크만 제공하여 대규모 언어 모델에 대한 미세 조정을 설정합니다.

     

    Devin은 오픈 소스 저장소에서 버그와 기능 요청을 해결할 수 있습니다. GitHub 문제에 대한 링크만 주어지면 Devin은 필요한 모든 설정과 컨텍스트 수집을 수행합니다.

     

    Devin은 성숙한 프로덕션 저장소에 기여할 수 있습니다. 
    예는 SWE 벤치마크의 일부입니다. Devin은 Sympy Python 대수 시스템의 로그 계산으로 버그를 해결합니다. Devin은 코드 환경을 설정하고, 버그를 재현하고, 자체적으로 수정 사항을 코딩하고 테스트합니다.

     

    우리는 Upwork에서 Devin에게 실제 일자리를 제공하려고 시도했는데 그것도 가능했습니다!
    ‍ 여기에서
     Devin은 컴퓨터 비전 모델을 실행하기 위한 코드를 작성하고 디버그합니다. Devin은 결과 데이터를 샘플링하고 마지막에 보고서를 작성합니다.

     

    2. Devin 성능은?

    Django 및 scikit-learn과 같은 오픈 소스 프로젝트에서 발견된 실제 GitHub 문제를 해결하도록 요청하는 까다로운 벤치마크인 SWE-bench 에서 Devin을 평가 했다고 합니다.

     

     

    SWE-bench

    Leaderboard (Lite) SWE-bench Lite is a subset of SWE-bench that's been curated to make evaluation less costly and more accessible. If you'd like to learn more, please read our blog post. Unassisted Assisted *GPT-4 is evaluated on a random 27% subset of the

    www.swebench.com

     

    Devin은 문제의 13.86%*를 처음부터 끝까지 정확하게 해결했으며,

    이는 이전의 최신 기술인 1.96%를 훨씬 초과합니다. 

    편집할 정확한 파일이 제공되더라도 최고의 이전 모델은 문제의 4.80%만 해결할 수 있습니다.

    *Devin은 데이터세트의 무작위 25% 하위 집합을 대상으로 평가되었습니다. Devin은 도움을 받지 않은 반면, 다른 모든 모델은 도움을 받았습니다. 즉, 어떤 파일을 편집해야 하는지 모델이 정확히 알려주었음을 의미합니다.

     

    3. 마무리

    현재는 2,100만 달러 규모의 시리즈 A를 모금했다고 홈페이지에서 확인할 수 있습니다.

     

    테스트 단계이며, 사용하기 위해서는 대기자 명단에 신청을 해야 합니다.

     

    대기자 명단 신청

    https://www.cognition-labs.com/

     

    Cognition

     

    www.cognition-labs.com

    devin 대기자 명단 등록 - 1

     

    devin 대기자 명단 등록 - 2

    작성완료후에 '제출' 버튼을 클릭하면 완료입니다.

     

     

    정식 홈페이지

    https://www.cognition-labs.com/

     

    Cognition

     

    www.cognition-labs.com

     

    개발자들이 우려하는 일이 이렇게 빨리 현실이 되고 있다니

    인공지능 기술의 속도는 상상을 초월하고 있습니다.