본문으로 건너뛰기
피드

마이크로소프트, 오픈소스 AI 데이터 분석 플랫폼 Data Formulator 0.7 공개

open-source 약 6분
vote
0
댓글
북마크

마이크로소프트 리서치가 분산된 기업 데이터를 연결하고 분석·시각화하는 오픈소스 플랫폼 Data Formulator 0.7을 공개했어. 데이터 커넥터, 컨텍스트 기반 AI 에이전트, 데이터 스레드, 인터랙티브 캔버스를 통해 분석 워크플로우를 한 화면 안으로 묶는 게 핵심이야.

  • 1

    Data Formulator 0.7은 데이터 연결, 분석, 시각화, 협업을 하나의 환경에서 처리하도록 설계됨

  • 2

    AI 에이전트는 연결된 데이터 소스, 테이블, 이전 차트, 사용자 목표까지 맥락으로 활용함

  • 3

    생성 결과는 코드 기반으로 검증할 수 있어 재현성과 신뢰성을 확보하는 방향을 제시함

  • 마이크로소프트 리서치가 Data Formulator 0.7을 오픈소스로 공개함

    • 기업 환경에서 흩어진 데이터를 연결하고 분석하고 시각화하는 AI 데이터 분석 플랫폼임
    • 데이터 연결, 분석, 시각화, 협업을 하나의 환경에서 처리하는 쪽에 초점이 있음
    • 기업과 개발자가 자체 데이터 분석 환경에 맞게 확장할 수 있도록 오픈소스로 공개됨
  • 이 제품이 겨냥하는 문제는 “AI로 분석하고 싶은데 데이터 준비가 너무 힘듦”임

    • 기업 데이터는 데이터베이스, 데이터 웨어하우스, BI 도구, 오브젝트 스토리지, 로컬 파일에 흩어져 있음
    • 분석 전에 연결, 메타데이터 관리, 권한 설정, 데이터 변환을 처리해야 해서 시간이 많이 듦
    • Data Formulator 0.7은 이 과정을 AI 친화적인 분석 환경으로 묶겠다는 접근임

ℹ️참고

> 여기서 포인트는 차트 자동 생성 하나가 아님. 데이터 연결부터 분석 맥락 유지, 코드 기반 검증까지 묶어서 “업무용 분석 흐름”을 만들려는 쪽에 가까움.

  • 핵심 기능 중 하나는 Data Connectors

    • 데이터베이스, 데이터 웨어하우스, BI 플랫폼, 클라우드 스토리지, 로컬 파일과의 지속적인 연결을 지원함
    • 인증, 메타데이터 관리, 데이터 미리보기 기능을 제공함
    • 사용자가 매번 파일을 업로드하거나 연결 작업을 반복하는 부담을 줄이는 게 목적임
  • 또 다른 핵심은 컨텍스트 기반 AI 에이전트임

    • 일반 생성형 AI처럼 단일 프롬프트만 보고 답하는 방식이 아님
    • 연결된 데이터 소스, 테이블, 이전에 생성된 차트, 사용자 목표까지 전체 분석 맥락으로 활용함
    • 요청이 모호하면 추가 질문으로 의도를 파악한 뒤 분석을 이어감
  • AI 에이전트가 하는 일은 꽤 넓음

    • 데이터를 탐색하고 코드를 생성·실행함
    • 시각화 차트를 만들고 결과를 설명함
    • 데이터 변환, 새로운 지표 계산, 후속 분석 제안까지 수행함
    • 생성된 결과는 코드 기반으로 검증할 수 있어 재현성과 신뢰성을 확보할 수 있음
sequenceDiagram
    participant 사용자
    participant 데이터커넥터
    participant AI에이전트
    participant 코드실행환경
    participant 캔버스
    사용자->>데이터커넥터: 데이터 소스 연결
    데이터커넥터->>AI에이전트: 메타데이터와 미리보기 전달
    사용자->>AI에이전트: 분석 목표 입력
    AI에이전트->>코드실행환경: 변환과 분석 코드 실행
    코드실행환경->>캔버스: 결과와 차트 반환
    사용자->>캔버스: 차트 레이아웃과 라벨 수정
  • 사용자 경험은 Data Thread와 인터랙티브 캔버스를 중심으로 설계됨

    • Data Thread는 질문과 답변, 차트, 중간 결과를 모두 기록함
    • 장시간 진행되는 분석 프로젝트에서도 맥락을 유지할 수 있게 해줌
    • 이전 분석 단계를 다시 확인하거나 새로운 방향으로 확장할 수 있음
  • 인터랙티브 캔버스는 결과물을 자연어로 다듬는 작업 공간임

    • 차트의 레이아웃, 색상, 라벨, 주석을 자연어 명령으로 수정할 수 있음
    • 데이터, 코드, 시각화 결과를 동시에 확인하면서 분석 결과를 발전시킬 수 있음
    • 분석가와 현업 사용자가 같은 흐름에서 결과를 조정하는 그림에 가까움

기술 맥락

  • 기업 데이터 분석에서 병목은 모델 성능보다 데이터 접근인 경우가 많아요. 데이터가 웨어하우스, BI, 로컬 파일, 오브젝트 스토리지에 흩어져 있으면 분석을 시작하기 전에 연결과 권한, 스키마 확인부터 해야 하거든요.

  • Data Connectors가 중요한 이유는 이 반복 작업을 줄이기 때문이에요. 매번 CSV를 올리는 방식은 빠른 실험에는 편하지만, 팀 단위로 오래 쓰는 분석 환경에서는 메타데이터와 인증이 계속 발목을 잡아요.

  • 컨텍스트 기반 AI 에이전트는 단순 챗봇과 역할이 달라요. 이전 차트와 테이블, 사용자의 분석 목표를 기억해야 “방금 만든 지표를 기준으로 지역별 추이를 다시 봐줘” 같은 요청을 자연스럽게 처리할 수 있어요.

  • 코드 기반 검증을 강조한 것도 실무적으로 꽤 중요해요. AI가 만든 차트가 보기 좋아도 계산 과정이 재현되지 않으면 보고서나 의사결정에 쓰기 어렵거든요.

  • Data Thread와 캔버스는 분석을 대화 한 번으로 끝나는 작업이 아니라 이어지는 프로젝트로 본다는 신호예요. 분석 과정이 기록되면 나중에 왜 이런 차트가 나왔는지 되짚을 수 있고, 팀원이 이어받기도 쉬워져요.

기업 데이터 분석에서 제일 귀찮은 건 모델이 아니라 데이터 연결, 권한, 변환, 맥락 유지야. Data Formulator 0.7은 AI가 차트 하나 그려주는 수준을 넘어서 분석 프로젝트의 흐름 자체를 잡아주려는 시도에 가까워.

댓글

댓글

댓글을 불러오는 중...

open-source

허깅페이스, 375만원대 오픈소스 휴머노이드 플랫폼 공개

허깅페이스가 약 2,500달러, 한화 약 375만원으로 직접 제작할 수 있는 오픈소스 2족보행 휴머노이드 플랫폼 르로봇 휴머노이드를 공개했다. 단순 로봇 모델이 아니라 하드웨어, 조립 문서, 런타임, 시뮬레이션, 데이터 수집, 정책 훈련, 실물 제어까지 포함한 풀스택 플랫폼이라는 점이 핵심이다.

open-source

한국 이더리움 생태계가 ‘보이지 않는 기여자’를 무대로 올리려는 이유

한국에도 이더리움 프로토콜, 합의, 거버넌스, MEV 같은 깊은 영역을 연구하는 기여자가 있지만 글로벌 커뮤니티에 잘 보이지 않는다는 문제를 짚은 글이다. 이더리움 컨소시엄은 6월부터 2~3팀 또는 개인을 뽑아 해외 컨퍼런스, 데브콘, 국내외 네트워크 연결을 지원하는 펠로우십 실험을 시작하려 한다.

open-source

이더리움은 왜 오픈소스를 넘어 공공재 펀딩을 실험했나

이 글은 하트블리드 이후 오픈소스 펀딩의 역사를 짚고, 이더리움 생태계가 이를 공공재 펀딩으로 확장한 과정을 설명한다. 깃코인의 쿼드라틱 펀딩, 옵티미즘의 레트로PGF, 프로토콜 길드, 펠로우십 모델까지 각각의 장점과 한계를 비교한다.

open-source

헬리컬 인사이트 6.2.1, BI 보고서 처리 성능 최대 90% 개선

오픈소스 BI 플랫폼 헬리컬 인사이트가 6.2.1 버전에서 스트리밍 응답과 스트림 캐시 구조를 적용해 대용량 정형 보고서 처리 성능을 높였다고 밝혔다. 회사는 다중 페이지 보고서 성능 85~90%, 셀프서비스 대시보드 렌더링 50% 개선을 주장한다.

open-source

Paint.NET, 22년 만에 드디어 paint.net 도메인을 손에 넣다

무료 이미지 편집 도구 Paint.NET이 2004년 출시 이후 22년 만에 paint.net 도메인을 확보했다. 기존 도메인 소유자가 Paint.NET 공식 사이트처럼 보이는 콘텐츠와 광고 링크를 올리면서 상표권 침해와 도메인 점유 문제가 명확해졌고, 제작자 릭 브루스터가 법적 대응 끝에 도메인을 가져왔다.