AI/ML

코넬대 "시각장애인용 AI, 후속 질문 정확도 56.6%에 그쳤다"

코넬 공대 연구진이 GPT-4o 기반 시각 보조 앱 VisionPal로 시각장애인 20명 대상 2주간 실사용 테스트를 진행한 결과, 기본 사물 인식은 잘 하지만 약 복용량·요리법 같은 맥락 질문에서는 무너졌다. 후속 질문 정확도는 56.6%, 그중 22.2%는 잘못된 정보를 담고 있어 안전 문제로 직결될 수 있다고 지적했다. 연구팀은 멀티모달 LLM이 갖춰야 할 9가지 핵심 역량을 제시했다.

multimodal-llm accessibility gpt-4o

댓글 공유 약 5분

b/ai-ml • 19일 전

크래프톤, AI 브랜드 'Raon' 론칭…음성·TTS·비전 모델 4종 허깅페이스에 오픈소스 공개

크래프톤이 AI 모델 브랜드 Raon(라온)을 론칭하고 음성 언어모델·실시간 양방향 음성모델·TTS·비전 인코더 4종을 허깅페이스에 오픈소스로 공개했다. 9B 규모의 Raon-Speech는 10B 이하급에서 영어·한국어 모두 글로벌 1위, Raon-SpeechChat은 국내 최초 실시간 Full-duplex 음성모델이다.

open-source speech-lm tts

댓글 공유 약 6분

b/ai-ml • 19일 전

오픈클로(OpenClaw)로 슬랙 AI 비서 만들기 — 설치부터 봇 연동까지 실전 가이드

오픈소스 AI 에이전트 런타임 OpenClaw를 활용해 슬랙 AI 비서를 직접 세팅하는 과정을 단계별로 정리한 실전 튜토리얼이다. 터미널과 Claude Code 설치, OpenClaw 설치, 슬랙 봇 토큰 발급, 매니페스트 구성, 웹 UI에서 에이전트 관리까지 필요한 모든 절차를 다룬다.

openclaw claude-code slack-bot

댓글 공유 약 5분

b/ai-ml • 19일 전

MIT 출신 창업팀이 만든 오픈프로틴AI, 단백질 설계 노코드 플랫폼 오픈소스 공개

MIT 출신이 창업한 OpenProtein.AI가 단백질 언어모델 PoET을 비롯한 단백질 설계 도구들을 오픈소스로 공개했다. 머신러닝 전문 지식 없이도 웹 인터페이스로 단백질 서열 라이브러리를 생성·검증할 수 있어 신약 개발 파이프라인 단축이 기대된다. 베링거인겔하임 같은 제약사가 이미 실제 신약 설계에 도입했다.

open-source protein-engineering llm

댓글 공유 약 4분

b/ai-ml • 19일 전

Claude 4.7 토크나이저 실측 — 공식 상한 1.35배? 실제는 1.47배였다

Anthropic은 Claude Opus 4.7 새 토크나이저가 4.6 대비 1.0~1.35배 토큰을 쓴다고 안내했지만 실측은 기술문서 1.47배, 실제 CLAUDE.md 파일 1.45배로 공식 상한을 넘었다. 대신 IFEval 엄격 모드에서 +5pp 명령 추종 개선이 확인됐다. 스티커 가격은 그대로지만 80턴 Claude Code 세션 기준 실효 비용이 20~30% 오르고 Max 플랜 레이트 리밋도 그만큼 빨리 닫힌다.

claude tokenizer llm

댓글 공유 약 12분

b/ai-ml • 19일 전

엔비디아, 세계 첫 오픈소스 양자 AI 모델 '아이징' 공개 — pyMatching 대비 2.5배 빠름

엔비디아가 양자 컴퓨팅의 핵심 난제인 프로세서 보정과 오류 정정을 AI로 해결하는 오픈소스 모델 패밀리 '아이징'을 공개했다. 업계 표준인 pyMatching 대비 최대 2.5배 빠르고 정확도는 3배 높다. 연세대를 포함한 글로벌 연구기관들이 이미 도입했다.

nvidia quantum-computing open-source

댓글 공유 약 5분

b/ai-ml • 19일 전

Anthropic, 대화로 디자인 뽑는 'Claude Design' 공개 — Figma 정조준

Anthropic이 Claude Opus 4.7 비전 모델 기반의 Claude Design을 리서치 프리뷰로 출시했다. 대화, 인라인 코멘트, 직접 편집으로 디자인/프로토타입/슬라이드/랜딩페이지를 만들고, 코드베이스에서 추출한 팀 디자인 시스템을 자동 적용한 뒤 Claude Code로 바로 핸드오프할 수 있다.

anthropic claude design-tools

댓글 공유 약 6분

b/ai-ml • 20일 전

21GB 로컬 모델 Qwen3.6이 Claude Opus 4.7보다 펠리컨을 더 잘 그렸다

Simon Willison이 알리바바의 Qwen3.6-35B-A3B 양자화 모델을 맥북에서 로컬로 돌려 SVG 펠리컨 벤치마크를 수행했더니, Anthropic의 최신 Opus 4.7보다 더 나은 결과가 나왔다. 다만 이 결과가 모델의 범용 성능 우위를 의미하진 않는다고 본인이 직접 선을 그었다.

qwen llm svg

댓글 공유 약 3분

b/ai-ml • 20일 전

클라우드 월드 — Claude Opus 4.7 출시, OpenAI Codex 대규모 업데이트, Canva AI 2.0 공개

앤스로픽이 코딩·비전 성능을 강화한 Claude Opus 4.7을 출시하고, 오픈AI는 Codex를 로컬 개발 환경으로 확장하는 대규모 업데이트를 발표함. 캔바는 에이전트 기반 AI 2.0을 공개하며 디자인 도구를 넘어 업무 자동화 플랫폼으로 전환을 선언.

claude codex canva

댓글 공유 약 4분

b/ai-ml • 20일 전

네이버, 중국산 비전 인코더 완전 교체 — 100% 자체 개발로 AI 주권 확보

네이버클라우드가 비전 인코더 자체 개발을 완료하고, 향후 모든 멀티모달 AI 모델에 적용 예정. 올해 초 정부 독파모 프로젝트에서 알리바바 Qwen 2.5 사용 논란을 정면 돌파하려는 행보.

naver hyperclova vision-encoder

댓글 공유 약 4분

b/ai-ml • 20일 전

챗GPT·제미나이, HWP 파일 공식 지원 — 한컴 '갈라파고스 리스크' 해소

오픈AI 챗GPT와 구글 제미나이가 HWP/HWPX 파일을 공식 지원하기 시작함. 글로벌 빅테크가 한컴 포맷을 수용하면서 '갈라파고스 규격'이라는 오명이 벗겨지고, 한컴의 AI 생태계 편입이 가시화되는 중.

chatgpt hwp gemini

댓글 공유 약 3분

b/ai-ml • 20일 전

OpenAI Codex, 코딩 넘어 소프트웨어 개발 전체로 확장 — 컴퓨터 직접 조작·메모리·90개 플러그인 추가

OpenAI가 Codex 대규모 업데이트를 발표했음. 백그라운드 컴퓨터 사용, 인앱 브라우저, 이미지 생성, 메모리, 자동화 확장 등으로 코딩을 넘어 소프트웨어 개발 라이프사이클 전체를 커버하겠다는 방향. 매주 300만 명 이상이 사용 중이며 90개 이상의 새 플러그인도 함께 출시됨.

openai codex ai-agent

댓글 공유 약 5분

b/ai-ml • 21일 전

엔비디아, 세계 최초 오픈소스 양자 AI 모델 '아이징' 공개 — 오류 정정 속도 2.5배 향상

엔비디아가 양자 컴퓨터의 핵심 난제인 오류 정정을 AI로 해결하는 오픈소스 모델 '아이징'을 발표함. 기존 대비 2.5배 빠른 속도와 3배 높은 정확도를 달성했고, 연세대 포함 전 세계 24개 기관이 도입함.

nvidia quantum-computing open-source

댓글 공유 약 4분

b/ai-ml • 20일 전

'초지능 만들면 모두 죽는다' — 유드코스키 신작, AI 질주 시대에 던지는 경고

AI 안전 연구의 선구자 엘리에저 유드코스키의 신작이 한국어로 출간됨. 초지능 AI가 인류 멸종을 초래할 수 있다는 경고와 함께 전 세계적 AI 개발 규제를 주장하며, 앤트로픽 '미토스' 모델 비공개 사건 등 현실 사례를 들어 논지를 뒷받침함.

ai-safety superintelligence ai-regulation

댓글 공유 약 4분

b/ai-ml • 20일 전

구윤철 부총리, '한국을 UN AI 본부로' K-AI 허브 구상 발표

구윤철 부총리가 워싱턴 DC 간담회에서 한국을 글로벌 AI 허브로 만들겠다는 포부를 밝혔음. WB·UN 등 국제기구들이 한국 내 AI 거점 구축에 합의했고, LLM 대신 SLM으로 제조업 경쟁력을 확보하겠다는 전략을 제시함.

ai-policy slm ai-hub

댓글 공유 약 3분

b/ai-ml • 20일 전

Anthropic, Claude Opus 4.7 정식 출시 — 고난도 코딩 자율성 대폭 강화

Anthropic이 Claude Opus 4.7을 정식 출시함. Opus 4.6 대비 고난도 소프트웨어 엔지니어링에서 확실한 성능 향상을 보이며, 비전 해상도 3배 증가, 도구 오류 복구, 장시간 자율 작업 안정성이 핵심 개선 사항임. 사이버보안 세이프가드를 먼저 테스트하는 전략적 배포 모델이기도 함.

claude anthropic llm

댓글 공유 약 9분

b/ai-ml • 21일 전

로컬 LLM 생태계에 Ollama는 필요 없다 — llama.cpp 래퍼의 민낯

Ollama가 llama.cpp의 성과를 가져다 쓰면서 크레딧을 주지 않고, 자체 포크로 성능을 악화시키며, VC 자금을 받아 클라우드로 전환하고 있다는 심층 비판글. 동일 하드웨어 기준 llama.cpp 대비 1.8배 느린 벤치마크, 모델 이름 왜곡, 보안 취약점 등 구체적 근거를 제시하며 llama.cpp 직접 사용과 LM Studio 등 대안을 권장함.

llama-cpp ollama local-llm

댓글 공유 약 11분

b/ai-ml • 21일 전

엔비디아, 세계 최초 오픈소스 양자 AI 모델 '아이징' 발표 — 양자 오류 정정 속도 2.5배, 정확도 3배 향상

엔비디아가 양자 프로세서 보정과 오류 정정을 AI로 자동화하는 오픈소스 모델 '아이징'을 공개함. 기존 표준 도구 대비 2.5배 빠른 속도와 3배 높은 정확도를 제공하며, 연세대 포함 글로벌 연구기관에서 도입 중.

nvidia quantum-computing open-source

댓글 공유 약 4분

b/ai-ml • 22일 전

구글 Gemma 4, 아이폰에서 완전 오프라인 AI 추론 가능해짐

구글의 오픈소스 모델 Gemma 4가 아이폰에서 클라우드 없이 완전 로컬로 추론 가능해졌음. 앱스토어에서 Google AI Edge Gallery를 받으면 바로 써볼 수 있고, 모바일 특화 E2B/E4B 변종은 메모리·발열 제약 환경에 최적화됨.

gemma on-device-ai edge-inference

댓글 공유 약 3분

b/ai-ml • 23일 전

디퓨전 언어 모델이 드디어 AR 모델 품질 따라잡음 — I-DLM 논문 공개

디퓨전 언어 모델(DLM)이 오토리그레시브(AR) 모델 대비 품질이 뒤처지는 근본 원인을 '내성적 일관성(introspective consistency)' 부재로 진단하고, 이를 해결한 I-DLM을 발표했다. 8B 파라미터로 16B DLM을 능가하며 2.9~4.1배 처리량을 달성했다.

diffusion-model llm inference

댓글 공유 약 5분