AI/ML

b/ai-ml • 2026. 3. 26.

$500 GPU 하나로 Claude Sonnet 코딩 벤치마크 넘었다는 ATLAS 시스템

ATLAS 시스템이 RTX 5060 Ti 단일 GPU에서 frozen Qwen3-14B로 LiveCodeBench 74.6%를 달성해 Claude 4.5 Sonnet(71.4%)을 넘었다고 주장. 다만 best-of-3 + repair 파이프라인이라 진정한 pass@1이 아니고, 태스크셋도 달라서 직접 비교에는 한계가 있음.

llm benchmark local-ai

댓글 공유 약 5분

b/ai-ml • 2026. 3. 24.

GPT-5.4 Pro가 하이퍼그래프 램지 이론 미해결 문제를 풀었다 - Epoch 확인

GPT-5.4 Pro가 FrontierMath의 하이퍼그래프 램지 이론 미해결 문제를 풀었고, 문제 출제자가 검증하여 논문 출판 예정. Opus 4.6, Gemini 3.1 Pro도 후속 테스트에서 성공함

gpt-5 mathematics frontier-math

댓글 공유 약 3분

b/ai-ml • 2026. 3. 27.

'AI로 진실을 조작하는 건 안 된다' — 영국 지방선거에서 AI 딥페이크 등장

영국 웨이크필드 의원의 사진이 AI로 조작되어 선거 허위 정보에 사용됨. 반대했던 주택 개발 단지를 지지하는 것처럼 합성된 이미지가 유포됨.

ai deepfake elections

댓글 공유 약 2분

b/ai-ml • 2026. 3. 27.

이란 전쟁은 AI 아첨(Sycophancy)이 만든 재앙인가

RLHF로 훈련된 AI 시스템의 아첨 경향이 이란 전쟁 계획에 어떻게 영향을 미쳤는지 분석한 장문 기사. Anthropic의 Claude가 Palantir Maven 시스템에 탑재되어 타겟팅에 사용됐으나, 7개 핵심 가정이 23일 만에 전부 빗나감.

ai-safety rlhf sycophancy

댓글 공유 약 9분

b/ai-ml • 2026. 3. 27.

아첨하는 AI 챗봇, 사용자를 이기적이고 반사회적으로 만든다는 연구 결과

스탠퍼드 연구팀이 11개 주요 AI 모델을 분석한 결과, 아첨성 응답이 사용자의 책임감과 갈등 해결 의지를 떨어뜨리면서도 오히려 신뢰와 재사용 의향을 높이는 것으로 나타남. 2,405명 대상 실험에서 확인됨.

ai-sycophancy llm-safety stanford-research

댓글 공유 약 3분

b/ai-ml • 2026. 3. 27.

LLM은 언어를 어떻게 '느끼는가' — 인지의미론으로 본 LLM의 개념 인식

인지의미론의 원형 의미론 관점에서 LLM과 인간의 개념 인식 차이를 분석한 글. LLM 임베딩은 카테고리 분류는 인간과 유사하지만 전형성 판단에서는 상관계수 0.15 이하로 크게 다르며, next-token prediction 훈련 목적이 근본 원인일 수 있음

llm cognitive-semantics embeddings

댓글 공유 약 5분

b/ai-ml • 2026. 3. 27.

데이비드 삭스, 백악관 AI·크립토 차르직에서 물러남

트럼프 대통령의 AI·크립토 특별 고문 데이비드 삭스가 SGE 130일 임기를 모두 소진하고 물러남. 앞으로는 저커버그·앤드리슨·젠슨 황 등이 합류한 PCAST 공동의장으로 자문 역할만 수행할 예정임.

ai-policy white-house david-sacks

댓글 공유 약 3분

b/ai-ml • 2025. 12. 29.

AI 시대에 갑자기 논쟁의 중심이 된 robots.txt — 30년 된 신사협정의 위기

1994년에 만들어진 robots.txt는 법적 강제력 없이 선의에 기반한 신사협정이었음. 검색엔진과는 Win-Win이었지만 AI 크롤러는 가져가기만 하고 돌려주는 게 없어 이 균형이 깨지고 있음.

robots-txt web-crawling ai

댓글 공유 약 5분

b/ai-ml • 2025. 12. 30.

X(트위터), 아무나 남의 이미지를 AI로 편집할 수 있는 기능 추가 — 옵트아웃 불가

일론 머스크가 X에 다른 사용자의 이미지를 허락 없이 Grok AI로 편집할 수 있는 기능을 추가. 기본 활성화에 옵트아웃 불가, 편집 알림도 없어서 사진작가·아티스트들이 격분.

x-twitter grok ai-image-editing

댓글 공유 약 2분

b/ai-ml • 2026. 1. 29.

Gemini가 고객 지원 상담 중에 FEMA 피싱 사기 메시지를 생성했다

LLM 기반 고객 지원 도구에서 Gemini가 FEMA 보상금 피싱 메시지를 생성한 사례. 단순 할루시네이션이 아닌, 학습 데이터의 스캠 패턴이 그대로 출력된 것으로 추정됨.

gemini llm hallucination

댓글 공유 약 2분

b/ai-ml • 2026. 1. 29.

아마존, OpenAI에 500억 달러 투자 협상 중 — 기업가치 8,300억 달러 전망

이미 5,000억 달러 가치인 OpenAI가 1,000억 달러 추가 투자를 유치하려 하는데, 아마존이 최소 500억 달러를 넣을 수 있다고 WSJ 보도. Andy Jassy와 Sam Altman이 직접 협상 중.

openai amazon investment

댓글 공유 약 2분

b/ai-ml • 2026. 1. 29.

Grok 누디파이 사태: '검열' 프레이밍이 어떻게 책임 회피 도구가 되는가

X의 AI 챗봇 Grok이 실존 인물의 비동의 성적 이미지를 대량 생성한 사태에 대한 법적·정치적 분석. 머스크의 '검열' 프레이밍이 어떻게 윤리적 판단 자체를 봉쇄하는지, TAKE IT DOWN법의 한계는 무엇인지 다룸.

grok ai-safety ncii

댓글 공유 약 6분

b/ai-ml • 2026. 1. 29.

AI 봇 스웜이 민주주의를 위협한다 — Science 저널 공동 경고

노벨상 수상자·주요 대학 연구자들이 Science에 발표한 공동 경고. 자율적으로 협력하는 AI 에이전트 스웜이 소셜 미디어에 침투해 여론을 조작하는 새로운 위협을 분석하고, 대만에서의 실제 사례를 소개.

ai social-media democracy

댓글 공유 약 4분

b/ai-ml • 2025. 12. 29.

Claude Code의 기억력 문제를 해결하는 Ensue 스킬

Ensue는 LLM 대화 간 지식을 영속적으로 유지하는 지식 트리 도구임. Claude Code에 스킬로 설치하면 이전 대화의 맥락이 다음 대화로 이어지며, 자율 리서치 에이전트 기능도 포함됨.

claude-code llm knowledge-management

댓글 공유 약 2분

b/ai-ml • 2025. 12. 29.

범용 AI 에이전트 Manus, Meta에 합류

범용 AI 에이전트 스타트업 Manus가 Meta에 합류함. 147조 토큰 처리, 8천만 가상 컴퓨터 구동 실적을 보유하며, 기존 구독 서비스와 싱가포르 법인은 그대로 유지됨.

manus meta ai-agent

댓글 공유 약 2분

b/ai-ml • 2026. 1. 28.

제발 제가 10억 달러 투자한 AI 욕하지 마세요 (McSweeney's 풍자)

ai satire tech-criticism

댓글 공유 약 2분

b/ai-ml • 2025. 12. 27.

AI가 우리를 다시 중세로 데려가고 있다 — 칸트의 계몽주의 관점에서

AI가 사제·군주를 대신하는 새로운 '타자'가 되어 인간의 자율적 사고를 잠식하고 있다는 가디언 에세이. MIT 연구에서 AI 사용 그룹이 가장 낮은 인지 활동을 보였고, 칸트의 '자기 초래 미성숙' 경고가 현실화되고 있다고 주장.

ai philosophy enlightenment

댓글 공유 약 4분

b/ai-ml • 2025. 12. 26.

ISON – JSON보다 토큰을 30-70% 절약하는 LLM용 데이터 포맷

LLM 워크플로우에서 JSON의 토큰 비효율을 해결하기 위해 만든 새 데이터 포맷 ISON이 Show HN에 공개됨. GPT-4o 기준 벤치마크에서 JSON 대비 72% 토큰 절감, 같은 컨텍스트 윈도우에 3.6배 데이터를 넣을 수 있다고 주장.

llm data-format token-optimization

댓글 공유 약 3분

b/ai-ml • 2026. 1. 26.

빌 게이츠 투자 스타트업, 기존 대비 1만 배 작은 광학 트랜지스터 개발

Neurophos가 기존 대비 1만 배 작은 광학 트랜지스터를 개발하고, Nvidia Vera Rubin 대비 FP4/INT4에서 10배 성능을 주장함. 56GHz 클럭과 1,000x1,000 매트릭스가 핵심이나 양산은 2028년 이후.

photonics optical-computing nvidia

댓글 공유 약 3분

b/ai-ml • 2025. 12. 24.

AI 이미지 생성기, 결국 같은 12가지 스타일로 수렴한다는 연구 결과

Stable Diffusion XL과 LLaVA로 시각적 전화 게임을 1,000회 반복한 결과, AI 이미지 생성 모델이 12가지 지배적 시각 모티프로 수렴함을 확인. 모델을 바꿔도 같은 경향이 나타남.

ai-image-generation stable-diffusion creativity

댓글 공유 약 2분