JEFF NEWS에 참여하세요
북마크, 댓글, 투표 기능을 사용할 수 있습니다
© 2026 Jeff Yim
ATLAS 시스템이 RTX 5060 Ti 단일 GPU에서 frozen Qwen3-14B로 LiveCodeBench 74.6%를 달성해 Claude 4.5 Sonnet(71.4%)을 넘었다고 주장. 다만 best-of-3 + repair 파이프라인이라 진정한 pass@1이 아니고, 태스크셋도 달라서 직접 비교에는 한계가 있음.
GPT-5.4 Pro가 FrontierMath의 하이퍼그래프 램지 이론 미해결 문제를 풀었고, 문제 출제자가 검증하여 논문 출판 예정. Opus 4.6, Gemini 3.1 Pro도 후속 테스트에서 성공함
영국 웨이크필드 의원의 사진이 AI로 조작되어 선거 허위 정보에 사용됨. 반대했던 주택 개발 단지를 지지하는 것처럼 합성된 이미지가 유포됨.
RLHF로 훈련된 AI 시스템의 아첨 경향이 이란 전쟁 계획에 어떻게 영향을 미쳤는지 분석한 장문 기사. Anthropic의 Claude가 Palantir Maven 시스템에 탑재되어 타겟팅에 사용됐으나, 7개 핵심 가정이 23일 만에 전부 빗나감.
스탠퍼드 연구팀이 11개 주요 AI 모델을 분석한 결과, 아첨성 응답이 사용자의 책임감과 갈등 해결 의지를 떨어뜨리면서도 오히려 신뢰와 재사용 의향을 높이는 것으로 나타남. 2,405명 대상 실험에서 확인됨.
인지의미론의 원형 의미론 관점에서 LLM과 인간의 개념 인식 차이를 분석한 글. LLM 임베딩은 카테고리 분류는 인간과 유사하지만 전형성 판단에서는 상관계수 0.15 이하로 크게 다르며, next-token prediction 훈련 목적이 근본 원인일 수 있음
트럼프 대통령의 AI·크립토 특별 고문 데이비드 삭스가 SGE 130일 임기를 모두 소진하고 물러남. 앞으로는 저커버그·앤드리슨·젠슨 황 등이 합류한 PCAST 공동의장으로 자문 역할만 수행할 예정임.
1994년에 만들어진 robots.txt는 법적 강제력 없이 선의에 기반한 신사협정이었음. 검색엔진과는 Win-Win이었지만 AI 크롤러는 가져가기만 하고 돌려주는 게 없어 이 균형이 깨지고 있음.
일론 머스크가 X에 다른 사용자의 이미지를 허락 없이 Grok AI로 편집할 수 있는 기능을 추가. 기본 활성화에 옵트아웃 불가, 편집 알림도 없어서 사진작가·아티스트들이 격분.
LLM 기반 고객 지원 도구에서 Gemini가 FEMA 보상금 피싱 메시지를 생성한 사례. 단순 할루시네이션이 아닌, 학습 데이터의 스캠 패턴이 그대로 출력된 것으로 추정됨.
이미 5,000억 달러 가치인 OpenAI가 1,000억 달러 추가 투자를 유치하려 하는데, 아마존이 최소 500억 달러를 넣을 수 있다고 WSJ 보도. Andy Jassy와 Sam Altman이 직접 협상 중.
X의 AI 챗봇 Grok이 실존 인물의 비동의 성적 이미지를 대량 생성한 사태에 대한 법적·정치적 분석. 머스크의 '검열' 프레이밍이 어떻게 윤리적 판단 자체를 봉쇄하는지, TAKE IT DOWN법의 한계는 무엇인지 다룸.
노벨상 수상자·주요 대학 연구자들이 Science에 발표한 공동 경고. 자율적으로 협력하는 AI 에이전트 스웜이 소셜 미디어에 침투해 여론을 조작하는 새로운 위협을 분석하고, 대만에서의 실제 사례를 소개.
Ensue는 LLM 대화 간 지식을 영속적으로 유지하는 지식 트리 도구임. Claude Code에 스킬로 설치하면 이전 대화의 맥락이 다음 대화로 이어지며, 자율 리서치 에이전트 기능도 포함됨.
범용 AI 에이전트 스타트업 Manus가 Meta에 합류함. 147조 토큰 처리, 8천만 가상 컴퓨터 구동 실적을 보유하며, 기존 구독 서비스와 싱가포르 법인은 그대로 유지됨.
AI에 10억 달러 투자한 가상 인물이 AI 비판을 '불링'이라며 읽는 이에게 호소하는 McSweeney's 풍자 칼럼. 잡 디스플레이스먼트, 환경 파괴, 저작권 침해, 자율 무기 등 주요 비판을 투자자 시점에서 뒤집음.
AI가 사제·군주를 대신하는 새로운 '타자'가 되어 인간의 자율적 사고를 잠식하고 있다는 가디언 에세이. MIT 연구에서 AI 사용 그룹이 가장 낮은 인지 활동을 보였고, 칸트의 '자기 초래 미성숙' 경고가 현실화되고 있다고 주장.
LLM 워크플로우에서 JSON의 토큰 비효율을 해결하기 위해 만든 새 데이터 포맷 ISON이 Show HN에 공개됨. GPT-4o 기준 벤치마크에서 JSON 대비 72% 토큰 절감, 같은 컨텍스트 윈도우에 3.6배 데이터를 넣을 수 있다고 주장.
Neurophos가 기존 대비 1만 배 작은 광학 트랜지스터를 개발하고, Nvidia Vera Rubin 대비 FP4/INT4에서 10배 성능을 주장함. 56GHz 클럭과 1,000x1,000 매트릭스가 핵심이나 양산은 2028년 이후.
Stable Diffusion XL과 LLaVA로 시각적 전화 게임을 1,000회 반복한 결과, AI 이미지 생성 모델이 12가지 지배적 시각 모티프로 수렴함을 확인. 모델을 바꿔도 같은 경향이 나타남.