AI 이미지에서 글자·숫자 안 틀리게 만드는 ‘언더드로잉’ 꼼수
AI 이미지 모델이 글자와 숫자에 약한 문제를, 먼저 SVG나 HTML로 정확한 밑그림을 만든 뒤 그 위에 이미지 모델이 그리게 하는 방식으로 해결한 사례다. 결정론적 도구는 배치와 숫자를 맡기고, 생성형 모델은 비주얼을 맡기는 식이라 실용적인 워크플로로 꽤 쓸 만하다.
- 1
AI 이미지 모델은 보기엔 그럴듯해도 숫자, 글자, 순서가 쉽게 깨짐
- 2
SVG·HTML 같은 결정론적 도구로 먼저 정확한 숫자·텍스트 밑그림을 만들면 결과가 크게 좋아짐
- 3
그 밑그림 이미지를 멀티모달 이미지 모델에 넣고 ‘위에 칠해달라’고 요청하는 방식임
- 4
Gemini 3.0 Pro에서 100단계 보드게임 이미지의 숫자와 버튼 순서를 더 안정적으로 만든 사례가 소개됨
이건 프롬프트를 더 길게 쓰는 문제가 아니라, 모델에게 시킬 일과 코드에게 시킬 일을 나누는 문제임. 생성형 모델이 약한 정밀 배치는 SVG가 맡기고, 모델은 스타일링을 맡기는 식이라 실제 제품 이미지 생성에도 바로 응용 가능함.
관련 기사
에이전트 코딩은 함정일 수 있다는 꽤 불편한 주장
이 글은 AI 코딩 에이전트가 생산성을 올리는 동시에, 개발자의 코드 이해력과 디버깅 능력을 갉아먹을 수 있다고 경고한다. 특히 '사람은 오케스트레이터만 하면 된다'는 흐름이 실제로는 더 높은 수준의 판단력을 요구하면서도, 그 판단력 자체를 약화시킬 수 있다는 모순을 짚는다.
딥클로드, 클로드 코드 실행 루프는 그대로 두고 모델만 딥시크로 바꾸는 우회로 공개
딥클로드는 클로드 코드의 파일 편집, 셸 실행, 깃 작업, 에이전트 루프는 그대로 쓰면서 모델 호출만 딥시크 V4 프로나 오픈라우터 같은 앤트로픽 호환 백엔드로 돌리는 도구다. 핵심 주장은 같은 개발자 경험을 유지하면서 출력 토큰 가격을 100만 토큰당 15달러에서 0.87달러 수준으로 낮출 수 있다는 것. 다만 이미지 입력, 일부 호환 계층 기능, 모델별 추론 품질 차이는 그대로 감수해야 한다.
메가존클라우드, AWS 에이전틱 AI 실습 행사 국내 운영 맡는다
메가존클라우드가 AWS 에이전틱 AI 게임데이의 공식 운영 파트너로 선정돼 5월 중 국내 기업 대상 실습형 프로그램을 연다. 참가 기업은 실제 업무와 비슷한 시나리오에서 아마존 베드록, 베드록 에이전트코어, 스트랜드 에이전트 등을 비용 부담 없이 검증하게 된다.
LG CNS, 1분기 매출 1.3조 원…AI·클라우드가 절반 넘게 끌었다
LG CNS가 1분기 매출 1조3150억 원, 영업이익 942억 원을 기록하며 전년 대비 각각 8.6%, 19.4% 성장했다. AI·클라우드 사업만 7654억 원으로 전체 매출의 약 58%를 차지했고, 오픈AI·팔란티어 협력, 데이터센터 DBO, 피지컬 AI까지 전선을 넓히는 중이다.
메가존클라우드, 국내 기업 대상 AWS 에이전틱 AI 게임데이 운영
메가존클라우드가 AWS의 ‘에이전틱 AI 게임데이’ 공식 운영 파트너로 선정돼 국내 기업 대상 실습형 AI 교육을 맡는다. 참가자들은 단순 강의가 아니라 팀 단위로 실제 기술 문제를 정의하고 해결책을 설계하는 방식으로 에이전트 기반 AI 활용을 경험하게 된다.
댓글
댓글
댓글을 불러오는 중...