ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • OpenAI Spring Update와 Google I/O 2024 요약
    AI 2024. 5. 16. 16:47

    I. OpenAI Spring Update 를 보니 이제 생성AI도 새로운 서비스로 진화하는 듯 합니다.

    1) GPT-4o 발표: GPT-4 지능 발전 & 협업 개선
    2) ChatGPT: 100백만 사용자 이용, 혁신적인 기능 제공
    3) 실시간 대화와 감정을 나타내는 음성 모델
    4) 로봇과 수학 문제 해결
    5) 코드 공유와 ChatGPT 상호작용
    6) 다양한 상황에서의 대화와 감정 인식 능력

    GPT-4o사용법은 ->  https://openai.com/index/hello-gpt-4o   이며 주요내용은 아래와 같습니다,..

     

    GPT-4o("옴니"의 "o"는 "옴니"를 의미)는 훨씬 더 자연스러운 인간과 컴퓨터의 상호작용을 위한 단계로, 텍스트, 오디오, 이미지의 모든 조합을 입력으로 받아들이고 텍스트, 오디오, 이미지의 모든 조합을 출력으로 생성할 수 있습니다. 최소 232밀리초, 평균 320밀리초 만에 오디오 입력에 응답할 수 있으며, 이는 대화에서 사람의 응답 시간(새 창에서 열기)과 비슷한 수준입니다. 영어 텍스트 및 코드에 대한 GPT-4 터보 성능과 비슷하며, 비영어권 언어의 텍스트에 대한 성능이 크게 향상되는 동시에 API에서 훨씬 빠르고 50% 더 저렴합니다. GPT-4o는 특히 기존 모델에 비해 시각 및 오디오 이해 능력이 뛰어납니다.

    GPT-4o 이전에는 음성 모드를 사용하여 평균 2.8초(GPT-3.5)와 5.4초(GPT-4)의 지연 시간으로 ChatGPT와 대화할 수 있었습니다. 이를 위해 음성 모드는 세 개의 개별 모델로 구성된 파이프라인으로 구성됩니다. 하나의 단순 모델이 오디오를 텍스트로 변환하고, GPT-3.5 또는 GPT-4가 텍스트를 받아 텍스트를 출력하며, 세 번째 단순 모델이 해당 텍스트를 다시 오디오로 변환하는 방식입니다. 이 과정에서 주요 인텔리전스 소스인 GPT-4는 톤, 여러 화자 또는 배경 소음을 직접 관찰할 수 없고 웃음, 노래, 감정 표현을 출력할 수 없는 등 많은 정보를 잃게 됩니다.

    하지만 GPT-4o는 텍스트, 시각, 오디오에 걸쳐 하나의 새로운 모델을 엔드투엔드로 훈련시켜 모든 입력과 출력을 동일한 신경망으로 처리할 수 있게 했습니다. GPT-4o는 이러한 모든 양식을 결합한 최초의 모델이기 때문에 이 모델이 할 수 있는 일과 그 한계를 탐색하는 것은 아직 시작 단계에 불과합니다.

    샘알트만도 블로그에 글을 썼습니다... https://blog.samaltman.com/gpt-4o

    GPT-4o, 오늘 발표에서 강조하고 싶은 두 가지 사항이 있습니다.

    첫째, 저희 미션의 핵심은 매우 유능한 AI 도구를 사람들에게 무료 또는 저렴한 가격으로 제공하는 것입니다. 저는 ChatGPT에서 광고나 그와 유사한 것 없이 무료로 사용할 수 있는 세계 최고의 모델을 보유하게 되어 매우 자랑스럽습니다.

    OpenAI를 시작할 때의 초기 구상은 AI를 만들고 이를 통해 세상을 위한 모든 종류의 혜택을 창출하겠다는 것이었습니다. 하지만 지금은 우리가 AI를 만들고 다른 사람들이 이를 활용해 우리 모두가 혜택을 누릴 수 있는 모든 종류의 놀라운 것들을 만들어내는 것처럼 보입니다.

    우리는 사업체이기 때문에 유료화할 수 있는 많은 것들을 찾아낼 것이며, 이를 통해 수십억 명의 사람들에게 무료로 뛰어난 AI 서비스를 제공할 수 있을 것입니다.

    둘째, 새로운 음성(및 비디오) 모드는 제가 사용해 본 것 중 최고의 컴퓨팅 인터페이스입니다. 마치 영화에 나오는 AI처럼 느껴지는데, 이것이 현실이라는 사실이 아직도 조금은 놀랍습니다. 사람 수준의 응답 시간과 표현력을 갖추게 된 것은 큰 변화입니다.

    기존 ChatGPT는 언어 인터페이스로 무엇이 가능한지에 대한 힌트를 제공했지만, 이 새로운 것은 본능적으로 다른 느낌을 줍니다. 빠르고, 스마트하고, 재미있고, 자연스럽고, 도움이 됩니다.

    컴퓨터와 대화하는 것이 자연스럽다고 느껴진 적이 없었는데 이제는 자연스럽습니다. (선택 사항인) 개인화, 사용자 정보에 대한 액세스, 사용자 대신 작업을 수행할 수 있는 기능 등이 추가되면서 컴퓨터를 사용하여 이전보다 훨씬 더 많은 일을 할 수 있는 흥미로운 미래가 보입니다.

    마지막으로, 이를 실현하기 위해 많은 노력을 기울인 팀에게 큰 감사를 드립니다!

     

     

    II. Google I/O 2024 기조연설 주요 내용 12가지를 아래와 같이 소개해 드립니다...

    1. Project Astra - 새로운 AI 에이전트 
    - 데미스 하사비스가 소개한 범용 AI Agent 프로젝트
    - 실시간 영상 인식, 공간 이해, 기억 능력 등 인상적인 기능 선보여
    - 사용자가 안경을 어디에 두었는지 알려주는 등 일상생활에서 유용하게 활용 가능
    - 데모 : https://youtu.be/nXVvvRhiGjI

    2. Gemini Live
    - Gemini 앱의 음성 아이콘에서 실행
    - Gemini에 프로젝트 아스트라 기능을 추가하는 작업의 일환
    - GPT-4o 와 같은 기능
    https://youtu.be/_fuimO6ErKI

    3. Gemini 1.5 Pro & 2백만 토큰 컨텍스트 윈도우 
    - 기존 100만 토큰에서 2배 늘어난 컨텍스트 윈도우로 더 복잡한 작업 수행 가능
    - 개발자들에게 Gemini 1.5 Pro 글로벌 롤아웃
    - 개발자들은 100만 토큰을 어떻게 사용하고 있는지에 대한 영상
    https://youtu.be/cogrixfRvWw

    4. Gemma 2 (27B) 출시 예정
    - 270억개 파라미터를 가진 모델 6월 출시 예정
    - 단일 TPU 호스트와 버텍스 AI에서 최적화
    https://developers.googleblog.com/en/gemma-family-and-toolkit-expansion-io-2024/

    5. 크롬 브라우저안의 Gemini Nano
    - Chrome 126부터 Chrome 데스크톱 클라이언트에 추가
    - Gmail의 Workspace Lab에 있는 기존 '글쓰기 도움말' 도구와 같은 기능
    - Chrome의 WebGPU 및 WASM 지원 작업 덕분에 가능
    - 브라우저에서 텍스트를 번역, 캡션 및 전사할 수 있도록 Gemini 모델을 사용

    6. 구글 검색 AI 개선
    - AI Overviews: 복잡한 질문에 대한 전체 답변 제공
    - AI가 사용자를 위해 검색하여 필요한 정보를 요약
    - 생성형 AI를 사용하여 전체 검색 결과 페이지를 구성
    - 여행 계획과 같은 업무에 Gemini를 에이전트로 활용하는 방안
    https://youtu.be/s4InWsd-J6g

    7. AI 이미지 생성기 최신 버전인 Imagen 3 
    - Imagen 2에 비해 이미지로 변환하는 텍스트 프롬프트를 더 정확하게 이해
    - 오류를 더 적게 생성
    - 텍스트 렌더링에 있어서도 역대 최고의 모델
    https://deepmind.google/technologies/imagen-3/

    8. Google은 맞춤형 Gemini 봇인 'Gems' 
    - 기본적으로 러닝 코치나 수셰프와 같이 특정하고 전문적인 Gemini AI 버디를 쉽게 설정
    - Gemini를 반복해서 사용하고 싶은 특정한 방법이 있을 때 유용하게 사용할 수 있도록 설계
    - 몇 달 내에 Gemini Advanced 구독자에게 출시될 예정

    9. Android AI 업데이트  
    - AI 기반 검색, Gemini 음성 비서, 단말 AI 기능 강화
    - "Circle to Search", TalkBack 등 새로운 AI 기능
    - 올해 말 Pixel폰에 Gemini Nano 탑재 출시 예정

    10. 구글 포토 AI 
    - "Ask Photos" 기능으로 사진 내용 요약 및 정보 추출 가능
    - Google 포토 컬렉션 전체를 검색
    - Google 포토에 "내 차량 번호가 뭐야"라고 물어보면 자주 등장하는 자동차를 인식하여 해당 차량 번호를 알려줌

    11. 비디오 및 음악 AI 
    - Veo: 텍스트 기반 비디오 생성기 공개 
    - AI 기반 DJ 소프트웨어 'Music FX DJ' 데모 https://aitestkitchen.withgoogle.com/tools/music-fx
    - Google Labs AI 도구 4종
    https://labs.google/MusicFX
    https://labs.google/TextFX
    https://labs.google/ImageFX
    https://labs.google/VideoFX

    12. 구글 워크스페이스 with AI
    - Gemini는 이메일을 검색하고 회의에 대한 요약을 제공하는 데 도움을 줍니다.
    - AI 어시스턴트가 Google 회의의 주요 내용을 알려주고, 이메일을 요약하고, 답변을 작성
    https://workspace.google.com/solutions/ai/

    Google I/O 2024 기조영상 풀버전
    https://www.youtube.com/live/XEzRZ35urlk

     

    아래는 중요한 내용들만 모아 소개한 영상입니다.


    https://youtu.be/_fuimO6ErKI

Designed by Tistory.