Ứng dụng khách API để khai thác các tính năng giọng nói và tầm nhìn của OpenAI

Phiên bản mới nhất

Phiên bản
Cập nhật
19 thg 12, 2023
Nhà phát triển
Thể loại
Google Play ID
Lượt cài đặt
100+

App APKs

OpenAI API Client - TOM APP

TOM, ứng dụng khách hoàn chỉnh nhất cho API của ChatGPT

API OpenAI cho ChatGPT hiện đã được công khai và với TOM, bạn có thể phát huy sức mạnh của GPT-4 Turbo và GPT-4 Vision trên thiết bị di động của mình.

Nói chuyện trực tiếp với GPT 4, bắt đầu thảo luận hoặc chụp ảnh và đặt câu hỏi về họ. Bạn có thể nói bằng bất kỳ ngôn ngữ nào, TOM hiểu tất cả.

Thay đổi cách hoạt động của TOM bằng cách nhấn vào lời nhắc hệ thống. Làm cho nó đóng bất kỳ vai trò nào bạn muốn.

Tận hưởng khả năng nhận dạng giọng nói chính xác nhất với Whisper của OpenAI và giọng nói hoàn hảo của con người với TTS của OpenAI. Ngoài ra, hãy tắt chúng và sử dụng các dịch vụ của Google để có độ trễ và chi phí thấp hơn cũng như trải nghiệm người dùng nhanh hơn.

Bạn cũng có thể sử dụng GPT 3.5 Turbo để phản hồi nhanh hơn và giảm thiểu chi phí.

TOM miễn phí và sẽ luôn như vậy. Nhưng để sử dụng AI, bạn sẽ cần khóa API từ chủ sở hữu AI, OpenAI.

Ứng dụng khách API GPT
Bạn không cần đăng ký hàng tháng để tận hưởng GPT 4 Turbo hoặc GPT 4 Vision: chỉ cần khóa API. Và tin tốt là các khóa API đều miễn phí trên trang web của OpenAI. Đây là cách để bắt đầu:

1. Tạo khóa API của bạn trên https://platform.openai.com/api-keys
2. Sử dụng khóa API của bạn trong TOM để giải phóng THE BEAST

Nếu bất kỳ lúc nào bạn cần cập nhật hoặc thay đổi khóa API bạn đang sử dụng, hãy nhấn vào nút KEY.

Điều khiển

Sử dụng bộ chọn ở trên cùng để chuyển đổi giữa GPT-3.5 Turbo và GPT-4 Turbo nhằm quản lý chi phí của bạn hoặc để phản hồi nhanh hơn. GPT-4 Vision được chọn tự động bất cứ khi nào bạn chụp ảnh.

Nhấn vào mô tả của Tom để đặt lời nhắc hệ thống của riêng bạn. Nó sẽ hướng dẫn GPT cách tương tác với bạn.

Nhấn vào nút NÓI để nói chuyện với GPT.
Chạm vào nút CAMERA để chụp ảnh và hỏi bất cứ điều gì về nó.
Bạn có thể tiếp tục thảo luận về bức ảnh đó bằng cách nhấn vào 'NÓI' sau đó.
Tuy nhiên, BỐI CẢNH của bạn sẽ phát triển.

Bối cảnh là gì?

Bối cảnh bao gồm mọi điều được nói trong cuộc trò chuyện hiện tại của bạn, bao gồm cả những bức ảnh được chụp. Nó được gửi tới API mỗi lần, vì đó là cách GPT ghi nhớ nó.

Nó phát triển theo từng câu mới và đặc biệt là với mỗi bức tranh mới. Ngữ cảnh được gửi tới API càng lớn thì thời gian phản hồi càng lâu. Và quan trọng, OpenAI tính phí dựa trên quy mô ngữ cảnh của bạn.

Để tìm được sự cân bằng phù hợp, TOM cung cấp khả năng xóa bối cảnh bất cứ khi nào nó trở nên đặc biệt nặng nề, mặc dù GPT sau đó sẽ quên tất cả các tương tác trước đó. Sử dụng nút BIN cho mục đích này.

Kích thước hình ảnh

TOM cung cấp ba cài đặt cho ảnh gửi tới GPT: nhanh, trung bình và chất lượng.

'Nhanh' là mặc định, cung cấp hình ảnh nhỏ hơn để tương tác nhanh hơn với GPT. Nó hoạt động tốt với văn bản và hầu hết các loại hình ảnh.

'Trung bình' cung cấp nhiều chi tiết hơn nhưng mang lại hình ảnh lớn hơn một chút.

Sử dụng 'chất lượng' để có độ chính xác cao nhất. Những hình ảnh này nặng nhất và tốn kém nhất trong API OpenAI.

Thì thầm và TTS
Whisper là mạng lưới thần kinh OpenAI tiếp cận độ mạnh mẽ và độ chính xác ở cấp độ con người trong nhận dạng giọng nói. Nếu được bật, bạn sẽ có được độ chính xác cao hơn trong nhận dạng giọng nói mà TOM gửi tới GPT nhưng phải trả thêm phí.

TTS (Chuyển văn bản thành giọng nói) là một hệ thống OpenAI biến văn bản thành âm thanh giọng nói sống động như thật. Nó cũng phải chịu thêm chi phí.

Cả hai tùy chọn đều được bật theo mặc định để có trải nghiệm người dùng tốt hơn. Nhưng cả hai đều có thể bị vô hiệu hóa để nhận được phản hồi nhanh hơn trong trường hợp mạng chậm hoặc để giảm chi phí của bạn. Tuy nhiên, khi cả hai được kích hoạt, trải nghiệm thực sự tuyệt vời.
Đọc thêm

Quảng cáo