Trí tuệ nhân tạo AI sẽ khiến thông dịch viên trở nên lỗi thời?

Trong thời đại của Internet, mọi người ngày càng được kéo đến gần nhau hơn. Bạn có thể Snapchat với một người bạn đến từ Thổ Nhĩ Kỳ, gọi điện video cho bố mẹ bạn trong kỳ nghỉ ưa thích của họ, gửi tin nhắn nhanh cho người bạn cũ của bạn chỉ qua các phím bấm.

Nhưng khi thế giới xích lại gần nhau hơn, sự chú ý của chúng ta ngày càng trở nên phổ biến hơn. Chúng ta dường như dành hàng giờ để lướt qua Instagram, trong khi dành ít thời gian hơn để tương tác trực tiếp với nhau. Trớ trêu thay, trí tuệ nhân tạo hiện đang thay đổi điều đó.

Mọi thứ trong cuộc sống của chúng ta đang bị thay đổi bởi AI – ngay cả cách chúng ta giao tiếp. Đó chính là cách mà nó đang xảy ra.

Vào tháng 3 năm 2021, Google đã công bố tính năng Phụ đề trực tiếp của họ trên trình duyệt Chrome. Phụ đề trực tiếp sử dụng công nghệ máy học để tạo phụ đề chi tiết ngay lập tức trên bất kỳ video hoặc clip âm thanh nào, cung cấp cho những người khiếm thính khả năng tiếp cận nội dung internet nhiều hơn.

Trước đây— và ngày nay vẫn vậy, phụ đề chi tiết đã được lập trình sẵn cho các định dạng video và một phụ đề gần như xuất hiện tức thì khi video khởi phát. Tuy nhiên, ở những nơi mà phụ đề không phải là "chuẩn mực", chẳng hạn như trên các ứng dụng như Instagram hoặc TikTok, hầu như không thể tìm thấy tính năng phụ đề tương tự. Và tính năng phụ đề trực tiếp tương lai sẽ thay đổi điều này: với một vài thao tác trên màn hình, bất kỳ người dùng nào cũng có thể có ngay phụ đề chính xác, tức thì, giúp mở rộng phạm vi tiếp cận của âm thanh và video trên các nền tảng hơn trong tương lai.

Phụ đề trực tiếp của Google là một loại công cụ Xử lý ngôn ngữ tự nhiên (natural language processing - NLP). Nó là một dạng trí tuệ nhân tạo sử dụng các thuật toán để tạo điều kiện "tương tác" giữa con người và máy móc. NLP giúp chúng ta giải mã ngôn ngữ của con người thành ngôn ngữ máy và thường là ngược lại.

Để hiểu được lịch sử của NLP, chúng ta phải quay trở lại với một trong những nhà khoa học tài tình nhất của kỷ nguyên hiện đại: Alan Turing. Năm 1950, Turing xuất bản cuốn "Máy tính và trí thông minh", trong đó thảo luận về khái niệm máy tính có tri giác, có tư duy. Ông tuyên bố rằng, không có lập luận thuyết phục nào chống lại ý tưởng rằng máy móc có thể suy nghĩ như con người, và đề xuất một cái đặc biệt gọi là thử nghiệm Turing.

Turing đề xuất một cách để đo lường liệu trí thông minh nhân tạo có thể tự suy nghĩ hay không: nếu nó có thể chứng minh được và lấy được lòng tin của con người với một xác suất nhất định, thì nó có thể được coi là thông minh.

Từ năm 1964 đến năm 1966, nhà khoa học người Đức Joseph Weizenbaum đã viết một thuật toán NLP được gọi là ELIZA. ELIZA đã sử dụng các kỹ thuật đối sánh mẫu để tạo ra một cuộc trò chuyện. Ví dụ, trong tập lệnh DOCTOR, nếu máy tính được bệnh nhân nói rằng "đầu tôi đau", nó sẽ trả lời bằng một cụm từ tương tự như "tại sao đầu của bạn đau?" ELIZA hiện được coi là một trong những chatbot sớm nhất và là một trong những thiết bị đầu tiên lấy được niềm tin của con người trong một loại thử nghiệm Turing giới hạn tương tự.

Vào cuối những năm 1980, thuật toán NLP thay vào đó tập trung vào các mô hình thống kê giúp họ hình thành các cuộc trò chuyện dựa trên xác suất.

Công nghệ nhận dạng giọng nói hiện đại NLP.

Công nghệ nhận dạng giọng nói hiện đại NLP bao gồm một số nguyên tắc chung, chẳng hạn như nhận dạng giọng nói, nhận dạng âm thanh, nhận dạng ngôn ngữ và phân cực, có thể phân biệt giữa những người nói. Hệ thống Phụ đề trực tiếp của Google sử dụng ba mô hình học sâu để tạo phụ đề: mạng nơ-ron lặp lại (RNN) để nhận dạng giọng nói, RNN dựa trên văn bản để nhận dạng dấu câu và mạng nơ-ron phức hợp (CNN) để phân loại các sự kiện âm thanh. Ba mô hình này gửi các tín hiệu kết hợp để tạo thành phụ đề gốc, hoàn chỉnh với phụ đề tiếng vỗ tay và phụ đề âm nhạc.

Khi giọng nói được nhận dạng ở định dạng âm thanh hoặc video, Công nghệ nhận dạng giọng nói Tự động (ASR) được bật, cho phép thiết bị bắt đầu phiên âm các từ thành văn bản. Khi lời nói này dừng lại, chẳng hạn như khi nhạc đang phát thay vào đó, ASR sẽ ngừng chạy để tiết kiệm pin điện thoại và kích hoạt nhạc trong phụ đề.

Khi văn bản phát biểu được xây dựng thành chú thích, dấu câu được hình thành trên câu hoàn chỉnh trước đó. Dấu câu liên tục được điều chỉnh cho đến khi kết quả ASR không ảnh hưởng đến ý nghĩa của câu hoàn chỉnh.

Công nghệ NLP tập trung vào khả năng tiếp cận không chỉ giới hạn trong việc tạo phụ đề. Một dự án khác của Google, Project Euphonia đang sử dụng NLP để giúp các cá nhân có trở ngại về giọng nói hoặc giọng nói không điển hình được phần mềm nhận dạng giọng nói hiểu rõ hơn. Dự án Euphonia thu thập 300-1500 cụm từ âm thanh từ các tình nguyện viên có khuyết tật lời nói.

Sau đó, những mẫu âm thanh này có thể được "đưa" vào các mô hình nhận dạng giọng nói để luyện cho nhiều dạng khiếm khuyết khác nhau. Ngoài ra, chương trình tạo ra hệ thống giọng nói đơn giản có thể sử dụng theo dõi khuôn mặt hoặc âm thanh đơn giản để báo hiệu các hành động khác nhau, như bật đèn hoặc chơi một bài hát nhất định.

Trong tương lai, việc tạo ra các khóa đào tạo đa dạng hơn cho AI bao gồm giọng vùng, phương ngữ và tiếng lóng có thể giúp giảm chênh lệch về độ chính xác của Công nghệ nhận dạng giọng nói Tự động giữa các chủng tộc và dân tộc.

Suy cho cùng, công nghệ có tiềm năng đáng kinh ngạc để gắn kết mọi người lại với nhau, nhưng khi mọi người bị phân biệt, cho dù là do khuyết tật giọng nói, chủng tộc, sắc tộc hay cách khác, nó có thể là một sức mạnh gây chia rẽ và cô lập. Nhờ sức mạnh của công nghệ xử lý ngôn ngữ tự nhiên, giới khoa học đã và đang bắt đầu lấp đầy những khoảng cách này giữa mọi người để xây dựng một nền tảng tương lai dễ tiếp cận hơn.

Theo Dân Việt

Tin cùng chuyên mục

Chiếc tủ lạnh hitachi nhà bạn đang gặp vấn đề? trung tâm bảo hành hitachi chính hãng là một lựa chọn hoàn hảo

Tủ lạnh Hitachi là thiết bị gia dụng không thể thiếu trong mỗi gia đình, mang đến sự tiện nghi và bảo quản thực phẩm hiệu quả.

Cto tuân nguyễn – sứ mệnh bình dân hóa công nghệ và marketing online

Nếu ai từng học hoặc làm việc trong lĩnh vực Marketing online và trí tuệ nhân tạo AI ở Việt Nam, có lẽ đã từng nghe đến CTO Tuân Nguyễn. Không chỉ là một chuyên gia công nghệ, thầy còn là một trong những người tiên phong trong việc kết hợp Marketing với công nghệ AI để tạo ra những chiến lược đột phá.

Deepseek có thực sự là công nghệ ai đột phá?

Deepseek – một phần mềm trí tuệ nhân tạo giúp ích trong nhiều lĩnh vực như công việc, giải trí và các hạng mục khác. Deepseek đang trở thành một xu hướng mạnh mẽ, thu hút sự quan tâm của nhiều chuyên gia, báo chí, nhà khoa học cũng như người dùng nghiên cứu và đánh giá. Vậy Deepseek dưới góc nhìn của một CTO, đồng thời là người có hơn 10 năm kinh nghiệm nghiên cứu về AI, đã phát triển các thuật toán và hệ thống AI, cũng như có nhiều kinh nghiệm trong việc sử dụng các ứng dụng trí tuệ nhân tạo. Dưới đây là quan điểm của CTO Tuân Nguyễn, cung cấp những nhận định giúp các bạn có thêm thông tin đa chiều về Deepseek.

Pando group hệ sinh thái số tiên phong trong lĩnh vực phát triển cộng đồng

Trong bối cảnh công nghệ thông tin phát triển và bùng nổ mạnh mẽ như hiện nay, việc xây dựng cộng đồng fan trung thành là một chiến lược kinh doanh giúp doanh nghiệp phát triển bền vững.

Tự hào khi được gặp gỡ và học hỏi từ tiền bối nguyễn tuân chuyên gia ai tài ba

Chuyện hôm qua giờ mới kể, tôi đã có một ngày vô cùng đặc biệt khi được gặp gỡ và thảo luận về chiến lược marketing ứng dụng trí tuệ nhân tạo cùng với anh Nguyễn Tuân, một chuyên gia marketing, chuyên gia AI tài ba với hơn 15 năm kinh nghiệm.

Xịt khử mùi eodor khử sạch mùi không khí, làm sạch và đánh bóng bề mặt an toàn, hiệu quả

EODOR là một trong những thương hiệu hàng đầu về xịt khử mùi không khí, làm sạch và đánh bóng bề mặt uy tín, chất lượng. Với công nghệ vi bọc phân tử độc quyền, EODOR đạt được sự tin cậy và ưa chuộng từ người tiêu dùng. Sản phẩm của EODOR không chỉ khử mùi một cách nhanh chóng, mà còn tạo ra một mùi thơm dễ chịu mang đến sự trong lành và thoải mái cho không gian sống, làm việc và di chuyển hàng ngày.