Những sai lầm khi đặt tag
Đặt tag đúng cho một bài báo điện tử không dễ như nhiều người tưởng. Nếu tòa soạn không có chiến lược tag được lên kế hoạch kỹ càng, điều đó có thể gây ra vấn đề lớn. Các tag được đặt qua loa và lộn xộn khiến cho việc đánh giá lại về sau trở nên khó chính xác. Thông thường, một bài báo điện tử vừa thiếu tag quan trọng, vừa chứa nhiều tag thừa hoặc không liên quan.
Mặc dù đã kiểm tra khá cẩn thận, thực tế nhiều phóng viên khi nhập tag thủ công vẫn thường mắc lỗi trùng lặp hoặc lỗi chính tả. Khi nhìn lại các tag trên trang báo của mình, tờ Süddeutsche Zeitung nhận thấy có quá nhiều tag lặp không cần thiết.
Một ví dụ là các tag như "Thủ tướng Merkel", "Thủ tướng Angela Merkel", hay "Thủ tướng Đức Angela Merkel" được sử dụng đồng thời trên Süddeutsche Zeitung. Tương tự như vậy, nhiều báo tiếng Anh dùng cả danh từ số nhiều "iPhones" dù đã có tag "iPhone".
Thêm vào đó, vì không ai giống ai, các nhà báo có thể chọn những tag khác nhau cho cùng một loạt bài. Theo nghiên cứu của whatsnewinpublishing.com, khả năng tương đồng giữa 2 nhà báo khi đặt tag cho cùng bài viết là dưới 20%.
Một nhà báo có thể đặt tag là "quyền con người", trong khi một nhà báo khác đặt là "quyền LGBT"; người thì đặt tag "Trung Đông", người lại dùng 2 tag "Palestin" và "Israel".
AI sẽ đặt tag tốt hơn con người
Thực tế nhiệm vụ đặt tag làm tăng khối lượng công việc của phóng viên, và nhiều người không thích công việc này chút nào. Vậy liệu có cách nào để hỗ trợ đặt tag một cách thống nhất, chính xác, phù hợp và độc nhất không? Người ta đang kỳ vọng vào công nghệ xử lý ngôn ngữ tự nhiên.
Công nghệ xử lý ngôn ngữ tự nhiên là phần mềm trí tuệ nhân tạo (AI) được đào tạo để đọc văn bản như con người. AI có thể hiểu được cấu trúc không chỉ trong một câu mà là giữa nhiều câu với nhau. Điều đó có nghĩa là phần mềm có thể giải mã các thực thể đại diện cho chủ đề của bài viết, từ một cá nhân cho đến một tổ chức, dù thực thể đó chỉ được nhắc đến một lần.
Phần mềm có thể nâng trọng số cho thực thể đóng vai trò chủ đề, so với đối tượng được nhắc đến thông thường. Theo cách này, công nghệ không chỉ còn đếm số lần một người hoặc một thứ gì đó được nhắc đến trong bài.
Nhờ chức năng nhận diện thực thể, phần mềm xử lý ngôn ngữ tự nhiên có thể chia các thực thể ra thành nhiều hạng mục như nhân vật, địa điểm... Sự phân biệt này hỗ trợ bài báo ưu tiên một nhóm thực thể nhất định khi đặt tag, tùy theo chiến lược của tòa soạn.
Ví dụ, phần mềm sẽ ưu tiên đặt tag về các nhân vật và tổ chức trong bài báo về chính trường, ưu tiên các sản phẩm như mẫu xe hay điện thoại trong bài báo công nghệ, ưu tiên thuật ngữ trong bài báo khoa học. Bằng cách này, AI làm được như con người và hơn nữa luôn giữ đúng chiến lược được đề ra.
Một khả năng nữa của phần mềm xử lý ngôn ngữ tự nhiên là đối chiếu kiến thức nền. Nhờ kiến thức nền, AI nhận ra thực thể cho dù chúng được nhắc đến bằng nhiều cái tên khác nhau, từ đó tránh được vấn đề tag trùng lặp.
Trong khi đó, AI cũng có thể dùng kiến thức nền để phân biệt những thực thể khác nhau với cùng một cái tên. Ví dụ, bài viết về Adam Scott, diễn viên người Mỹ, không thể lẫn lộn với bài viết về một Adam Scott khác là tay golf người Australia.
Với những điểm mạnh của phần mềm xử lý ngôn ngữ tự nhiên, không có gì đáng ngạc nhiên khi ngày càng nhiều tòa soạn đặt tag bằng công nghệ tự động và bán tự động. Một số tòa soạn báo lớn như The New York Times có thể tự phát triển công nghệ tag cho mình, nhiều tòa soạn khác thì không. Nhưng điều đó không thành vấn đề khi ngày nay không ít công ty công nghệ cung cấp phần mềm tag tự động.
Những phần mềm này có thể được tích hợp vào CMS một cách dễ dàng và đủ linh hoạt cho các nhu cầu đa dạng. Phần mềm sẽ giúp các báo đặt tag thống nhất, phù hợp; đồng thời tiết kiệm được thời gian cho các nhà báo, giải phóng họ khỏi những công việc buồn tẻ và dành thời gian cho những việc chỉ con người mới có thể làm.
Theo OneCMS