Trùng lặp nội dung – nguyên nhân và giải pháp!

Trùng lặp nội dung (duplicate content) là một lỗi nghiêm trọng có thể khiến trang web của bạn bị Google đánh tụt hạng trên trang kết quả tìm kiếm. Trùng lặp nội dung xảy ra khi nội dung bài viết của bạn xuất hiện tại nhiều hơn một địa chỉ URL. Bạn có thể tưởng tượng, trùng lặp nội dung như việc một ngã rẽ với hai biển chỉ dẫn về hai hướng khác nhau nhưng lại dẫn tới cùng một điểm đến. Bạn sẽ chọn đường nào? Với chúng ta, những người sử dụng internet thì “ngã rẽ” nào cũng được, quan trọng là đến được nội dung ta cần, nhưng công cụ tìm kiếm lại khác, chúng rất khó để lọc ra được kết quả tìm kiếm chính xác, bởi chúng không muốn một nội dung xuất hiện hai lần trên trang kết quả. Vậy nguyên nhân nào dẫn đến lỗi trùng lặp nội dung này? Làm sao để phát hiện trang web của bạn xảy ra lỗi trùng lặp nội dung? Giải pháp nào để tránh lỗi này cho website của chúng ta? Các bạn sẽ tìm thấy câu trả lời trong bài viết này!

Nguyên nhân gây ra trùng lặp nội dung

Có rất nhiều lý do gây ra việc trùng lặp nội dung, phần lớn mang tính kỹ thuật, và ta hãy cùng điểm qua các nguyên nhân dưới đây:

1. Hiểu sai về URL trang web

Bạn cũng biết, nội dung của website đều được lưu trong cơ sở dữ liệu (CSDL), và trong CSDL đó, một bài viết có thể được lấy ra thông qua nhiều URLs. Bạn không tin ư? Ví dụ, một bài viết của bạn về tu-khoa-x xuất hiện trong địa chỉ: http://www.tenmien.com/tu-khoa-x/ và một địa chỉ khác: http://www.tenmien.com/article-category/tu-khoa-x/. Nội dung giống nhau và cùng trỏ tới 1 bài viết duy nhất lưu trong CSDL. Tình huống này xảy ra với hầu hết các CMS, khi ta thay đổi đường dẫn tĩnh (permalink) của website.

Bởi vì sao? Trong mắt các nhà phát triển, các duy nhất để nhận biết một bài viết là ID của nó trong CSDL, không phải URL. Công tụ tìm kiếm lại khác, nó nhận diện thông qua URL, nếu hai URL khác nhau (ví dụ trên), nói về cùng một nội dung, và sẽ xảy ra lỗi trùng lặp nội dung!

2. Session ID

Session được sử dụng rất nhiều trong lập trình web, được hiểu như khoảng thời gian người sử dụng giao tiếp với một ứng dụng web, ví dụ, giỏ hàng ở các trang thương mại điện tử, và tính từ khi người sử dụng truy cập vào ứng dụng web đó lần đầu tiên và kết thúc khi thoát ra khỏi ứng dụng web. Mỗi session sẽ được cung cấp một ID. Và Session ID này được lưu ở URL trang web khi người dùng sử dụng ứng dụng web kia. Ví dụ, trang của ta có URL là: http://www.tenmien.com/tu-khoa-x/, và người dùng sử dụng một ứng dụng web nào đó, session ID sẽ được thêm vào địa chỉ trên như sau: http://www.tenmien.com/tu-khoa-x/?sesssid=123. Như vậy, một nội dung với nhiều hơn 1 URL. Công cụ tìm kiếm sẽ coi đây là lỗi trùng lặp nội dung!

3. Tham số URL sử dụng cho việc theo dõi và phân loại

Một nguyên nhân khác nữa của việc trùng lặp nội dung là khi sử dụng các tham số URL, ví dụ tracking link (điều này không làm thay đổi nội dung trang web). Ta có URL ban đầu của bài viết như sau: http://www.tenmien.com/tu-khoa-x/ và URL http://www.tenmien.com/tu-khoa-x/?source=rss thực chất chỉ tới cùng một nội dung trên website nhưng lại không phải cùng 1 link đối với công cụ tìm kiếm.

Ngoài ví dụ trên, còn rất nhiều các tham số khác có thể đưa vào để phân loại sản phẩm, hiện thị một sidebar khác, …đều không làm thay đổi nội dung trang web nhưng lại dẫn tới lỗi trùng lặp nội dung!

4. Nạn copy nội dung!

Đây là vấn nạn cực kỳ đau đầu. Rất nhiều trang web copy bài viết trên website của bạn, có trang để lại link nguồn tới trang của bạn, có trang không để lại. Và điều này càng thêm phổ biến khi website của bạn có những nội dung chất lượng. Đôi khi, những bài viết “copy” lại đứng trên cả bạn trong trang kết quả tìm kiếm!

5. Thay đổi thứ tự các tham số URL

Giả sử trên URL của bạn có hai tham số /id=1&cat=2 với ID là ID của bài viết, và cat tương ứng với category, nếu ta thay đổi vị trí hai tham số trên /cat=2&id=1 chúng ta vẫn nhận được cùng một bài viết, nhưng với công cụ tìm kiếm, đây là hai URL hoàn toàn khác nhau trỏ về cùng một nội dung. Vì vậy, nó coi đây là lỗi trùng lặp nội dung!

6. Phiên bản in ấn

Rất nhiều website có phiên bản in ấn riêng, và nếu xử lý không tốt, đây lại là một lỗi trùng lặp nội dung không đáng có. Ví dụ, trnag của chúng ta là http://www.tenmien.com/tu-khoa-x/ có phiên bản in ấn http://www.tenmien.com/print/tu-khoa-x.

7. Phân trang Comment

Trong WordPress, hay các CMS khác, có lựa chọn cho phép bạn ngắt bình luận của độc giả thành các trang khi số lượng bình luận quá lớn, điều này dẫn tới việc trùng lặp nội dung khi có nhiều URL khác nhau (/cmt-page-1/, /cmt-page-2/) khi cùng trỏ về một nội dung.

8. Non-WWW vs WWW

Khi cả hai dạng URL (non-www và www) đều có thể truy cập được, thì sẽ xảy ra lỗi trùng lặp nội dung rất nghiêm trọng. Không khác nào website của bạn có thêm 1 bản sao!

Vậy làm sao để chúng ta có thể phát hiện lỗi trùng lặp nội dung trên website của mình?

Cách phát hiện lỗi trùng lặp nội dung trên site

Có một vài phương pháp giúp chúng ta phát hiện lỗi trùng lặp nội dung trên website. Cụ thể như sau:

1. Sử dụng Google Webmaster Tools

Google Webmaster Tools là công cụ rất hữu hiệu giúp quản lý và theo dõi website của chúng ta, trong đó có tính năng phát hiện lỗi trùng lặp nội dung mà không phải ai cũng để ý. Các bạn vào Google Webmaster Tools, trong phần Giao diện tìm kiếm » Cải tiến HTML và xem thông báo về lỗi trùng lặp nội dung có trên site của bạn.

Phát hiện lỗi trùng lặp nội dung sử dụng google webmaster tools

2. Sử dụng công cụ tìm kiếm

Nếu muốn tìm tất cả các URL trên trang web của bạn có chứa “tu khoa x”, bạn đánh lệnh tìm kiếm như sau vào google: site:tenmien.com intitle:”tu khoa x”. Bạn càng làm cụ thể trong phần intitle bao nhiêu, thì kết quả trả về sẽ càng thu hẹp và dễ dàng xác định được URL trùng lặp. Còn nếu bạn chỉ gõ intitle:”tu khoa x”, Google sẽ trả về cho bạn tất cả những trang web có tiêu đề phù hợp với từ khóa trên.

Khi đã phát hiện ra lỗi trùng lặp nội dung có trên website, liệu có cách nào để giải quyết vấn đề này?

Giải pháp cho vấn đề trùng lặp nội dung

Trùng lặp nội dung trên website là lỗi mà bạn có thể hoàn toàn tránh được thông qua việc báo cho công cụ tìm kiếm biết trang nào mới là trang gốc và có một số giải pháp sau:

1. Không tạo ra nội dung trùng lặp

Đặt ra những câu hỏi dựa theo những nguyên nhân gây ra trùng lặp nội dung đã nêu ở trên và khắc phục từng nguyên nhân:

  • URL trang web có chứa Session ID? Nếu có, hãy tắt nó trong phần thiết lập
  • Trang giành cho in ấn có URL khác với trang chính? Tạo ra một trang in ấn riêng là không cần thiết, ta chỉ cần sử dụng CSS trong trường hợp này.
  • Phân trang bình luận? Tính năng này nên được tắt đi, nếu bạn sử dụng WordPress, có thể thiết lập nó trong mục Settings » Discussion.
  • Không thay đổi thứ tự tham số trong URL trang web. Hãy thiết lập ngay từ đầu thứ tự của các tham số URL cho chính xác và không thay đổi nó!
  • Chỉ sử dụng một dạng địa chỉ (non-www hoặc www) và chuyển hướng dạng còn lại về dạng đã chọn. Nếu thay đổi, hãy báo cho google thông qua thiết lập tên miền ưa thích trong Google Webmaster Tools.

2. Chuyển hướng 301

Trong nhiều trường hợp, cách tốt nhất để chống trùng lặp nội dung là chuyển hướng 301 từ trang bản sao sang trang nội dung gốc. Chuyển hướng 301 bạn có thể sử dụng .HTACCESS để thực hiện, hoặc nếu bạn đang sử dụng WordPress, có sẵn nhiều plugin hỗ trợ việc này. Để chuyển hướng trang web bạn sử dụng plugin Redirection. Thạch Phạm có bài hướng dẫn chi tiết bạn có thể tham khảo thêm tại đây.

Tránh trùng lặp nội dung sử dụng Redirect 301 với WordPress SEO by Yoast

3. Sử dụng thẻ rel=”canonical”

Thẻ canonical được Google giới thiệu từ năm 2009 như một giải pháp giúp xác định link gốc của nội dung, tránh việc sao chép cũng như trùng lặp nội dung. Thẻ này được đặt trong phần head của trang web với khai báo như sau: (ví dụ rel=”canonical” với bài viết này)

Trong phần href bạn đặt link gốc chính xác cho bài viết, và khi Google hay bất kỳ công cụ tìm kiếm nào khác, thấy được thẻ link này, nó sẽ chuyển các URL khác nhau thu thập được của trang này về URL gốc.

Bạn để ý hình phía trên, nếu bạn dùng SEO by Yoast cho WordPress, sẽ thấy có phần thiết lập Canonical URL cho từng bài viết.

Lời kết

Vấn đề trùng lặp nội dung là khá phổ biến và cũng rất dễ bị mắc phải. Do đó, bạn cần lưu tâm kiểm tra trang web của mình xem có bị lỗi trùng lặp nội dung hay không, và hoàn toàn có thể tránh được thông qua một vài phương pháp nêu trên. Chúc các bạn thành công!

Trùng lặp nội dung – nguyên nhân và giải pháp!
5 (100%) 3 votes

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *