Data and writing

Source: Nguyen, Tuan @ http://tuanvannguyen.blogspot.com.au

Kĩ năng trình bày: Cách mô tả biểu đồ, hình ảnh và số liệu

Cách nói và diễn giải kết quả (qua biểu đồ và bảng số liệu) đóng vai trò quan trọng trong việc thuyết phục khán giả. Nói cho cùng, một bài báo khoa học có thuyết phục hay không chính là ở dữ liệu, chứ những thảo luận “nhăng nhít” là ý kiến và chẳng thuyết phục ai. Báo cáo khoa học mà không có số liệu là báo cáo … chay. Thuyết phục phải qua bằng chứng thực tế. Nhưng có số liệu rồi, nói như thế nào để thuyết phục đồng nghiệp? Trong bài này tôi sẽ trình bày cách nói và ứng xử trong trả lời sao cho thuyết phục.

Không nói ra, ai cũng biết khoa học khác với thương mại. Điều này có nghĩa là cần phải phân biệt giữa vai trò của nhà khoa học và người bán hàng (salesman). Người bán hàng có mục tiêu bán sản phẩn, họ không làm nghiên cứu. Người bán hàng dùng slides của người khác, kết quả nghiên cứu của người khác mà họ không quen hay không hiểu. Người bán hàng còn có nhiệm vụ quảng cáo, nên họ chỉ có nhiệm vụ đọc slide của người khác, chứ không cần hiểu slide đó nói gì. Họ cũng chẳng cần am hiểu vấn đề, bởi vì chức năng của họ là quảng cáo cho người khác. Vai trò nhà khoa học không phải vai trò của người bán hàng, vì chức năng của khoa học là phải nghiên cứu.

Nhà khoa học trình bày kết quả nghiên cứu của chính họ cộng với đồng nghiệp của họ. Một bài nói chuyện của nhà khoa học do đó phải có những số liệu của chính họ và số liệu của đồng nghiệp, nhưng họ dùng số liệu đồng nghiệp hoặc là yểm trợ cho luận điểm của họ hay để làm thông tin nền. Nhà khoa học phải tự mình soạn slides, theo phong cách của mình, và phải am hiểu mình nói cái gì. Nếu slides của đồng nghiệp thì nhà khoa học cũng phải tỏ ra am hiểu vấn đề, có khả năng diễn giải ra ngoài những gì viết trên slides chứ không phải chỉ đọc. Nhà khoa học cũng quảng cáo, nhưng quảng cáo cho nghiên cứu của chính họ chứ không phải của người khác.

Trong hội nghị khoa học, có nhiều dạng báo cáo, nhưng tựu trung lại có hai dạng: một bài tổng quan (review) được ban tổ chức mời nói, và bài báo cáo nghiên cứu (original presentation) để trình bày kết quả nghiên cứu. Dù là dạng nào thì người báo cáo phải tỏ ra vai trò khoa học của mình. Điều này có nghĩa là – xin nhấn mạnh một lần nữa – những slides phải là của mình soạn ra, chứ không phải của người khác. Đó là những kết quả nghiên cứu của chính mình, chứ không phải của người khác mà mình chỉ cóp lại. Một bài tổng quan, người trình bày có thể sử dụng kết quả của người khác, nhưng bắt buộc phải có những kết quả của chính mình. Ít ra, phải 30% dữ liệu là của mình. Đó là vai trò của người báo cáo khoa học. Do đó, khi báo cáo, nhà khoa học phải có cái gì của mình, chứ không đơn thuần cóp của người khác. Vì là dữ liệu của mình, nên mình phải tỏ ra am hiểu biết cách diễn giải. Nói một cách ví von là nhà khoa học phải “sống” với những dữu liệu của mình, phải biết từ A đến Z, chứ không phải chỉ biết bề mặt qua con chữ. Khi đã biết thì việc nói không còn là vấn đề khó khăn nữa. Nhưng đối với người không quan tiếng Anh thì cần phải học cách nói như những chỉ dẫn dau đây.

Cách nói về bảng số liệu

Số liệu là linh hồn của một báo cáo khoa học. Báo cáo khoa học mà không có số liệu là báo cáo chay, chẳng ai tin, chẳng thuyết phục được ai. Số liệu thường được trình bày bằng 2 dạng chính: bảng và biểu đồ. Nhưng không như một bài báo khoa học (bảng số liệu có thể rất phức tạp), bảng số liệu trong powerpoint phải hết sức “chiến lược” và đơn giản. Đơn giản nhưng đi thẳng vào vấn đề. Nên nhớ rằng khán giả chỉ có 30 giây để lĩnh hội một slide; nếu trong vòng 30 giây họ không hiểu thì xem như tác giả đã thất bại. Do đó, nguyên tắc số 1 của trình bày số liệu là đơn giản, dễ hiểu, và chiến lược.

Trước khi quyết định thiết kế bảng số liệu, bạn phải hỏi: tôi cần bảng này không? Có cách nào trình bày tốt hơn? Một bảng số liệu chỉ có hai con số [chẳng hạn như] 35% nam và 65% nữ chẳng những không cần thiết mà còn … vô duyên. Không cần thiết là vì có thể viết, thay vì cần đến bảng số liệu. Vô duyên là vì 35% nam thì chắc chắn phải 65% nữ, vậy thêm làm gì cho mất thì giờ?! Ấy thế mà những trình bày như thế này rất phổ biến ở người Việt chúng ta!

Mỗi bảng số liệu phải có tựa đề (title). Tựa đề phải nói lên một điểm chính, và để khán giả biết bảng số liệu nói lên điều gì. Cột và dòng cũng phải có tiêu đề (label). Một bảng số liệu mà không có những tiêu đề thì không ai hiểu nổi. Tất cả những viết tắt phải được giải thích ngắn gọn ở phần chú thích (phía dưới mỗi bảng số liệu). Các số liệu phải có đơn vị đo lường (thường ghi trong ngoặc đơn). Nếu số liệu là các giá trị thống kê như “65 ± 12” thì tác giả phải định nghĩa hai con số đó là gì? Có phải là mean ± standard deviation, hay median ± standard error?

Một bảng số liệu trong powerpoint không nên có hơn 4 cột và 5 dòng. Nên nhớ rằng số cột phải ít hơn số dòng. Tuy nhiên, trong thực tế, vẫn có những bảng số liệu phức tạp và khó có cách giảm số cột và số dòng, thì cách thức hay nhất là nhấn mạnh bằng màu những chỗ quan trọng mà tác giả muốn người khác phải chú ý đến. Chẳng những tô đậm mà còn phải nói ra những chỗ đó.

Có thể lấy một bảng số liệu đơn giản dưới đây làm ví dụ:

Cách nói để mô tả slide này có thể như sau (1):

Vào đầu là giới thiệu: This slide shows how the fetus grows from the second month of development to term. I’d like to remind you that we’re referring to developmental age here, in other words, to the time from fertilization.

Giải thích phương pháp: Gynecologists usually refer to gestational age, which is calculated from the mother’s last period and is typically 2 weeks ahead of developmental age. Thus, a developmental age of 8 weeks corresponds to a gestational age of 10 weeks.

Mô tả số liệu: During the third month of development, from the 8th to the 16th week, the fetus grows phenomenally, tripling its length and increasing its weight eightfold (here you should point out the relevant figures in the table).

Mô tả biểu đồ và hình ảnh

Người ta thường nói một hình ảnh có giá trị bằng 1000 chữ. Hình ảnh và biểu đồ dễ gây ấn tượng hơn là con số hay chữ. Có khi một biểu đồ đi vào lịch sử y khoa, nếu được thiết kế tốt và độc đáo. Nên phần lớn báo cáo khoa học bằng powerpoint thường có nhiều biểu đồ và hình ảnh. Do đó, cần phải chú ý đến cách thiết kế biểu đồ sao cho gây ấn tượng và có giá trị lâu dài. Dứt khoát tránh kiểu làm lười biếng như cắt biểu đồ từ Excel hay các phần mềm “rẻ tiền” như thế vào powerpoint, vì nó cho thấy tác giả thiếu tính chuyên nghiệp, xem thường khán giả, và không có đầu tư suy nghĩ vào dữ liệu của chính mình. Cách cắt dán đơn sơ như thế cũng là một cách nói mất lịch sự với khán giả.

Cũng như bảng số liệu, mỗi biểu đồ phải có một tựa đề. Tựa đề báo cho khán giả biết điểm chính mình đang nói là gì. Biểu đồ phải được ghi chú cẩn thận, và cả hai trục tung và trục hoành phải ghi đơn vị đo lường. Cố gắng thiết kế biểu đồ sao cho mỗi biểu đồ là một câu chuyện. Một câu chuyện mà người ta nhìn vào có thể hiểu đó là gì mà không cần tìm hiểu bối cảnh đằng sau những dữ liệu. Do đó, thiết kế biểu đồ khó hơn thiết kế bảng số liệu rất nhiều. Nó còn đòi hỏi cặp mắt thẩm mĩ, chứ không đơn thuần là những con số.

Nói về hình ảnh và biểu đồ phải sử dụng pointer. Nói chuyện bằng powerpoint mà không có pointer thì thà không nói có lẽ hay hơn! Pointer giúp người theo dõi biết diễn giả đang nói về cái gì và ý nghĩa ra sao. Nhưng ngoài kĩ thuật dùng pointer ra, diễn giả còn phải nói. Phải nói ngắn gọn sao cho khán giả lĩnh hội được ý nghĩa của một hình ảnh (nhất là cho người ngoài ngành có thể hiểu được).

Chúng ta thử xem qua hình dưới đây:

Cách mô tả có thể theo trình tự như sau:

Giới thiệu hình này là gì: This is an axial CT slice of the abdomen obtained after administering an intravenous contrast agent.

Mô tả những vị trí cần chú ý (như đừng như lên lớp, mà dùng chữ remember để người ta thấy thoải mái!): Remember that the left side of the image represents the right side of the patient and vice versa. It is important to remember that CT images are generated from X-ray images, so the denser the tissue the brighter it will appear. Thus, bones are white – the bright Y-shaped structure at the bottom in the middle of the image is the spinous process and part of the posterior laminae of a lumbar vertebra. The bright circle above it is the body of the vertebra. The oval structures on either side of the body of the vertebra are the kidneys.

Bây giờ, mô tả nội dung là gì: You can see the left adrenal gland above the left kidney toward the center of the image. The slightly darker, more elongated oval shape to the right of the left kidney in the image is the spleen. The long structure on the left of the image that has a density similar to that of the spleen is the liver. The slightly darker, rounded structure abutting the top half of the liver is the gallbladder. The black spaces at the top of the picture illustrate air in the intestinal loops.

Một hình như thế có thể nói trong vòng 1 phút. Tuy nhiên, vẫn có thể nói thêm chi tiết bên lề (về phương pháp và so sánh) nên có thể thêm 10 hay 20 giây vẫn có thể chấp nhận được.

Nghệ thuật “chuyển tông”

Một trong những bí quyết của một bài nói chuyện hay là biết chuyển tông. Chuyển tông ở đây có nghĩa là chuyển từ phần này sang phần khác. Nhưng nó cũng có nghĩa là dùng những chữ để báo cho khán giả biết mình đang chuyển sang một điểm khác, hay muốn nhấn mạnh một điểm nào đó. Có một số câu mà diễn giả có thể dùng luân phiên (đừng bao giờ dùng một câu suốt thời gian trình bày). Những câu thông thường tùy thuộc vào tình huống. Dưới đây là một số tình huống và cách nói để các bạn tham khảo.

Thêm thông tin có cùng ý nghĩa thông tin diễn giả mới nói xong, có thể dùng những chữ sau đây: what’s more, moreover, further, furthermore, also, additionally, in addition, similarly, first, second, third, last, v.v..

Cho ví dụ: for example, for instance, in particular, let me give you a concrete example, let’s have a look at an example from one of our patients

Nhấn mạnh hay giải thích thêm những gì đã nói: again, in brief, in other words, in short, this means

Nhấn mạnh kết luận như là một hệ quả của lí luận trước đó: therefore, thus, hence, so, consequently, in consequence, as a result, accordingly.

Tóm lược những điểm đã trình bày: in summary, to summarize, in conclusion, to conclude, in short.

Có một cách chuyển tông tôi thấy cũng khá hữu hiệu là đặt câu hỏi. Mình tự đặt câu hỏi và … tự trả lời. :-) Với cách này, khán giả sẽ chú ý, vì họ chờ câu trả lời, và đó cũng là một cách không cho họ ngủ! Tôi đã thí nghiệm nhiều trong hội nghị quốc tế và thấy rất hữu hiệu. Một số câu có thể “phục vụ” cho chiến lược này là:

Mô tả phương pháp:

So, how did we go about investigating this?

To accomplish these objectives, we did …

To investigate this question, we conducted a study …

Giả thuyết:

To test this hypothesis, we designed a series of experiments….

To determine whether A or B, we measured …

To see whether this was true, we selected…

Chuyển từ phương pháp sang kết quả:

So, what did we find?

Let’s have a look at what we found.

We found some interesting results.

The data we collected showed that our hypothesis was partially correct.

Although the study is still underway, our preliminary results show….

Our results are inconclusive...; nevertheless, it seems that….

Contrary to what we expected, we found that ….

Contrary to what you might expect….

We were surprised to discover that ….

Để chuyển từ kết quả sang phần kết luận:

So, what does this tell us?

All these results suggest that ….

We can conclude that ….

Taken together, these results point to three conclusions ….

Although it is still too early to reach a definite conclusion, it seems that ….

Although our data are limited, they do allow us to conclude that ….

This made us wonder….

Trên đây là một vài cách mô tả biểu đồ, bảng số liệu, và cách chuyển tông cho bài nói chuyện hấp dẫn. Như tôi nói trong bài trước, tất cả đều phải tập luyện. Không bao giờ đánh giá thấp bất cứ điều gì trong hội nghị khoa học. Đừng bao giờ nghĩ rằng mình đã hiểu và không cần tập, vì trong thực tế tôi đã thấy nhiều giáo sư nói ấm ớ trên bục giảng chỉ vì thiếu chuẩn bị, trông rất tội nghiệp. Chuẩn bị kĩ càng trước khi trình bày trước khán giả cũng là một cách mình tỏ lòng tôn trọng khán giả. Nên nhớ rằng người ta tiêu tiền và thời giờ đến nghe bạn nói, đừng phụ lòng người ta. Không chuẩn bị kĩ, trình bày qua quít, nói năng nhảm nhí là những điều cấm kị vì chẳng những nó cho thấy người nói thiếu chuyên nghiệp mà còn xem thường người nghe.

===

(1) Giba J, Ribes R. Preparing and delivering scientific presentations: a complete guide. Springer 2011.

Biểu đồ trong bài báo khoa học 1: nguyên tắc

Một trong những vấn đề hay thấy trong các bài báo khoa học ở Việt Nam là cách trình bày dữ liệu bằng biểu đồ. Những biểu đồ được thiết kế quá đơn giản (phần lớn là cắt và dán từ các phần mềm máy tính) và vi phạm hầu như bất cứ nguyên tắc nào của trình bày dữ liệu mà có lẽ tác giả chưa làm quen. Trong loạt bài này, tôi sẽ bàn qua những nguyên tắc trình bày dữ liệu trong biểu đồ.

Biểu đồ có một lịch sử phát triển rất thú vị. Trước thế kỉ 18, dữ liệu khoa học thường được trình bày bằng bảng số liệu (tables), và biểu đồ được xem là vô dụng. Nhưng quan điểm này rất ư là sai lầm. Năm 1786, William Playfair (một nhà kinh tế chính trị học) sáng chế ra biểu đồ thanh (bar chart) và biểu đồ đường dây (line graph) mà chúng ta vẫn còn sử dụng cho đến ngày nay. Năm 1801, Playfair lại sáng chế ra biểu đồ bánh mà sau này trở nên rất thông dụng trong giới kinh tế học và xã hội học. Mãi đến năm 1832, nhà thiên văn học người Anh là Alenander S. Herche sáng chế ra biểu đồ tán xạ (scatter plot) và trở thành rất phổ biến trong khoa học thực nghiệm.

Hình 5: Một biểu đồ thanh và đường dây của William Playfair vào năm 1786

Ngày nay, trong khoa học, biểu đồ là một phương tiện khám phá. Đó không phải là một phát biểu thậm xưng, mà là sự thật. Đứng trước một rừng dữ liệu với hàng triệu mẫu từ DNA và con số, nếu không có biểu đồ thì không cách gì rút ra được những qui luật trong kho tàng dữ liệu, không thể nào tìm được những mối tương quan, thậm chí không thấy được xu hướng phân bố. Do đó, biểu đồ đóng vai trò cực kì quan trọng trong nghiên cứu khoa học.

Không chỉ là một phương tiện khám phá, biểu đồ còn là một phương tiện để truyền đạt khám phá. Một biểu đồ nếu được thiết kế cẩn thận sẽ có hiệu quả rất lớn. Sách giáo khoa thường có những biểu đồ nổi tiếng đến mức có thể xem là lịch sử. Tương tự, trong những buổi giảng của các chuyên gia, chúng ta thấy có nhiều biểu đồ được trình bày nhiều lần ở nhiều nơi, vì đó là những biểu đồ thể hiện những phát hiện quan trọng trong khoa học. Đó là những biểu đồ đi vào kho tàng tri thức nhân loại như là những icon.

Với sự phát triển của máy tính và các chương trình phân tích dữ liệu, việc soạn thảo các biểu đồ càng ngày càng dễ dàng hơn. Thật vậy, chỉ cần một chương trình phổ biến như Excel, hay cao hơn một chút là chương trình phân tích thống kê (như SAS chẳng hạn), các nhà khoa học có thể tạo ra những biểu đồ hấp dẫn và đa dạng. Thế nhưng, ngạc nhiên thay, trong thực tế vẫn còn rất nhiều biểu đồ trong bài báo khoa học được thiết kế một cách rất cẩu thả, chẳng theo một qui tắt nào cả, và làm cho thông điệp của bài báo trở nên khó hiểu.

Ở Việt Nam, người viết bài này đã đọc nhiều luận án và bài báo khoa học, mà trong đó có những biểu đồ quá kém. Đó là những biểu đồ thiết kế quá sơ sài, chủ yếu là cắt và dán từ các chương trình máy tính như Excel. Tác giả cũng tỏ ra chẳng đầu tư thời gian và suy nghĩ để chuyển tải một thông điệp nào, mà chủ yếu là … làm cho có. Thậm chí, có người làm để đủ số trang mà một qui định lạ lùng (nếu không muốn nói là quái gở) nào đó đề ra. Có lần ti đọc một luận án tiến sĩ, mà trong đó cứ mỗi biến số (như số bệnh nhân theo nhóm tuổi) tác giả trình bày qua 3 hình thức: bảng số liệu, biểu đồ, và chữ viết. Cả ba hình thức dĩ nhiên chỉ nói lên một điểm. Do đó, nếu có 10 biến thì tác giả có 10 trang để mô tả, mà trong thực tế có lẽ chỉ cần 0.5 trang là đủ! Tôi ngạc nhiên hỏi tại sao tác giả lại trình bày như thế, thì được biết lí do đơn giản là muốn làm luận án đủ số trang.

Để minh hoạ cho những vấn đề biểu đồ, chúng ta thử xem qua vài biểu đồ hay thấy trong các bài báo khoa học ở Việt Nam dưới đây.

Hình 1: Biểu đồ bánh về một kết quả nghiên cứu

Trên đây là biểu đồ mô tả kết quả. Mỗi biểu đồ thật ra chỉ có 2 con số! Có thể nói là biểu đồ quá đơn giản, đơn giản đến nỗi người ta phải hỏi có cần đến một biểu đồ.

Hình 2: Biểu đồ bánh về hội chứng chuyển hoá

Biểu đồ này chẳng những nghèo nàn về số liệu (chỉ có 3 số liệu), mà còn tốn khá nhiều mực in và cả màu.

Hình 3: Biểu đồ về tỉ lệ bệnh nhân chia theo nhóm có hay không có hội chứng chuyển hoá (hình trên) và theo nhóm tuổi (hình dưới)

Hai biểu đồ trên cũng nghèo nàn về số liệu và chẳng cung cấp thông gì gì quan trọng.

Hình 4: Biểu đồ thể hiện các biến số antiHBs

Biểu đồ này rất khó đọc, một phần là do phông chữ quá nhỏ, một phần là do chọn các bar để thể hiện dữ liệu. Toàn cảnh xem ra rất mù mờ.

Những biểu đồ như trình bày trên thật ra khá phổ biến trên các tập san khoa học trong nước. Có thể nói rằng phần lớn biểu đồ không cung cấp thông tin liên quan hay quan trọng cho thông điệp của bài báo. Đại đa số biểu đồ được soạn một cách hời hợt, làm cho người đọc cảm thấy tác giả hình như chẳng đầu tư vào việc suy nghĩ và thiết kế. Thật ra, trong thực tế, phần lớn các biểu đồ trên các tập san khoa học ở VN là cắt và dán trực tiếp từ các phần mềm như Excel hay phần mềm thống kê. Chính vì thế mà khi đọc những biểu đồ, có nhiều kí hiệu, cách diễn tả rất khó hiểu (lẫn lộn giữa tiếng Anh và tiếng Việt). Một bài báo khoa học với những biểu đồ như thế rất khó có cơ may được chấp nhận cho công bố trên các tập san quốc tế.

Nguyên tắc soạn biểu đồ

Biểu đồ là một cách trình bày dữ liệu khoa học rất hữu hiệu. Người Trung Hoa từng có câu một hình ảnh có giá trị tương đương với một vạn chữ. Thật vậy, đối phó với một rừng số liệu thu thập từ thí nghiệm, vấn đề đặt ra là làm sao khai thác những số liệu này một cách hữu hiệu nhất. Hữu hiệu ở đây phải hiểu là chuyển tải thông tin sao cho cho người xem cảm thấy dễ lĩnh hội nhất. Có ba cách để thể hiện dữ liệu khoa học: dùng chữ viết, bảng số liệu, và biểu đồ. Chữ viết chỉ có thể sử dụng cho những dữ liệu rất đơn giản, chứ không thể hiện được tất cả những xu hướng và dao động của dữ liệu. Bảng số liệu có thể sử dụng cho trường hợp tóm lược những thông tin mang tính chính xác cao. Nhưng biểu đồ có thể sử dụng để chuyển tải những thông điệp về mức độ ảnh hưởng và xu hướng biến thiên của dữ liệu. Do đó, đứng trước quyết định chọn hình thức để thể hiện dữ liệu, biểu đồ phải và nên xem là một hình thức số 1.

Để thiết kế biểu đồ một cách hữu hiệu, cần phải làm quen với cái tên Edward Tufte, vì ông là một guru về biểu đồ. Ông là giáo sư thống kê học của Đại học Yale, giáo sư chính trị học, và giáo sư khoa học máy tính (cũng tại Yale), là người đã có ảnh hưởng cực kì lớn đến lĩnh vực trình bày dữ liệu bằng biểu đồ, qua những công trình có thể nói là đặt nền tảng cho lĩnh vực này (có khi được đề cập đến như là data visualization). Ông là người dám thuế chấp căn nhà mình cho ngân hàng để vay một số tiền làm nghiên cứu và cho ra công trình về data visualization mà sau này ông không bao giờ hối hận (vì quá thành công về tài chính!) Báo New York Times gọi ông là Leonardo Da Vinci of Data.

Edward Tufte đặt ra triết lí và 4 nguyên tắc trong trình bày dữ liệu bằng biểu đồ. Triết lí của thể hiện dữ liệu có thể tóm lược trong câu sau đây: “Graphical excellence is that which gives to the viewer the greatest number of ideas in the shortest time with the least ink in the smallest space” (tạm dịch: triết lí của trình bày dữ liệu bằng biểu đồ là cung cấp cho người xem một lượng thông tin cao nhất trong một thời lượng nhỏ nhất với lượng mực in thấp nhất trong một không gian nhỏ nhất). Như vậy, khi trình bày dữ liệu bằng biểu đồ, cần phải chú ý đến 4 khía cạnh: lượng thông tin, thời gian, lượng mực in, và không gian. Triết lí này có thể xem như là một triết lí hà tiện, tốn ít tài lực nhất để có nhiều thông tin nhất. Để đạt được triết lí đó, Tufte đặt ra 4 nguyên tắc: phản ảnh dữ liệu một cách đầy đủ, tối ưu hoá tỉ số dữ liệu trên mực in, tối ưu hoá mật độ dữ liệu, và trình bày dữ liệu chứ không phải trang trí biểu đồ.

Nói lên sự thật về dữ liệu. Mục tiêu của bất cứ biểu đồ nào cũng là chuyển tải thông tin đến người đọc, và do đó, biểu đồ cần phải nói lên sự thật của dữ liệu. Sự thật ở đây có nghĩa là những dao động của dữ liệu trong mỗi hay giữa các nhóm so sánh. Chẳng hạn như một biểu đồ thanh (bar chart) trình bày số trung bình về huyết áp giữa nhóm can thiệp và nhóm chứng là chưa phản ảnh sự thật của dữ liệu, bởi vì chúng ta biết rằng huyết áp của các cá nhân trong mỗi nhóm dao động khá lớn. Do đó, một biểu đồ có ý nghĩa hơn là biểu đồ hộp (box plot), hay tốt hơn nữa là biểu đồ hộp cộng với những số liệu cho từng cá nhân trong mỗi nhóm.

Tối đa hoá tỉ số dữ liệu trên mực in. Trong một biểu đồ có số liệu và mực in. Mục tiêu của nhà khoa học là trình bày dữ liệu càng nhiều càng tốt so với lượng mực in. Những biểu đồ bánh (pie chart) mà tôi vừa trình bày trên đây cho thấy số liệu rất ít so với lượng mực in (thậm chí có biểu đồ còn dùng cả hai màu!) Những biểu đồ này, vì thế, có tỉ số dữ liệu trên số mực in quá thấp.

Tối đa hoá mật độ dữ liệu. Mật độ dữ liệu có thể ước tính bằng cách lấy lượng số liệu chia cho diện tích của biểu đồ. Nguyên tắc quan trọng trong trình bày dữ liệu là phải tối đa hoá tỉ số này. Các biểu đồ trình bày trên đây có mật độ dữ liệu rất thấp, và do đó, chưa đạt yêu cầu của một biểu đồ có chất lượng cao.

Trình bày dữ liệu một cách đầy đủ, không phải trang trí biểu đồ. Có những biểu đồ mà tác giả trình bày số liệu qua những hình thức rất khác nhau. Biểu đồ sau cùng trong số 4 biểu đồ tôi lấy ra làm ví dụ trên đây cho thấy chỉ là một dữ liệu cho nhiều nhóm, nhưng tác giả cố gắng thể hiện mỗi nhóm một khác. Trong trường hợp này, có thể nói rằng tác giả chịu khó trang trí cho biểu đồ hơn là làm cho số liệu được phản ảnh một cách đầy đủ.

Trong phần sau đây, tôi sẽ bàn qua về những chỉ số phản ảnh 4 nguyên tắc trên. Đó là những chỉ số liên quan đến yếu tố gian dối (lie factor), tỉ số dữ liệu trên mực in, mật độ dữ liệu, và tính nhất quán trong cách trình bày. Tôi cũng sẽ lấy vài ví dụ để minh hoạ cho những loại biểu đồ mà Edward Tufte gọi là rác rưởi (junk chart) từ báo chí Việt Nam.

(còn tiếp …)

Tham khảo và đọc thêm:

Wainer H. Graphical discovery: a trout in the milk and other visual adventures. Princeton, NJ: Princeton University Press, 1997.

Tufte ER. The visual display of quantitative information (2nd Ed). Cheshire, CT: Graphics Press, 2001.

Tukey JW. Exploratory data analysis. Reading, MA: Addison-Wesley, 1977.

Biểu đồ trong bài báo khoa học 2: yếu tố dối

Trong bài trước tôi đã mô tả triết lí và 4 nguyên tắc trong việc soạn biểu đồ khoa học. Tiếp theo bài đó, bài này sẽ bàn về lie factor mà tôi tạm dịch là yếu tố dối hay đúng hơn là chỉ số dối. Khái niệm chỉ số dối cũng là một phát kiến quan trọng của Gs Edward Tufte, nhưng rất ít người biết đến. Chỉ số dối cho phép chúng ta đánh giá một biểu đồ có "gian dối" hay không. Chỉ số dối cũng là một kim chỉ nam để chúng ta có thể thiết kế một biểu đồ đạt chuẩn mà không bị chỉ trích là thiếu thành thật.

Thỉnh thoảng chúng ta thấy những biểu đồ được “điều chỉnh” để làm cho độ ảnh hưởng lớn hay nhỏ. Đây là một thủ thuật cổ điển để nâng cao tầm ảnh hưởng có vẻ lớn hơn thực tế. Chẳng hạn như biểu đồ dưới đây so sánh số thu nhập của hãng Nokia trong năm 2000 là 30376 triệu Euro, và năm 2001 là 31191 triệu Euro. Nhưng để gây ấn tượng, người trình bày có thể thay đổi trục tung: thay vì bắt đầu từ 0, biểu đồ bắt đầu từ 30,000! Kết quả là một biểu đồ … ấn tượng.

Nhưng nếu biểu đồ được thiết kế lại với trục tung bắt đầu từ 0 (hình bên phải), thì kết quả không mấy ấn tượng. Do đó, vấn đề ở đây có yếu tố tâm lí. Biểu đồ bên trái cho thấy mức độ ảnh hưởng thị giác có vẻ cao hơn thực tế, nhưng biểu đồ bên phải có vẻ phản ảnh đúng với thực tế hơn. Tuy nhiên, đó chỉ là cảm nhận, chúng ta chưa có gì để định lượng sự khác biệt giữa mức độ ảnh hưởng thực tế và ảnh hưởng của biểu đồ. Chỉ số dối là một thước đo có thể dùng để đánh giá sự khác biệt giữa hai ảnh hưởng.

Chỉ số dối là một khái niệm không mấy phổ biến trong thế giới khoa học. Rất nhiều người làm nghiên cứu khoa học chưa bao giờ nghe đến chỉ số này (và do đó họ liên tục phạm sai lầm trong việc soạn biểu đồ!) Một cách ngắn gọn (và không cần dùng đến công thức toán), chỉ số dối phản ảnh mức độ lệch giữa độ ảnh hưởng trên biểu đồ và độ ảnh hưởng của dữ liệu. “Độ ảnh hưởng” ở đây phải hiểu theo nghĩa tiếng Anh làeffect size. Chẳng hạn như nếu chúng ta có hai số liệu x1 và x2 của hai nhóm, thì “độ ảnh hưởng” ở đây là (x2 – x1)/x1 hay (x1 – x2)/x1.

Tufte khuyến cáo rằng việc thể hiện số liệu trên nền của biểu đồ phải theo tỉ lệ thuận với định lượng của trục tung và trục hoành. Nếu số liệu cho thấy tỉ lệ tăng trưởng là 30%, và biểu đồ cũng thể hiện con số đó, thì không có vấn đề gì. Nhưng nếu biểu đồ được thiết kế làm cho mức độ ảnh hưởng lớn hơn mức độ thật thì đó là một sự gian dối. Do đó, Tufte định nghĩa Lie factor (tạm dịch: Yếu tố dối) là tỉ số của mức độ ảnh hưởng trình bày trên biểu đồ với mức độ ảnh hưởng của số liệu. Gọi LF là yếu tố dối, định nghĩa này có nghĩa là:

LF = ESgraph / ESdata

Trong đó, ESgrap là mức độ ảnh hưởng của biểu đồ (effect size in graph), và ESdata là mức độ ảnh hưởng của số liệu (effect size in data). Biểu đồ nên được thiết kế sao cho LF gần bằng 1. Nói cách khác, LF càng cao thì mức độ nói dối càng cao.

Chúng ta có thể lấy một ví dụ sau đây để làm ví dụ. Trong biểu đồ dưới đây, tác giả trình bày nồng độ estrogen cho hai nhóm (Group 1 và Group 2). Nhìn qua biểu đồ, chúng ta có lẽ rất ấn tượng vì nồng độ estrogen có vẻ rất khác biệt giữa hai nhóm bệnh nhân. Nhưng nếu nhìn kĩ, chúng ta thấy có rất nhiều vấn đề trong biểu đồ này, nhưng chúng ta bàn qua yếu tố dối trước.

Hình 5: nồng độ estradiol của nhóm 1 và nhóm 2

Để xem yếu tố dối, chúng ta cần phải tính mức độ ảnh hưởng của dữ liệu. Chú ý rằng Nhóm 1 có nồng độ estrogen là 10, và nhóm 2 là 15. Do đó, mức độ ảnh hưởng có thể tính bằng cách lấy giá trị cao nhất trừ cho giá trị thấp nhất, và chia kết quả cho giá trị thấp nhất:

ESdata = (15 – 10) / 10 = 0.5

Mức độ ảnh hưởng của biểu đồ có thể tính từ trục tung. Chú ý biểu đồ có 8 đường ngang (bắt đầu từ 0 đến 7), nhưng chúng ta chú ý từ 1 đến 6. Do đó, mức độ ảnh hưởng trên biểu đồ là:

ESgraph = (6 – 1) / 1 = 5

Từ đó, chúng ta có thể ước tính yếu tố dối là:

LF = 5 / 0.5 = 10

Biểu đồ này có yếu tố dối quá cao. Mức độ ảnh hưởng trên biểu đồ cao gấp 10 lần mức độ ảnh hưởng thật. Chính yếu tố này giải thích tại sao chúng ta cảm nhận rằng mức độ ảnh hưởng rất cao, nhưng trong thực tế thì không hẳn như thế.

Giới báo chí thường hay dùng biểu đồ một cách … dối gian. Một ví dụ khác về yếu tố dối có thể xem qua biểu đồ dưới đây (trích từ một cuốn sách của Tufte). Biểu đồ cho thấy năm 1978, mỗi gallon xăng chạy được 18 mile, nhưng đến năm 1985 thì mỗi gallon xăng chạy được 25 mile, tức là xăng dầu càng ngày càng có hiệu suất kinh tế hơn.

Hình 6: Lượng xăng dầu tiêu thụ trên mỗi mile từ 1978 đến 1985

Nhưng vì cách trình bày biểu đồ thiếu thành thật, nên làm cho chúng ta có ấn tượng rất tốt. Nhưng nhìn kĩ thì số liệu của năm 1978 là 18 inch dài, còn năm 1985 là 27.5 inch. Mức độ ảnh hưởng thật sự (tức từ dữ liệu) là:

ESdata = (27.5 - 18) / 18 = 0.53 .

Nhưng mức độ ảnh hưởng qua cách thiết kế biểu đồ thì rất cao. Chú ý rằng trục hoành cho năm 1978 là 0.6 inch, còn năm 1985 là 5.3 inch. Do đó, mức độ ảnh hưởng ảo trên biểu đồ là:

ESgraph = (5.3 – 0.6) / 0.6 = 7.83.

Như vậy, yếu tố dối gian là gần bằng 15! (LF = 7.83 / 0.53 = 14.8).

Nhưng biểu đồ dưới đây thì không có yếu tố gian dối, vì yếu tố dối bằng 1. (Các bạn có thể tính để kiểm tra).

Hình 7: nồng độ estradiol của nhóm 1 và nhóm 2

Tóm lại, nguyên tắc số 1 của trình bày dữ liệu bằng biểu đồ là nói lên sự thật về dữ liệu. Một cách để "nói lên sự thật" là tối thiểu hoá chỉ số dối bằng hoặc gần bằng 1 (như biểu đồ 7). Nhưng trong thực tế thì biểu đồ này vẫn chưa đạt yêu cầu của một biểu đồ tốt. Tại sao chưa đạt thì tôi sẽ giải thích trong một bài kế tiếp.

(Còn tiếp ...)

Biểu đồ trong bài báo khoa học 3: tỉ số dữ liệu trên mực in

Chỉ số dối (lie factor) phản ảnh mức độ ảnh hưởng thể hiện trên biểu đồ so với mức độ ảnh hưởng thể hiện qua dữ liệu. Dĩ nhiên, đó chỉ là hiệu ứng thị giác, chứ trong thực tế thì con số vẫn là … con số, không thể thay đổi được. Một khía cạnh khác trong việc trình bày biểu đồ là lượng dữ liệu và lượng mực in. Một biểu đồ có quá nhiều mực in mà quá ít dữ liệu không chỉ là một sự phí phạm mà còn là một biểu đồ tồi. Để đo sự tương quan giữa lượng mực in và lượng mực dành cho biểu đồ, Edward Tufte đề nghị dùng chỉ số dữ liệu trên mực in (data – ink ratio).

Để cảm nhận được vấn đề, chúng ta có thể xem qua biểu đồ dưới đây:

Biểu đồ trên mô tả mối liên hệ giữa hai biến số (thể hiện qua trục hoành và trục tung). Nhìn qua thì cũng không có vấn đề gì nghiêm trọng, nhưng nếu nhìn kĩ chúng ta dễ dàng thấy biểu đồ quá nghèo nàn. Tất cả biểu đồ thật ra chỉ có 2 số liệu. Nhưng những “thông số” của biểu đồ thì rất nhiều. Màu nền là màu xám, tốn rất nhiều mực. Biểu đồ có 8 lằn ngang, 13 chữ số cho trục tung và trục hoành. Nếu tính diện tích mực in của biểu đồ thì chắc cũng phải 60 cm^2! Ấy thế mà chỉ có 2 số liệu trên ngần ấy diện tích. Biểu đồ này có vấn đề.

Một nguyên tắc quan trọng trong thiết kế biểu đồ là sử dụng mực in để trình bày dữ liệu chứ không phải để trang trí cho biểu đồ. Do đó, Tufte đề nghị dùng tỉ số mực in dành cho dữ liệu trên tổng số lượng mực in để đánh giá một biểu đồ. Nói cách khác, gọi DIR (data-ink ratio) là tỉ số dữ liệu và mực in, DIR được định nghĩa như sau:

DIR = (số mực dùng cho dữ liệu) / (tổng số mực dùng trong biểu đồ)

Tỉ số này cũng có thể hiểu như là tỉ số của tín hiệu trên nhiễu (signal over noise ratio). Tỉ số này cũng nên gần bằng 1. Theo đó, nên xoá bỏ những mực in không dùng cho dữ liệu hay thừa thải. Để minh hoạ cho khái niệm DIR, chúng ta có thể xem qua biểu đồ dưới đây:

Hình 7: Thời gian cần thiết để làm xong một việc cho 4 nhóm tình nguyện viên

Trong biểu đồ trên, chúng ta dễ dàng thấy có quá nhiều mực dành cho trang trí. Thứ nhất là màu nền (màu xám nhạt) là không cần thiết. Tại sao cần màu nền? Thứ hai làlegend, “Time (min)”, cũng không cần thiết. Thứ ba là những đường ngang cũng không cần thiết. Ngay cả cách viết “Group A”, “Group B”, v.v. lặp lại chữ “Group” đến 4 lần! Biểu đồ trên có thể thiết kế lại như sau, bằng cách bỏ màu nền:

Hình 8: Thời gian cần thiết để làm xong một việc cho 4 nhóm tình nguyện viên (vẽ lại)

Thật ra, cách chọn biểu đồ thanh cũng có thể phải thảo luận thêm, bởi vì biểu đồ này không phản ảnh đầy đủ dữ liệu. Biểu đồ thanh trên đây chỉ phản ảnh có thể là số trung vị hay trung bình, và 4 chữ số này có thể mô tả bằng chữ chứ không cần đến biểu đồ. Tuy nhiên, nếu chọn biểu đồ, chúng ta cần phải chọn biểu đồ khác để thể hiện dữ liệu. Tôi nghĩ biểu đồ hộp sẽ thích hợp hơn. Với biểu đồ hộp, chúng ta có thể trình bày số trung bình, trung vị, cự li, độ lệch chuẩn, v.v. Do đó, ngay cả cách thiết kế trên cũng chưa tối ưu.

Dưới đây là một ví dụ về biểu đồ có quá nhiều mực cho trang trí:

Hình 9: Mối tương quan giữa hai biến số

Biểu đồ này có quá nhiều gridlines dễ làm cho người xem mất tập trung. Có thể đơn giản thành:

Hình 10: Mối tương quan giữa hai biến số (biên tập lần 1)

Thật ra, nếu mục tiêu là chỉ ra mối tương quan thì những đường ngang đó cũng không cần thiết, và biểu đồ có thể đơn giản hơn nữa:

Hình 11: Mối tương quan giữa hai biến số (biên tập lần 2)

Ngay cả những đường enclosed cũng không cần. Do đó, biểu đồ có thể cải tiến thành:

Hình 12: Mối tương quan giữa hai biến số (biên tập lần 3)

Nói tóm lại, khi thiết kế biểu đồ, ngoài việc tối thiểu hoá chỉ số dối, tác giả cần phải tối đa hoá chỉ số dữ liệu trên lượng mực in. Để tối đa hoá chỉ số này, tác giả phải đặt câu hỏi “nếu tôi xoá bỏ những vết mực này, lượng thông tin có giảm không?” Nếu câu trả lời là không, thì tác giả có thể thẳng tay xoá bỏ những chỗ không cần thiết. Nên nhớ rằng dữ liệu là tín hiệu, và lượng mực không dùng cho dữ liệu là nhiễu; do đó, thiết kế biểu đồ chúng ta cần tối đa hoá lượng tín hiệu và tối thiểu hoá độ nhiễu.

(Còn tiếp …)

Biểu đồ trong bài báo khoa học 4: mật độ dữ liệu

Nguyên tắc số 3 trong trình bày biểu đồ là tối đa hoá mật độ dữ liệu (data density index). Hai bài trước đã bàn về tỉ số dữ liệu trên mực in và chỉ số dối. Trong bài này tôi sẽ bàn về mật độ dữ liệu và sự nhất quán trong cách trình bày. Ngoài ra, tôi cũng chia sẻ một loại biểu đồ mà Edward Tufte đặt tên là junk chart (biểu đồ rác rưởi) rất phổ biến trong báo chí. Đây là bài cuối cùng trong loạt bài viết về cách trình bày dữ liệu bằng bảng đồ. Tufte định nghĩa mật độ dữ liệu (data density index hay DDI) là số số liệu tính trên diện tích của biểu đồ. Nguyên tắc chung là tối đa hoá DDI, vì mục tiêu chính của nhà khoa học là trình bày dữ liệu càng nhiều càng tốt.

Biểu đồ dưới đây trình bày số đối tượng nghiên cứu cho nhóm nam và nữ. Trong thực tế, biểu đồ này rất vô dụng vì tất cả chỉ có 2 số liệu mà thôi, nhưng chiếm rất nhiều không gian. Nếu chúng ta đo chiều cao và chiều ngang của biểu đồ (có thể tính bằng cm) thì sẽ có diện tích. Nhưng giả dụ như diện tích của biểu đồ là 10 cm^2, thì mật độ dữ liệu chỉ 2 / 10 = 0.2, tức rất thấp. Trong trường hợp này, tác giả không cần đến biểu đồ, mà chỉ đơn giản mô tả bằng chữ là đủ.

Hình 13: Số học sinh phân chia theo giới tính

Biểu đồ dưới đây thể hiện mối tương quan giữa chiều cao (trục hoành) và trọng lượng (trục tung). Tác giả còn dùng màu để phân biệt dữ liệu cho nam và nữ. Biểu đồ có rất nhiều dữ liệu và thông tin. Đây là biểu đồ có mật độ dữ liệu cao, và có thể xem là rất tốt.

Hình 14: Mối tương quan giữa chiều cao và cân nặng cho nam và nữ

Edward Tufte làm một nghiên cứu nhỏ để so sánh mật độ dữ liệu của các tạp chí khoa học phổ thông và khoa học chuyên môn. Kết quả cho thấy tập san khoa học nhưNature có mật độ dữ liệu cao nhất (7.4) so với Scientific American (0.8) và Times(2.8). Bài học ở đây là để tăng cao xác suất công bố trên những tập san lớn, cần chú ý đến tối ưu hoá mật độ dữ liệu trong biểu đồ.

Nhất quán trong cách thể hiện dữ liệu

Một nguyên tắc quan trọng khác trong thể hiện dữ liệu là trình bày những biến đổi của dữ liệu, chứ không phải thay đổi hình thức (như màu) để thể hiện một dữ liệu. Biểu đồ dưới đây là một ví dụ cho sự “vi phạm” nguyên tắc vừa đề cập:

Hình 15:Phần trăm hút thuốc lá qua trong thời gian 1974 đến 1994

Tác giả dùng hai màu xanh một cách luân phiên để chỉ mô tả tỉ lệ hút thuốc ở Anh. Năm thì không rõ ràng, đáng lẽ phải là 1974, 1978, 1982, …, 1994, nhưng tác giả để cho người đọc phải suy đoán. Đó là một điều đại kị trong phương pháp trình bày dữ liệu. Ngoài ra, những con số phần trăm (45%, 40%, v.v.) hình như được đặt vào những vị trí rất tuỳ tiện, chứ chẳng theo một qui luật nào cả. Có thể xem đây là một biểu đồ rất kém. Biểu đồ này có thể thiết kế lại tốt hơn, nhưng tôi để cho bạn đọc suy nghĩ và thử làm :-).

Tránh biểu đồ rác rưởi (Chart junk)!

Thuật ngữ “Chart Junk” cũng là một sáng kiến của Edward Tufte. Ông gọi biểu đồ rác rưởi là cách thể hiện dữ liệu một cách “hoa hoè” hay loè loẹt. Đây là cách thể hiện dữ liệu của giới báo chí hay nghệ sĩ. Những người này vì không am hiểu khoa học, nên hay lạm dụng những hình ảnh làm độc giả thiếu tập trung vào thông điệp chính của dữ liệu. Cần tránh những biểu đồ rác rưởi.

Một ví dụ tiêu biểu về biểu đồ rác rưởi mà Edward Tufte lấy ra để làm minh hoạ là biểu đồ dưới đây. Biểu đồ trình bày giá của kim cương từ năm 1978 đến 1982. Thay vì đường biểu diễn màu đỏ là đủ, người thiết kế biểu đồ cho thêm hình ảnh một cô gái trong tư thế gợi cảm. Với biểu đồ này, chắc chắn làm cho phần lớn người đọc không chú ý vào dữ liệu mà chăm chú nhìn vào cô gái, và thế là tác giả không đạt được mục tiêu của mình.

Hình 16: Biểu đồ biến động giá kim cương

Biểu đồ có thể giúp cho chúng ta “dấn thân” vào chủ đề nghiên cứu mà có khi chữ không làm được. Thiết kế biểu đồ tốt cũng đòi hỏi nỗ lực cao như viết một bài báo khoa học. Một biểu đồ tốt có thể đi vào lịch sử và tồn tại với thời gian rất lâu. Chúng ta hay thấy có nhiều sách giáo khoa hay những bài giảng có những biểu đồ thuộc vào hạng cổ điển, vì những biểu đồ đó chuyển tải thông tin đầy đủ và đạt những chuẩn mực về thiết kế biểu đồ mà tôi trình bày trên đây. Do đó, cần phải đầu tư thời gian và công sức vào cách trình bày dữ liệu và thiết kế biểu đồ.

Trước khi soạn một biểu đồ, cần phải trả lời những câu hỏi sau đây:

Ai là độc giả của biểu đồ, hay ai sẽ dùng?
Chọn hình thức thể hiện (biểu đồ thanh, biểu đồ tán xạ, v.v.)
Sắp xếp dữ liệu thích hợp cho trục tung và trục hoành.
Thêm vào các biến cần thiết.
Biên tập nhiều lần để tăng mật độ dữ liệu.

Sau đó là tuân thủ theo 4 nguyên tắc vừa mô tả trên. Xin nhắc lại đó là nguyên tắc tối ưu hoá yếu tố dối, tỉ số dữ liệu trên mực in, tỉ số dữ liệu trên diện tích biểu đồ, và tránh những hình thức màu mè (rác rưởi) dễ làm cho người đọc xa rời thông điệp chính của số liệu. Hi vọng rằng những nguyên tắc và chỉ dẫn trên đây sẽ giúp cho các bạn có được một bài báo khoa học tốt và những biểu đồ đi vào lịch sử. :-)

N.V.T

Xem các bài trước:

Biểu đồ trong bài báo khoa học 1: nguyên tắc

Biểu đồ trong bài báo khoa học 2: yếu tố dối

Biểu đồ trong bài báo khoa học 3: tỉ số dữ liệu trên mực in

TB. Sau đây là vài biểu đồ trước và sau khi biên tập / thiết kế lại:

Biểu đồ 17 trước:

Biểu đồ 17 sau khi thiết kế lại: