10 ĐIỀU RÚT RA TỪ HỒ SƠ PANAMA

Năm 2016, 11,5 triệu tư liệu mật của chúng ta Panama Mossack Fonseca bị rò rỉ mang lại thấy, thông tin chi tiết của hơn 214 ngàn công ty “ma” được ra đời để trốn thuế, bao hàm cả danh sách của những cổ đông và các giám đốc. Trong những danh sách này có khá nhiều nhà chủ yếu trị và những tổ chức giàu có, nhiều thế lực của khá nhiều quốc gia. Cả thế giới chấn động, mà lại ít tín đồ biết là để cách xử trí khối tài liệu lớn lao này, giới báo chí truyền thông đã nên tiếp cận với công nghệ số hiện tại đại, mà thời nay người ta call là technology Dữ liệu lớn.

Bạn đang xem: 10 Điều Rút Ra Từ Hồ Sơ Panama

*
Biếm họa về vụ hồ sơ Panama. Giới media (Media) vẫn soi rọi hồ hết tài liệu về việc trốn thuế (Tax evasion) Tranh của Paresh bên trên The Khaleej Times, Dubai

* nắm tắt về làm hồ sơ Panama

Hồ sơ Panama là gì? Là lượng tài liệu mật kếch xù tiết lộ phương thức những người giàu sang và quyền lực tối cao giấu gia sản của họ.

Hồ sơ Panama tới từ đâu? Ai tiết lộ? Đến trường đoản cú cơ sở tài liệu nội bộ của công ty luật Mossack Fonseca của Panama, nhà hỗ trợ dịch vụ gia sản ở nước ngoài lớn thứ tư thế giới. Mossack Fonseca hoạt động hợp pháp nhưng luôn bị chỉ ra rằng chuyên cung ứng ngầm những dịch vụ cọ tiền, trốn thuế. Nhân vật bật mí Hồ sơ Panama lấy bí danh “John Doe” nói rằng không từng thao tác làm việc cho một cơ sở tình báo tuyệt cơ quan chính phủ nước nhà và chính sự bất đồng đẳng thu nhập đã thúc đẩy người này chia sẻ tài liệu mật. Tài liệu được chuyển đến Liên đoàn Phóng viên điều tra quốc tế (ICIJ) và tổ chức này đã cung cấp đến khoảng 400 các nhà báo trên 107 tổ chức truyền thông tại hơn 80 nước nhà để phân tích.

Có gì trong số tài liệu? trong số tài liệu có: thông tin những giao dịch rời tiền mặt, ngày ra đời các công ty, links giữa những công ty và cá nhân, phương thức giúp quý khách hàng rửa tiền, tránh các biện pháp trừng phạt cùng trốn thuế.

* Hồ sơ Panama to đến độ lớn nào?

Hồ sơ Panama bao gồm 11,5 triệu tài liệu liên quan đến 214 ngàn công ty, chiếm phần một dung tích lên mang lại 2,6TB (tức 2.600GB). Những tài liệu này sẽ không đơn thuần là một trong những loại dữ liệu mà bao gồm nhiều định dạng khác biệt như: e-mail, các tập tin PDF, hình hình ảnh và các trích dẫn từ 1 cơ sở dữ liệu nội cỗ hãng Mossack Fonseca. Các tài liệu trải lâu năm từ những năm 1970 đến ngày xuân năm 2016, bao gồm 4.804.618 email, 3.047.306 tập tin từ đại lý dữ liệu, 2.154.264 tập tin PDF, 1.117.026 hình ảnh, 320.166 tập tin văn bản, cùng 2.242 tập tin trong số định dạng khác.

Dung lượng tài liệu nhỉ này to hơn hẳn các trường hòa hợp rò rỉ trước đây. Báo Guardian (Anh) đã cần sử dụng hình ảnh minh họa sau để cho biết thêm lượng tài liệu của làm hồ sơ Panama to hơn không hề ít so với dữ liệu các vụ rò rỉ thông tin khác.

Người ta cầu tính rằng, nếu như một tín đồ ngồi xem mang đến hết các tài liệu này đã mất 30 năm. Ấy là chỉ coi một lượt toàn bộ các tư liệu chứ không có nhận định phân tích gì cả! Trên thực tế có cho 376 công ty báo trực thuộc 110 công ty đối tác truyền thông của 80 nước cùng tham gia giải pháp xử lý tài liệu này, nhưng lại cũng ko thể xử lý nổi khối lượng dữ liệu lớn tưởng bằng những phương pháp quen thuộc. Phải đề nghị đến sản phẩm công nghệ tính!

*
Trong hình, lượng tài liệu của các vụ rò rỉ khác được thể hiện bởi diện tích các ô nhỏ dại màu sáng, lượng dữ liệu của làm hồ sơ Panama bằng toàn bộ diện tích phần còn lại

Thế cơ mà có laptop cũng không hẳn đã giải quyết được vấn đề. Những chương trình xử lý dữ liệu trên máy vi tính thường chỉ xử lý các dữ liệu thuần nhất, nhưng các dữ liệu ở chỗ này vừa nhiều vừa nhiều dạng. Các khối tài liệu có kết cấu khác nhau vẫn là tinh vi rồi, lại còn chủng loại khác biệt nữa (mail, file PDF, hình ảnh…). Đây đó là đặc thù của tài liệu lớn.

Vậy những nhà báo vẫn làm như vậy nào? bọn họ hãy coi lời nói của 2 nhà báo tham gia chiến dịch là Jérémie Baruch cùng Maxime Vaudano, công ty báo tài liệu của tờ Decodeurs, đăng trên tờ Le Monde (Pháp) mon 4-2016.

* Họ đã làm thay nào? Lời đề cập của Jérémie Baruch và Maxime Vaudano:

Cần phải gồm một điều khoản tìm kiếm có hiệu năng cao để tìm hiểu các các đại lý dữ liệu. Đội ngũ nghệ thuật của ICIJ đã có sẵn một công cụ to gan mẽ, dựa trên khối hệ thống Solr với được cải tiến dành mang đến chiến dịch này. Khối hệ thống có những toán tử tìm kiếm kiếm tiên tiến và phát triển (“AND”, “OR”, kiếm tìm kiếm cùng với độ đúng chuẩn cao rất nhiều từ trong vết ngoặc kép) và một khối hệ thống các “cửa sổ nhỏ” để tuyển lựa hàng ngàn tác dụng mà một số trong những cuộc tra cứu kiếm đã tạo thành nhờ các siêu tài liệu (dạng văn bản, ngày tạo ra văn bản, doanh nghiệp liên kết). Hệ thống cũng cho phép trích xuất văn phiên bản thô từ hàng chục định dạng tập tin, tự dạng văn bạn dạng .PDF đến dạng văn bản .DOC, qua dạng văn phiên bản .MSG (dạng thư điện tử gắn thêm với Microsoft Outlook).

Xem thêm:

Nhưng trên hết, điều khoản được vật dụng một chính sách tìm kiếm gần đúng (fuzzy search) chất nhận được tìm tìm thoáng hơn. Ví dụ tìm kiếm “Jean Dupont” sẽ đã tạo ra cả “Dupont Jean” xuất xắc “Jean Edouard Michel Dupont”.

Mặc cho tất cả tính năng này, shop chúng tôi đã phải đối mặt những tiêu giảm về kết cấu liên quan đến thực chất thông tin “rò rỉ”. Có rất nhiều tài liệu mà phiên bản gốc ko dưới hầu như dạng nhưng mà máy tính hoàn toàn có thể hiểu được (như bên dưới dạng scan, hình ảnh) đang được giải pháp xử lý qua một hệ thống nhận dạng cam kết tự quang học (OCR) của ICIJ. Chuyên môn này dù tốt đến đâu cũng đều có nguy cơ bỏ qua những trường đoản cú ghi dìm sai, như chữ viết tay hoặc bạn dạng scan kém hóa học lượng.

Những lỗi chính tả hoặc gửi ngữ âm sai tên các cá nhân có thể làm cho những nhân vật dụng đó ra khỏi sự phát hiện của chúng tôi. Chưa kể tới vấn đề dịch thuật từ những chiếc tên giờ đồng hồ Nga hay china được viết theo bảng chữ cái Kirin hay chữ tượng hình…

Sau quá trình thăm dò trước tiên các dữ liệu mang tính lộn xộn, chúng tôi đã phải hợp lý và phải chăng hóa công việc tìm kiếm để đảm bảo an toàn không vứt qua những cái tên quan lại trọng. Về vấn đề này, tổ chức ICIJ trong quy trình thực hiện dự án công trình đã phát triển một phép tắc tìm tìm theo khối (batch search). Thay vị tìm tìm từng cái tên một, thì chúng ta cũng có thể đưa vào cơ chế tìm tìm một list có kết cấu những mẫu tên. Sau đó 1 vài phút, hình thức sẽ cho ra một bảng công dụng dưới định dạng .CSV, gồm chứa tất cả những lần mở ra được search thấy so với mỗi mục nhập của danh sách. Phần còn lại là gạn lọc “gạo cùng với trấu” như đối với mọi nguyên lý tìm kiếm.

Chúng tôi còn dùng rất nhiều cách khác để tìm ra danh sách những người đáng quan tiền tâm. Cùng với 214.488 công ty “ma” search được, gồm trên 450 ngàn cổ đông, vớ cả đều có một địa chỉ cửa hàng bưu điện tương ứng. Với ứng dụng xử lý tài liệu OpenRefine, cửa hàng chúng tôi đã “làm sạch” và cân đối các địa chỉ cửa hàng này nhằm trích xuất list cổ đông đề nghị thiết, sau đó sử dụng một bí quyết có hệ thống công cố tìm tìm Google để phát hiện nay ra những nhân vật có chức năng là quan liêu trọng.

Sự phức hợp của phần nhiều dàn dựng sinh hoạt nước ngoài, với rất nhiều công ty bình phong lồng trong nhau giống như các con búp bê Nga, đã có tác dụng cho quá trình lần theo dấu vết của không ít người thụ hưởng trọn thực rất vất vả. Do vậy, ICIJ đã cung ứng cho các đối tác doanh nghiệp truyền thông một giải pháp hiển thị bằng đồ thị, Linkurious, sẽ giúp thăm dò những cơ sở dữ liệu được dễ dàng. Cầm thể, lý lẽ này đã links 4 thực thể không giống nhau có tên trong phần “có cấu trúc” của thông tin rò rỉ: những công ty, những trung gian, những cổ đông và showroom của họ. Nó được cho phép thực hiện mọi tìm kiếm cấp tốc và trực quan liêu về các thực thể này.

* Sự khởi đầu của khảo sát báo chí vào thời đại technology 4.0

Trên đây chỉ là một phần lời đề cập của 2 nhà báo về những quá trình mà họ đã phải thực hiện để khám phá về hồ sơ Panama. Jérémie Baruch cùng Maxime Vaudano, sau thời điểm kể lại hồ hết điều đã từng qua, kết luận: Đây là sự khởi đầu của rất nhiều gì hoàn toàn có thể là bước tiếp theo của điều tra báo chí với sự hỗ trợ của sản phẩm tính: việc thực hiện một biện pháp có khối hệ thống các công cụ dữ liệu lớn, điều mà tới thời điểm này còn số lượng giới hạn trong nghành nghề dịch vụ nghiên cứu cùng doanh nghiệp, và vẫn còn rất xa lạ với giới truyền thông.

Còn giám đốc của tờ Le Monde thì viết trong bài bác xã luận của mình: Đối phương diện với sự chuyển đổi của cuộc điều tra sang thời đại tài liệu lớn là bài toán 110 công ty đối tác truyền thông gia nhập cuộc điều tra đã phải từ vứt cuốn sổ tay thu về và cây cây viết chì để thực hiện những dụng cụ điện toán tiên tiến.

Cuộc biện pháp mạng công nghiệp 4.0 với những công nghệ nổi trội của nó là Trí tuệ tự tạo (AI), dữ liệu lớn (Big Data) đang tác động đến toàn bộ mọi lĩnh vực, ngành nghề, trong các số ấy có giới truyền thông. Mẩu chuyện về làm hồ sơ Panama là 1 minh triệu chứng sống động.