Cinnamon AI Marathon Q&A

Anh Lê Thái Hưng - kỹ sư nghiên cứu AI của Cinnamon sẽ chia sẻ về chủ về "A Story on OCR Evolution" trong buổi livestream vào 20:00 tối nay.

Tại sao công nghệ OCR (Nhận diện Kí tự Quang học) lại rất được quan tâm và những khó khăn để giải những bài toán OCR? cách thức tiếp cận tổng quát hóa (Methodology Generalization) giúp gì cho việc nghiên cứu OCR?


Q: Mình rất muốn tham gia các hoạt động của Cinnamon AI labs, nhưng chuyên ngành của mình không liên quan lắm và cũng không có nhóm, tuy nhiên mình cũng nắm khá ổn các kiến thức cơ bản của machine learning, deep learning và computer vision. Cinnamon có thể propose cho mình một nhóm hay một giải pháp không. Xin cảm ơn.

A: Cảm ơn bạn đã quan tâm đến Cinnamon AI Labs. Trong khuôn khổ cuộc thi, Cinnamon không đặt nặng yếu tố chuyên ngành, và khuyến khích tất cả các bạn có đam mê bền bỉ với AI/ML/DL tham gia thử sức.  


Q: Em đang làm quen với Python và chưa từng code Machine Learning thì có tham gia được không ạ?

A: Tính chất của cuộc thi Cinnamon AI Marathon không giới hạn về ngôn ngữ lập trình, em có thể lựa chọn C++, Java hoặc Matlab nhé. Tuy nhiên, phần hướng dẫn nộp bài sẽ yêu cầu đóng gói thành Docker file, em có thể tìm hiểu từ bây giờ để hoàn thiện bài làm của mình. Bên cạnh kết quả giải pháp (code), BTC còn đánh giá tư duy tiếp cận vấn đề của em thông qua đề xuất (proposal), nên em có thể tự tin thử sức nhé. 



 1. Đầu tiên khẳng định là đúng như em nói các thuật toán hay model về AI hiện nay đều dựa trên một nền tảng toán học. phải nói rằng 2 lĩnh vực này có mối liên hệ rất chặt chẽ.

2. Yêu cầu toán với một người mới tham gia lĩnh vực này ? anh có thể nói là từ 0 tới vô cực. Có rất nhiều người tham gia lĩnh vực này hiện nay với kiến thức toán học còn hạn chế. Chúng ta có thể bắt đầu từ những ứng dụng đơn giản, thực hành những thứ đơn giản để qua đó trải nghiệm và tạo niềm hứng thú để nghiên cứu sâu hơn vào việc chỉnh sửa thuật toán hay model. Đến giai này rõ ràng là em cần một nền tảng nào đó về toán học. Nhưng rõ ràng với tiếp cận như vậy em đã có thời gian tìm hiểu, và hiểu những gì mình cần làm. Lúc đó mục tiêu của em rất cụ thể, sẽ là động lực để em thực hiện những bước tiếp theo một cách say mê mà không nhàm chán.

3. Cách học như thế nào để bớt khô khan. Anh nghĩ có 2 trường phái chính, một số người thích trang bị cho mình một nền tảng vững chắc trước khi làm gì đó. Những người này thường đã có mục tiêu cụ thể và có tầm nhìn rõ rang. Bên cạnh đó, nhóm còn lại thì thích trải nghiệm hơn, trải nghiệm rồi học rồi lại bước tới những mục đích cao hơn…. Cái nào cũng có điểm hay và dở riêng. Em có thể chọn 1 cho minh. Bên cạnh đó, em hãy nhớ rằng bài toán nào cũng hầu như bắt nguồn từ thực tế, em hãy có gắn tìm hiểu vấn đề thực tế của nó thì sẽ thấy đơn giản và gần gũi hơn. Ví dụ như tích phân là dung để tính diện tích miền phức tạp – không theo hình dạng nào.

4. Dữ liệu là một vấn đề mà ai cũng có thắc măc hiện nay. Rõ ràng nắm nhiều dữ liệu là một lợi thế vô cùng. Em biết càng nhiều thì càng giỏi phải không ? Nhưng làm sao để có dữ liệu ? rất khó, bài toán này không ai trả lời được. Nhưng cũng không cần lo lắng, bên cạnh những dữ liệu kiểu công nghiệp mà chúng ta thường không có (hoặc tốn tiền mua), thì đâu đó cũng có những dữ liệu được công bố để giúp mọi người cùng nhau nghiên cứu (tùy lĩnh vực). Những người mới bắt đầu thì thường tìm những data này (google cũng là 1 kênh hay). Em có thể làm nhóm, nếu là sinh viên có thể hỏi thêm người hướng dẫn. Ở Cinnamon chúng tôi có một hướng tiếp cận mà em có thể tham khảo ”AI with less data”

5. Với dữ liệu quá nhiều thì chỉ có siêu máy tính chạy được thôi em. Ở mức độ chúng ta thì thật là khó. Em cần nhớ rằng dữ liệu và thuật toán luôn đi chung với nhau.

Nhận xét