CẢI TIẾN GIỐNG KHOAI

Thứ Hai, 1 tháng 6, 2026

Phân tích toàn diện hàm lượng protein VOZ trong khoai lang và khả năng đáp ứng với stress phi sinh học

 Phân tích toàn diện hàm lượng protein VOZ trong khoai lang và khả năng đáp ứng với stress phi sinh học

Nguồn: Zhidan ZuoYeshun ShengChenglin JiaHuihui MaYuxin Wang. 2026. Comprehensive analysis of VOZ proteins in sweet potato and related species reveals their evolutionary dynamics and responses to abiotic stresses. Front Plant Sci.; 2026 Mar 13: 17:1775128.doi: 10.3389/fpls.2026.1775128.

    Yếu tố phiên mã  VOZ  (Vascular Plant One-Zinc Finger) đặc trưng cho họ protein rất chuyên biệt với cây (protein điều chỉnh), chúng đóng vai trò then chốt trong tăng trưởng, phát triển cây trồng, đồng thời thích ứng với stress sinh học và stress phi sinh. Mặc dù các gen  _VOZ_ đã và đang được báo cáo trong nhiều loài thực vật, nhưng tổ chức trong hệ gen như thế nào, lịch sử tiến hóa ra sao, động thái biến dị theo chức năng của cây khoai lang vẫn còn chưa được khai thác.

    Người ta tình hành nghiên cứu toàn diện toàn bộ hệ gen của những thành viên thuộc họ gen VOZ qua sáu loài thuộc chi Ipomoea, đó là I. aquatica (Iaq), I. cairica (Ica), I. nil (Inil), I. triloba (Itb), I. trifida (Itf), và Ipomoea batatas (Ib). Theo quan hệ di truyền huyết thống, đặc điểm protein, kiến trúc gen, các motifs bảo thủ, promoter cis-elements, định vị trên nhiễm sắc thể, tính đồng dạng tuyến tính (collinearity patterns), có 14 gen VOZ đã được phân lập và phân tích một cách hệ thống. Kết quả cho thấy có một giảm sút số bản sao chép gen VOZ, kèm theo đó là sự đa dạng về kiến trúc và chức năng của gen trong suốt thời kỳ tiến hóa (evolutionary trajectory) của các loài Ipomoea này. Hơn nữa, phổ biểu hiện phiên mã và đặc điểm của tương tác  protein-protein trong cây khoai lang chỉ ra rằng các gen VOZs của I. trifida (ItfVOZs) và I. batatas (IbVOZs) có liên quan đến sự điều hòa phát triển, chu trình truyền tín hiệu qua hormone, và khả năng thích ứng với stress. Kết quả nghiên cứu cung cấp toàn hiện khung hệ gen của họ gen VOZ qua sáu loài của chi Ipomoea và cung cấp một luận cứu chắc chắn làm rõ vai trò chức năng của khoa lang trồng.

Xem https://pubmed.ncbi.nlm.nih.gov/41907756/

GHI CHÚ

Dựa trên các thông tin  (quan hệ huyết thống, đặc điểm protein, kiến trúc gen, motif bảo thủ, cis-element, vị trí NST và tính đồng dạng tuyến tính), đây chính là một kịch bản nghiên cứu điển hình về phân tích tin sinh học hệ gen ở cấp độ toàn hệ gen (Genome-wide analysis) của một họ gen cụ thể — trong trường hợp này là họ gen VOZ (Vascular Plant One-Zinc-Finger) gồm 14 thành viên.

Để giúp bạn hình dung cách liên kết các dữ liệu này thành một bức tranh nghiên cứu hoàn chỉnh, dưới đây là phân tích chi tiết cho từng cấu phần:

1. Mối quan hệ di truyền huyết thống & Đặc điểm Protein

  • Cây phát sinh chủng loại (Phylogenetic Tree): 14 gen VOZ sẽ được căn chỉnh chuỗi (sequence alignment) để xây dựng cây tiến hóa. Qua đó, bạn sẽ xác định được họ gen này chia thành bao nhiêu nhóm phụ (subfamilies/clades) và mối quan hệ họ hàng giữa các thành viên.

  • Đặc điểm cấu trúc Protein: Phân tích các thông số lý hóa như trọng lượng phân tử (Mw), điểm đẳng điện (pI), và vị trí định vị trong tế bào (thường các yếu tố phiên mã VOZ sẽ định vị ở nhân hoặc tế bào chất).

2. Kiến trúc Gen & Các Motifs bảo thủ

  • Cấu trúc Exon/Intron: Việc so sánh số lượng và chiều dài của exon/intron giữa 14 gen VOZ giúp làm sáng tỏ sự tiến hóa về mặt cấu trúc. Các gen trong cùng một phân nhóm (clade) thường có cấu trúc exon/intron rất tương đồng.

  • Motif bảo thủ (Conserved Motifs): Sử dụng các công cụ như MEME để tìm kiếm các motif đặc trưng. Đối với họ VOZ, chắc chắn sẽ xuất hiện domain bảo thủ VOZ (Vascular Plant One-Zinc-Finger) giúp chúng thực hiện chức năng liên kết DNA.

3. Vùng Promoter & Các Cis-elements (Yếu tố tác kích cis)

  • Phân tích vùng điều hòa: Thường phân tích đoạn sequence khoảng 1500 - 2000 bp phía trước mã mở đầu (ATG).

  • Chức năng dự đoán: Tìm kiếm các cis-elements liên quan đến:

    • Đáp ứng hormone (ABA, Auxin, Gibberellin, Salicylic Acid…).

    • Đáp ứng stress phi sinh học (khô hạn, mặn, nhiệt độ cao/thấp).

    • Sự phát triển của cây (ra hoa, phát triển mạch dẫn).

    Ý nghĩa: Giúp dự đoán gen VOZ nào sẽ “bật” hoặc “tắt” trong các điều kiện môi trường cụ thể.

4. Định vị trên Nhiễm sắc thể (Chromosomal Mapping)

  • 14 gen VOZ sẽ được “gắn vị trí” chính xác trên các nhiễm sắc thể (locus cụ thể).

  • Bản đồ này cho thấy các gen phân bố tập trung ở một vài NST hay rải rác toàn bộ hệ gen, đồng thời phát hiện các cụm gen (gene clusters).

5. Tính đồng dạng tuyến tính (Collinearity/Synteny Patterns)

Đây là chìa khóa để trả lời câu hỏi: "Tại sao từ một vài gen tổ tiên ban đầu lại tiến hóa thành 14 gen VOZ như hiện tại?"

  • Duplicaton Events (Sự nhân đôi gen): Phân tích tính đồng dạng giúp xác định xem họ gen VOZ mở rộng là do nhân đôi toàn hệ gen (WGD/Segmental duplication) hay nhân đôi nối tiếp (Tandem duplication).

  • Phân tích Synteny liên loài: So sánh tính đồng dạng tuyến tính giữa loài bạn đang nghiên cứu với các loài mô hình khác (như Arabidopsis, lúa, v.v.) để thấy được sự bảo thủ tiến hóa của họ gen VOZ qua các mốc thời gian lịch sử.

Tóm tắt giá trị nghiên cứu

Cần tìm hiểu công cụ/phần mềm nào (như TBtools, MEGA, MEME, PlantCARE) 

Chủ Nhật, 31 tháng 5, 2026

Điều tiết biến dưỡng và phân tử tính trạng tích tụ anthocyanin trong diều kiện bị stress P của giống khoai lang ruột tím

 Điều tiết biến dưỡng và phân tử tính trạng tích tụ anthocyanin trong diều kiện bị stress P của giống khoai lang ruột tím

Nguồn: Lei ZhangAfsheen ZehraRong JinJinhua ZhouLili LuWei JiangYan YangZulfiqar Ali SahitoWanlin YangZhonghou Tang. 2026. Molecular and metabolic regulation of anthocyanin accumulation under phosphorus stress in purple-fleshed sweet potato. Plant Physiol Biochem.; 2026 Apr: 233:111061. doi: 10.1016/j.plaphy.2026.111061.

Khoai lang ruột tím PFSP (purple-fleshed sweet potato) (Ipomoea batatas) là giống khoai lang giàu nguồn anthocyanins, mà chất này có khả năng thực hiện antioxidants (chống ô xi hóa), đóng góp nhiều vào kết quả chống chịu stress. Tuy nhiên, những cơ chế phân tử điều tiết sinh tổng hợp anthocyanin của giống khoai lang PFSP trong điều kiện thiếu hoặc đói lân vẫn chưa được biết rõ. Theo nghiên cứu này, người ta tiến hành phân tích transcriptomic và metabolomic trên giống khoai lang Xuzishu No. 8 được trồng với 3 nghiệm thức xử lý lân khác nhau: XP0 (0 g), XP1 (1.85 g), và XP2 (3.70 g). Cho dù phosphorous không ảnh hưởng đáng kể đến hàm lượng anthocyanin tổng số, nhưng có sự thay đổ đáng chú ý trong hoạt tính của những enzymes chủ lực về sinh học (CHl, DFR, OPC, PAL và UFGT). Kết quả phân tích RNA-seq xác định được 8,906 gen DEGs (differentially expressed genes) với 11.215 gen mới qua nghiệm thức xử lý này. Phương pháp “KEGG pathway enrichment analysis” cho kết quả là hấu hết những gen DEGs đếu gắn liền với sinh tổng hợp chất phenylpropanoid. Phổ biểu hiện metabolomic đã phát hiện được 110 chất biến dưỡng DEMs (differentially expressed metabolites), trong đó, có sáu DEMs là phỗ biến cho mọi nghiệm thức và có 16 DEMs được chia sẻ giữa 2 nhóm nghiệm thức. Chú thích chức năng di truyền của DEMs chỉ ra rằng có một ức chế chung trong lộ trình sinh tổng hợp anthocyanin, qua những nghiệm thức xử lý, trong khi đó, sinh tổng hợp flavone và flavonol vẫn duy trì hoạt động rất nhất quán. Chú ý, quercetin-3-O-glucoside xuất hiện để đóng vai chủ chốt trong việc khôi phục sinh tổng hợp anthocyanin. Phân tích có tính chất tích hợp transcriptome và metabolome cho thấy có một sự điều tiết rất mạnh kết hợp giữa DEGs và DEMs, đặc biệt, trong lộ trình sinh tổng hợp anthocyanin và flavonoid. Bên cạnh, kết quả phân tích “canonical correspondence” (CCA) và PCA (principal component analysis),biểu đồ “biplot” cho thấy tính trạng tích tụ anthocyanin được điều khiển bởi hoạt động tích hợp của rất nhiều gen, với phần mềm Tai6.6720 xác định được một gen điều tiết chủ yếu liên kết chặt với các chất biến dưỡng tích cực (pelargonidin-3-O- glucoside và cyanidin-3-O- glucoside). Kết quả nhấn mạnh tác động có ý nghĩa của stress thiếu lân trên sự tái lập trình phiên mã và biến dưỡng của lộ trình sinh tổng hợp anthocyanin như một phản ứng thích nghi. Kết quả cho thấy luận điểm khoa học mới về hệ thống điều tiết di truyền điều khiển tính trạng tích tụ anthocyanin trong khoai lang, một nền tảng có giá trị của chiến lược quản lý dinh dưỡng  và nội dụng cải tiến giống phân tử nhằm cải thiện giống khoai chống chịu stress.

Xem https://pubmed.ncbi.nlm.nih.gov/41941854/

GHI CHÚ

Để làm chủ được chuỗi phân tích tích hợp dữ liệu Transcriptomics (RNA-seq) và Metabolomics, nằm trong lĩnh vực tiên tiến và thú vị nhất của Sinh học hệ thống (Systems Biology).

1. Nền tảng về RNA-seq & Metabolomics (Kiến thức đầu vào)

Trước khi tích hợp, bạn phải hiểu rõ bản chất của từng loại dữ liệu độc lập.

Transcriptomics (RNA-seq)

  • Pipeline xử lý dữ liệu thô (Raw data): Cách QC (FastQC), cắt lọc (Trimmomatic), mapping vào hệ gen tham chiếu (HISAT2, STAR) và đếm số đọc (featureCounts).

  • Phân tích biểu hiện gen sai biệt (DEG - Differentially Expressed Genes): Hiểu cách hoạt động của các gói lệnh như DESeq2 hoặc EdgeR (sử dụng phân phối Negative Binomial).

  • Chuẩn hóa dữ liệu: Phân biệt RPKM, FPKM, TPM và cách chuyển đổi log-transform để vẽ biểu đồ.

Metabolomics

  • Đặc thù dữ liệu: Dữ liệu định tính/định lượng từ sắc ký khối phổ (LC-MS, GC-MS) hoặc NMR.

  • Xử lý sơ bộ (Preprocessing): Alignment, lọc nhiễu (noise filtering), và chuẩn hóa dữ liệu (normalization/scaling như Auto-scaling, Pareto scaling) vì nồng độ chất chuyển hóa chênh lệch rất lớn.

  • Định danh chất (Metabolite Identification): Cách tra cứu các ID chất trên các database như HMDB, PubChem, ChEBI.

2. Phân tích thống kê đa biến (PCA, CCA & Biplot)

Đây là nhóm công cụ giúp bạn giảm chiều dữ liệu (dimensionality reduction) và tìm mối quan hệ giữa các tập dữ liệu lớn.

PCA (Principal Component Analysis - Phân tích thành phần chính)

  • Bản chất: Phương pháp học không giám sát (unsupervised). Nó giúp bạn gom cụm các mẫu (samples) xem các nhóm sinh học (ví dụ: Đối chứng vs. Bệnh lý) có tách biệt rõ ràng không.

  • Kiến thức cần học: Cách giải thích tỷ lệ phương sai (Variance explained) của PC1, PC2.

CCA (Canonical Correspondence Analysis - Phân tích tương hợp chuẩn)

  • Bản chất: Phương pháp phân tích trực giao có giám sát/ràng buộc (constrained). Thường dùng để xem tập dữ liệu này (ví dụ: Metabolome) bị giải thích hoặc “ràng buộc” như thế nào bởi tập dữ liệu kia (ví dụ: một nhóm Gen biến động hoặc các yếu tố môi trường).

  • Kiến thức cần học: Phân biệt giữa CCA tuyến tính (Canonical Correlation Analysis) và CCA phi tuyến trong sinh thái/vi sinh (Correspondence).

Biplot

  • Cách đọc biểu đồ: Biplot kết hợp cả Score plot (vị trí của các mẫu) và Loading plot (hướng và độ dài của các vector biến - gen hoặc chất chuyển hóa).

  • Nguyên lý: Nếu một mẫu nằm cùng hướng với một vector chất chuyển hóa, nghĩa là mẫu đó có nồng độ chất đó cao. Nếu hai vector (Gen A và Chất B) nằm sát nhau và kéo dài, chúng có mối tương quan thuận mạnh.

3. Phân tích làm giàu con đường sinh học (KEGG Pathway Enrichment)

Biến danh sách “Gen” hoặc “Chất” khô khan thành ý nghĩa sinh học.

  • Học thuyết thống kê: Hiểu cách tính toán p-value thông qua Kiểm định siêu hình (Hypergeometric test) hoặc Fisher’s Exact Test.

  • Nguyên lý: Giả sử bạn có 100 gen biến động, nếu 20 gen trong số đó cùng thuộc con đường “Glycolysis” (Đường phân), thuật toán sẽ tính xem tỷ lệ này là ngẫu nhiên hay thực sự có ý nghĩa sinh học.

  • Công cụ cần học: * Web-based: David, MetaboAnalyst (rất mạnh cho Metabolomics).

    • R packages: clusterProfiler (đỉnh cao cho RNA-seq), Pathview (để tô màu gen/chất lên sơ đồ con đường KEGG).

4. Tích hợp dữ liệu “Multi-omics” (Transcriptome + Metabolome)

Đây là đỉnh tháp - nơi bạn liên kết RNA và Metabolite lại với nhau.

Tích hợp dựa trên Con đường (Pathway-based Integration)

  • Joint Pathway Analysis: Đưa cả danh sách DEG (từ RNA-seq) và danh sách chất biến động (from Metabolomics) vào chung một sơ đồ KEGG để xem con đường nào bị ảnh hưởng toàn diện từ mức độ phiên mã đến sản phẩm chuyển hóa.

Tích hợp dựa trên Thống kê & Mạng lưới (Correlation & Network-based)

  • Học hệ số tương quan: Pearson/Spearman correlation giữa biểu hiện Gen và nồng độ Chất.

  • Công cụ nâng cao:

    • WGCNA (Weighted Gene Co-expression Network Analysis): Tìm các module gen đồng biểu hiện, sau đó tương quan các module này với nồng độ các chất chuyển hóa.

    • mixOmics (R package): Công cụ cực mạnh chuyên framework DIABLO, PLS-DA để tích hợp đa omics.

    • Cytoscape: Phần mềm dùng để vẽ và tối ưu mạng lưới tương tác Gen - Chất.

Kế hoạch hành động: Bạn nên học gì trước?

  1. Ngôn ngữ lập trình: Học chắc R (hoặc Python, nhưng R mạnh hơn về mảng Multi-omics nhờ hệ sinh thái Bioconductor). Học cách dùng ggplot2 để vẽ Biplot.

  2. Thống kê cơ bản đến đa biến: Hiểu rõ p-valueq-value (FDR), Hiệp phương sai (Covariance), và Đại số tuyến tính cơ bản (Ma trận, Vector riêng - Eigenvector để hiểu PCA).

  3. Thực hành theo chuỗi (Pipeline):

    • Bước 1: Chạy dữ liệu RNA-seq bằng DESeq2  Ra danh sách Gen.

    • Bước 2: Chạy dữ liệu Metabolomics  Ra danh sách Chất.

    • Bước 3: Chạy PCA cho từng tập dữ liệu để check QC.

    • Bước 4: Dùng MetaboAnalyst (bản web) để chạy thử Joint Pathway Analysis (đây là cách dễ tiếp cận nhất để thấy bức tranh tổng quan).

    • Bước 5: Học code gói mixOmics hoặc clusterProfiler trên R để tùy biến chuyên sâu.