Sunday, July 17, 2011

Tìm hiểu về biểu thức chính quy (regular expression)

Biểu thức so mẫu (pattern) dùng để mô tả 1 cách tổng quát 1 đối tượng (chuỗi) trong PHP, ví dụ:
preg_replace('/[^a-z0-9]+/i','',$str);
--> hàm này l loại bỏ tất cả các ký tự không phải là chữ (a-z và A-Z) hoặc số (0-9) ra khỏi chuỗi $str

Biểu thức so mẫu dùng rất hiệu quả và nhanh chóng, tuy nhiên theo TG biết thì cũng không nhiều người biết sử dụng cái này(nhất là ở nơi không có trường lớp đào tạo cơ bản về PHP như VN chúng ta) còn số người biết,hiểu rõ thì không training lại nên đã ít nay càng ít người biết sử dụng biểu thức so mẫu. Trong bài này TG chỉ giới thiệu 1 số kiến thức cơ bản và 1 vài ví dụ để dễ hiểu, hy vọng là giúp ít cho anh em.
Cấu trúc: như ví dụ trên thì /[^a-z0-9]+/i là 1 biểu thức so mẫu,
- giới hạn trong cặp dấu //x hoặc ##x
- x có thể là 1 hoặc nhiều ký tự để mô tả dữ liệu được lấy và cũng có thể không có trong biểu thức so mẫu. Một số giá trị có thể có của x:
+ i: không phân biệt chữ hoa, chữ thường
+ s: bao gồm cả các ký tự xuống dòng
+ Ngoài còn có 1 số giá trị khác như: S,U,... nhưng ít được sử dụng

Ta lấy ví dụ cho dễ hình dung:
preg_replace('/[^a-z0-9]/','','phpBASIC$')
-> php
preg_replace('/[^a-z0-9]/i','','phpBASIC$')
-> phpBASIC
Ý nghĩa của các ký tự trong biểu thức so mẫu:

\ loại bỏ các ký tự đặc biệt của pattern
/(phpbasic)/ : chuỗi phpbasic
/\(phpbasic\)/ : chuỗi (phpbasic)


^ ký tự bắt đầu
/^php(.*)/ : những chuỗi bắt đầu bằng chữ php


$ ký tự kết thúc
/(.*)basic$/ : những chuỗi kết thúc bằng chữ basic


. bất kỳ ký tự nào trừ ký tự xuông dòng
/(.*)/ : tất cả các ký tự nằm trên 1 dòng


[ và ] bắt đầu và kết thúc 1 lớp ký tự
/[a-z]/ : tất cả các ký tự a-z
chú ý trong 1 lớp:
^ phủ định:
/[^a-z]/ : những ký tự không phải là a-z
- 1 khoảng:
/[a-d]/ : bao gồm a,b,c,d


| hoặc
/a|b/ : ký tự a hoặc b
( và ) bắt đầu và kết thúc 1 so mẫu con
/^a(c|d)b/ : chuỗi có dạng acb hoặc acd


? có hoặc không
/ab?c/ : chuỗi có dạng abc hoặc ac


* : 0 hoặc nhiều hơn ký tự
/a*/ : , a, aa, aaa,.............


+ : có ít nhất 1
/a+/ : a,aa,aaa,...............


{ và } bắt đầu và kết thúc min/max ký tự
/a{1,3}/ : a,aa,aaa


Các ký tự đặc biệt khác:

\n hoặc \r : ký tự xuông dòng
\t : ký tự tab
\d : bất kỳ ký tự số nào
\D : bất kỳ ký tự nào mà không phải là số
\s : bất kỳ ký tự khoảng trắng
\S : bất kỳ ký không phải là khoảng trắng
\w : bất kỳ từ nào ([a-zA-Z0-9])
\W : không phải là từ ([^a-zA-Z0-9])

No comments: