Бих искал да напиша регулярен израз, който ще съответства на всички форми с ударение на определен знак в текст, кодиран с помощта на някакво Unicode кодиране, без изрично да изброявам всички такива форми в клас знаци.
Така че, например, ако искам да съпоставя която и да е версия с ударение на a
, [aàáâãäå]
е недостатъчно, тъй като получава само a
, които живеят в ISO-8859-1, и може да има други ударения, които не се срещат там . Нещо, което би било приемливо, е нещо като \p{Base_Character: a}
, ако имаше такова нещо, дефинирано в Unicode. Съществува ли нещо, което прави това?
Редактиране: Не мога първо да направя низа в ASCII --- низът е в база данни, до която нямам пряк достъп. Всъщност нямам достъп на ниво код до нищо тук. Единственият вход, който мога да дам, е регулярен израз.