0. SMILES는 ASCII 문장으로 화학물의 구조를 나타내기 위한 표기법이다.
복잡한 화학물을 한 줄로 표기할 수 있기에
line notation(line-entry) 시스템으로 불린다.
line notation(line-entry) 시스템으로 불린다.
1. SMILES 방식으로 에탄올을 표기하면 다음과 같다.
CCO, OCC, C(O)C
세 가지 모두 같은 에탄올을 지칭하고 있다.
2. 원자를 나타내는 abbreviation은 일반적인 화학물의 원소명을 따른다.
예를 들어서 [Au]는 금이고, C는 탄소, O는 산소, Cl은 염소, Br은 브롬을 나타낸다.
브라켓(이란 '['나 ']'같은 것을 말함)은 실제 사용 시 생략될 수 있다.
3. 위에서 말한 원소들을 포함, 다른 원소들도 formal charge를 갖지 않으며,
SMILES 균형 모델(일반 모델이라고도 함)에 의해 수소가 붙는다는 것을 전제로 하며,
N은 3개, P는 5개, S는 2, 4개 혹은 6개가 붙음을 의미한다.
이것들은 모두 normal isotopes이고, chiral centers를 적용하지 않는다.
4. 단일결합은 '-'로 표시하고, 이중결합은 '='로,
삼중결합은 '#'로, 4중결합은 '$'로 표시한다.
그래서 이산화탄소는 O=C=O, hydrogen cyanide(HCN)는 C#N으로 나타낸다.
결합하지 않은 상태(non-bond)는 '.'으로 나타낸다. [Na+].[Cl-]같은 것들.
5. 방향족 고리구조에서 관찰할 수 있는 1.5결합을 하는 경우는 ':'로 표시한다.
예를 들어서 'C:1:C:C:C:C:C1'처럼 6개의 탄소 고리구조를 나타낼 수 있다.
6. 가지치기(branching)는 괄호를 이용해서 분리해줄 수 있다.
예를 들어서 CCC(=O)O (propionic acid)나 FC(F)F (fluoroform)처럼.
7. 입체이성질체(stereoisomer) 표기가 용인되긴 하지만 요구사항인 것은 아니다.
기호는 '/'와 '\'를 이용해 방향이 다름을 나타낼 수 있다.
(trans-1,2-difluoroethylene)
위 물질은 두 탄소의 이중결합으로 인해 F의 위치가 cis-와 trans-로 달라질 수 있는
입체이성질체이다. 위 tran-의 표기법은 F/C=C/F 이다.
한편 cis-형은 F/C=C\F 로 표기한다.
8. Tetrahedral carbon의 경우엔 '@'와 '@@'로 방향을 나타낼 수 있다.
SMILES 표기법에 대해 찾아보게 된 이유 (2)...
4개의 결합을 가졌을 땐 나타나는 순서대로 왼쪽에서 오른쪽으로 판단한다.
첫 번째 결합(bond)의 시점에서 중앙 탄소를 바라보았을 때
반시계 방향이면 @를, 시계 방향이면 @@를 쓴다.
(@ 자체가 반시계 방향을 의미하는 기호라고 함)
예를 들어서, 아미노산인 alanine을 보면
SMILES 형식으론 NC(C)C(=O)O 라고 쓸 수 있다. (붉은색 C가 alpha carbon임)
그 중에도 L-alanine이 더 흔한 enantiomer로서, N[C@@H](C)C(=O)O 라고 적는다.
Alpha carbon을 질소의 위치에서 바라봤을 때 시계방향으로
수소(H), methyl(C), carboxylate(C(=O)O)가 보이게 되니까 C@@H 를 쓰고
그 뒤로 C(methyl)와 C(carboxylate)가 연달아 온 것이다.
(Rules of priority order에 대해선 여기에서 설명하지 않음)
그런데 이런 광학이성질체는 정규화가 안 된 것도 있었던 모양이다.
@와 @@를 통해 이성질체를 구분한 것을 isomeric SMILES라고 부른다고 한다.
번외.
9. 이런 곳이나 이런 곳에서 SMILES를 번역해서 SDF, PDB, MOL 파일로까지 만들어준다.
그리고 분자동역학의 포토샵 격인 Schrodinger의 Maestro에서도
LigPrep을 통해 SMILES 포맷의 파일을 넣어서 작업할 수 있다.
한편 cis-형은 F/C=C\F 로 표기한다.
8. Tetrahedral carbon의 경우엔 '@'와 '@@'로 방향을 나타낼 수 있다.
4개의 결합을 가졌을 땐 나타나는 순서대로 왼쪽에서 오른쪽으로 판단한다.
첫 번째 결합(bond)의 시점에서 중앙 탄소를 바라보았을 때
반시계 방향이면 @를, 시계 방향이면 @@를 쓴다.
(@ 자체가 반시계 방향을 의미하는 기호라고 함)
예를 들어서, 아미노산인 alanine을 보면
(Alanine)
SMILES 형식으론 NC(C)C(=O)O 라고 쓸 수 있다. (붉은색 C가 alpha carbon임)
그 중에도 L-alanine이 더 흔한 enantiomer로서, N[C@@H](C)C(=O)O 라고 적는다.
Alpha carbon을 질소의 위치에서 바라봤을 때 시계방향으로
수소(H), methyl(C), carboxylate(C(=O)O)가 보이게 되니까 C@@H 를 쓰고
그 뒤로 C(methyl)와 C(carboxylate)가 연달아 온 것이다.
(Rules of priority order에 대해선 여기에서 설명하지 않음)
그런데 이런 광학이성질체는 정규화가 안 된 것도 있었던 모양이다.
@와 @@를 통해 이성질체를 구분한 것을 isomeric SMILES라고 부른다고 한다.
번외.
9. 이런 곳이나 이런 곳에서 SMILES를 번역해서 SDF, PDB, MOL 파일로까지 만들어준다.
그리고 분자동역학의 포토샵 격인 Schrodinger의 Maestro에서도
LigPrep을 통해 SMILES 포맷의 파일을 넣어서 작업할 수 있다.