Molecules and reactions on the (semantic) web; more than documentation

Everything (data-wise) coupled with everything via logic/reasoning, thatīs what the semantic web in essence is about. So text and images (and more) that are not just meaningful to people anymore, but to computers too. For that all sorts of open formats (like HTML for example is and MS Word .doc isnīt) are needed, and available. For chemistry in particular, there are CML (Chemical Markup Language) en INChi (The IUPAC/NIST Chemical Identifier), and more generally, among others also XML-languages like MathML, (X)HTML and SVG.

CML: [1]
CML has already been used to manage documents and information in Macromolecular Sequences, Macromolecular Structures, Spectra, Organic Molecules, Publishing, Quantum Chemistry, Inorganic Crystallography, Hypertext (HTML), Databases, Terminology, Regulatory processes, Molecular databases and others.

INChI: [2]
The INChI is a layered identifier and consists of the following components: disjoint species, molecular formula, connectivity, hydrogen decoration, possible tautomerism, charge on fragments, stereochemistry at double bonds, stereochemistry at pyramidal and tetrahedral stereogenic centres.

MathML:
Mathematical markup Language, for formulas, etc.

SVG:
Scalable Vector Graphics. Graphics in a handy exchangable format. Very versatile, next to nice images that are easy to generate you can also make animations with it or build in interaction.

An application:
A chemical recipe in 'natural' language is read by a computer, out of which fully automatically an animation of the chemical process is generated, including what happens at molecular level. That fits just as easy within documentation with text and accompanying mathematical formulas, or on a website. Of course related data is found through the unique INChI. And if heavy calculations are needed they are accelerated through using screensaver time from other computers on the network.

This quite extreme example sounds fantastic, but the first working examples already exist.

If you want to know more, read "Representation and use of chemistry in the global electronic age" [3] or Google for Peter Murray-Rust and Henry Rzepa. Or even better, come to a presentation, cause these two top figures in this field of work will most likely present at the university of Twente in August. More specifically, at SVG Open 2005 [4], the international SVG conference. See the website for more information (students about half price).



[1] Chemical Markup Language
taken from http://www.xml-cml.org/faq/

[2] The IUPAC/NIST Chemical Identifier, INChI
http://lists.w3.org/Archives/Public/public-swls-ws/2004Sep/att-0026/inchi.html

[3]
"Representation and use of chemistry in the global electronic age"
http://www.ch.ic.ac.uk/rzepa/obc_b410732b.pdf

[4]
SVG Open 2005
http://www.svgopen.org/2005





Moleculen en reacties op het (semantische) web; meer dan documentatie

Alles (qua gegevens) koppelen aan alles via logica/redeneerschema's, daar komt het semantic web eigenlijk op neer. Dus tekst en plaatjes (en meer) die niet alleen meer voor de mens betekenis hebben, maar ook voor de computer. Hiervoor zijn allerlei open formaten (zoals bijv. HTML wel is en MS Word .doc niet) nodig, en ook beschikbaar. Voor de chemie in het speciaal zijn dat CML (Chemical Markup Language) en INChi (The IUPAC/NIST Chemical Identifier), maar iets algemener o.a. ook XML-talen als MathML, (X)HTML en SVG.

CML: [1]
CML has already been used to manage documents and information in Macromolecular Sequences, Macromolecular Structures, Spectra, Organic Molecules, Publishing, Quantum Chemistry, Inorganic Crystallography, Hypertext (HTML), Databases, Terminology, Regulatory processes, Molecular databases and others.

INChI: [2]
The INChI is a layered identifier and consists of the following components: disjoint species, molecular formula, connectivity, hydrogen decoration, possible tautomerism, charge on fragments, stereochemistry at double bonds, stereochemistry at pyramidal and tetrahedral stereogenic centres.

MathML:
Mathematical markup Language, o.a. voor wiskundige formules

SVG:
Scalable Vector Graphics. Graphics in een handig uitwisselbaar formaat. Zeer veelzijdig, naast mooie plaatjes die makkelijk te genereren zijn kun je er ook o.a. animaties mee maken en interactie mee inbouwen.

Een toepassing:
Een chemisch recept in 'natuurlijke' taal wordt door de computer ingelezen, waaruit ie vervolgens automatisch een animatie van het scheikundig proces genereert inclusief wat er zich op moleculair niveau afspeelt. Dat gaat net zo makkelijk binnen documentatie met tekst en bijbehorende wiskundige formules, of op een website. Natuurlijk zijn bijbehorende gegevens, via de unieke INChI gevonden. En eventuele zware berekeningen zijn met hulp van de screensaver-tijd van ander computers op het netwerk versneld.

Dit redelijk extreme voorbeeld klinkt fantastisch, maar de eerste werkende demo's bestaan al.

Als je meer wilt weten lees dan "Representation and use of chemistry in the global electronic age" [3] of Google naar Peter Murray-Rust en Henry Rzepa. Of nog beter, kom naar een presentatie, want deze twee toppers in het vakgebied presenteren waarschijnlijk op de UT in Augustus. En wel op SVG Open 2005 [4], de internationale SVG conferentie. Zie de website voor meer informatie (voor studenten ong. halve prijs).



[1] Chemical Markup Language
taken from http://www.xml-cml.org/faq/

[2] The IUPAC/NIST Chemical Identifier, INChI
http://lists.w3.org/Archives/Public/public-swls-ws/2004Sep/att-0026/inchi.html

[3]
"Representation and use of chemistry in the global electronic age"
http://www.ch.ic.ac.uk/rzepa/obc_b410732b.pdf

[4]
SVG Open 2005
http://www.svgopen.org/2005